Makalah super-selaras “terakhir” OpenAI: Permainan model besar dan kecil, keterbacaan keluaran up

Makalah super-penyelarasan "terakhir" OpenAI: permainan model besar dan kecil, keterbacaan keluaran meningkat

2024-07-18

Crecy berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

membiarkanModel besar dan kecil saling bersaing, Anda dapat meningkatkan keterbacaan konten yang dihasilkan!

Ini adalah penelitian serius dari OpenAI. Tujuannya adalah untuk membuat keluaran model lebih mudah dipahami sekaligus memastikan akurasi.

Setelah pelatihan dengan metode ini, keakuratan penilaian manusia terhadap keluaran model meningkat secara signifikan, dan kecepatannya juga menjadi lebih cepat.

Penelitian yang dilakukan oleh tim "Hyper-Alignment" OpenAI yang sudah tidak ada lagi ini meniru penelitian tahun 2021 yang dilakukan oleh akademisi Universitas Toronto.Permainan "Pemeriksa-Pemeriksa".。

Selama proses pelatihan, OpenAI menjadikan model besar berfungsi sebagai "pemberi sertifikasi" dan model kecil sebagai "verifikator", yang memungkinkan kedua identitas ini bersaing satu sama lain.

Pada akhirnya, hasil keluaran dari model besar tidak hanya ituLebih mudah untuk dipahami dan tidak ada kehilangan akurasi yang nyata., tingkat penilaian model kecil juga meningkat.

Bahkan salah satu penulis makalah tersebut, peneliti OpenAI Yining Chen, mengatakan bahwa pendekatan ini “mempunyai potensi untuk membuat model masa depan lebih pintar dari manusia.”

Perlu disebutkan bahwa mantan ketua Tim Super Alignment dan penulis RLHFJan LeikeDia juga berpartisipasi dalam penelitian ini. Ketika dia meninggalkan pekerjaannya, dia mengkritik OpenAI karena tidak memperhatikan keamanan.

Namun, di akhir tweet Jan Leike yang memperkenalkan makalah ini, dia mengiklankan Anthropic (produsen Claude) di mana dia sekarang merekrut orang.

Penulis makalah lainnya, peneliti OpenAI Nat McAleese, mengungkapkan dalam sebuah tweet bahwa ini akan menjadi makalah penyelarasan super (Final) OpenAI yang terakhir.

Kabar ini membuat beberapa netizen heboh hingga mengatakan bahwa ini bukan artikel terakhir. Nat, kamu akan terus melakukan penyelarasan super kan?

Biarkan para model bermain melawan satu sama lain

Penelitian OpenAI menemukan bahwa konten yang dihasilkan oleh model besar memiliki beberapa keseimbangan dalam dua dimensi yaitu akurasi dan keterbacaan——

Jika Anda mengoptimalkan dengan akurasinya sendiri sebagai tujuannya, hal ini akan menyebabkan penurunan keterbacaan; jika Anda menjadikan keterbacaan sebagai tujuannya, akurasi Anda sendiri akan hilang.

Bahkan pada tugas-tugas sederhana tingkat matematika sekolah dasar, mudah untuk melihat kesenjangannya, yang oleh OpenAI disebut sebagai "pajak pemahaman".

Namun, apakah manusia dapat memahami konten yang dihasilkan oleh model merupakan prasyarat penting untuk membuat penilaian yang akurat, dan oleh karena itu juga berdampak penting pada keamanan.

Meski mengesampingkan hal ini, pemahaman konten secara langsung menentukan apakah model tersebut dapat memberikan bantuan yang berguna bagi manusia.

Penelitian ini terinspirasi oleh permainan "pemberi sertifikat" yang diusulkan oleh para peneliti di Universitas Toronto pada tahun 2021, dan melatih model tersebut melalui permainan tersebut.

pepatahMemiliki kekuatan komputasi yang kuat dan kemampuan untuk melakukan perhitungan yang rumit dan menghasilkan bukti, tugasnya adalah mencoba meyakinkan verifikator bahwa pernyataan tertentu benar.

validatorKemudian hanya perhitungan yang relatif sederhana yang dapat dilakukan, dan proses interaktif diperlukan untuk menentukan apakah bukti yang diberikan oleh pembuktian dapat dipercaya.

Misalnya, ada masalah matematika yang memerlukan penyelesaian ekspresi suatu fungsi. Pembukti mengetahui ekspresi tersebut (tetapi belum tentu benar) dan ingin pemverifikasi yakin bahwa jawabannya benar.

Verifikator mengetahui nilai fungsi yang sesuai dengan beberapa variabel independen, dan dapat menggunakan informasi ini untuk menguji pembukti, dan menilai apakah dia mengetahui fungsi yang benar berdasarkan apakah jawabannya akurat.

Dengan cara ini, OpenAI berupaya mencapai keseimbangan antara akurasi dan keterbacaan, menggantikan kehilangan akurasi yang relatif kecil dengan keterbacaan yang lebih tinggi.

Dalam proyek ini, tim OpenAI menggunakan dataset yang berisi soal matematika sekolah dasar, solusi, dan jawaban yang benar.

Untuk modelnya, model seri GPT-4 dengan ukuran berbeda dipilih, dengan model yang lebih besar berfungsi sebagai pembukti dan model yang lebih kecil berfungsi sebagai pemverifikasi.

Kumpulan data dibagi secara acak menjadi dua himpunan bagian berukuran sama, yang masing-masing digunakan untuk pelatihan pembukti dan pemverifikasi.

Pepatah diberi dua peran: membantu dan licik, masing-masing menghasilkan solusi yang benar dan salah.

Namun kesamaannya adalah keduanya membutuhkan solusinya agar diberi skor tinggi oleh verifikator.

△ Evolusi dari pembuktian licik dalam berbagai putaran pelatihan

Kedua peran ini tidak tetap dan perlu dibuktikanBergantian, dihargai ketika perilakunya konsisten dengan peran yang dimainkan.

Pelatihan ini dibagi menjadi beberapa babak. Di setiap babak, tim akan mengekstraksi kumpulan sampel yang benar dan salah dari solusi yang dihasilkan oleh dua pembukti di babak sebelumnya.

Sampel ini akan digunakan sebagai data pelatihan validator untuk putaran saat ini. Validator dilatih melalui pembelajaran yang diawasi untuk meningkatkan kebenaran penilaiannya dan memungkinkan validator memberi skor pada solusi yang benar lebih tinggi daripada solusi yang salah.

Dalam proses ini, pembuktian yang licik terus-menerus mendesak pemverifikasi untuk meningkatkan akurasi penilaiannya, dan pemverifikasi juga membuat konten yang dihasilkan oleh pembuktian lebih konsisten dengan preferensi penilaian. Keduanya mencapai kemajuan bersama melalui permainan bersama.

Prasyarat penting untuk memperoleh skor tinggi adalah bahwa konten yang dihasilkan dapat dipahami oleh verifikator, selama preferensi manusia dimasukkan ke dalam verifikator, interpretasi konten keluaran model dapat ditingkatkan.

Keseimbangan antara akurasi dan keterbacaan

Pada akhirnya, metode pelatihan berbasis permainan mencapai keseimbangan yang baik antara akurasi tinggi dan pemahaman tinggi.

Metode pelatihan tradisional hanya berfokus pada keakuratan model itu sendiri. Seiring berjalannya proses pelatihan, keakuratan jawaban meningkat, namun penilaian yang dibuat oleh manusia menjadi semakin tidak akurat dan lambat.

Sejak tim OpenAI memperkenalkan preferensi manusia ke dalam pemverifikasi, keakuratan penilaian pemverifikasi bergantung pada manusia sampai batas tertentu.

Hasil akhir juga menegaskan bahwa model (prover) yang dilatih menggunakan metode permainan ini memungkinkan manusia membuat penilaian lebih cepat dan akurat seiring bertambahnya jumlah putaran pelatihan tanpa kehilangan akurasi yang signifikan.

Setelah membandingkan metode baseline, tidak sulit untuk menemukan bahwa akurasi penilaian manusia melebihi 82% setelah 5 putaran, namun baseline kurang dari 75% setelah 7.000 langkah pelatihan;

Dalam hal waktu, waktu dasar penilaian manusia mendekati 27 detik, dan metode baru hanya sedikit lebih dari 26 detik.

Selain itu, bagi verifikator, seiring dengan berlanjutnya pelatihan, ketahanannya secara bertahap meningkat, dan ia dapat mengidentifikasi jawaban yang salah dengan lebih akurat.

Selain evaluasi efektivitas metode pelatihan berbasis game ini, tim OpenAI juga membuat beberapa temuan lain selama proses penelitian:

Dampak dari ukuran validator: terlalu kecil akan menyebabkan pelatihan tidak stabil, dan terlalu besar akan mempersulit peningkatan ketahanan dalam beberapa putaran pelatihan.
Kesalahan dalam solusi berbahaya menjadi semakin tidak kentara dan terlokalisasi dengan pelatihan, yang menunjukkan bahwa validator mendorong pembukti berbahaya untuk menghasilkan contoh permusuhan yang mendekati solusi sebenarnya.
Ketika jumlah periode pelatihan meningkat, keakuratan evaluator manusia pada pembuktian berbahaya menurun.

Satu hal lagi

Sejak tim Super Alignment yang menghasilkan penelitian ini telah dibubarkan dan kini bertanggung jawab atas masalah keamanan, strategi keamanan OpenAI sekali lagi mendapat perhatian luas.

Mengenai masalah ini, CTO OpenAI Mira Murati menerima wawancara eksklusif di Universitas Johns Hopkins awal bulan ini.

Mira mengatakan selama periode ini bahwa OpenAI tidak "mengutamakan produk (prioritas) di atas keselamatan" seperti yang dituduhkan Jan Leike, mantan ketua Tim Super Alignment.

Pada saat yang sama, dia juga mengatakan bahwa meskipun tim Super Alignment telah dibubarkan, Super Alignment sebenarnya hanyalah salah satu dari beberapa tim keamanan OpenAI, dan banyak orang di perusahaan tersebut masih terlibat dalam pekerjaan keamanan.

Tautan referensi:
[1]https://openai.com/index/permainan-pemverifikasi-prover-meningkatkan-keterbacaan/
[2]https://venturebeat.com/ai/openai-menggunakan-permainan-untuk-membantu-model-ai-menjelaskan-diri-dengan-lebih-baik/
[3]https://x.com/__nmca__/status/1813646245602435542

berita

Makalah super-penyelarasan "terakhir" OpenAI: permainan model besar dan kecil, keterbacaan keluaran meningkat

Biarkan para model bermain melawan satu sama lain

Keseimbangan antara akurasi dan keterbacaan

Satu hal lagi

Perkenalan

informasi kontak saya