Makalah terbaru OpenAI memungkinkan model yang sangat canggih untuk menjelaskan dirinya sendiri

Teks/Panduan Masa Depan AI penulis Hao Boyang

Editor/Zhou Xiaoyan

Hari ini OpenAI merilis makalah baru, yang merupakan "karya anumerta" dari tim OpenAI Super Alignment yang sudah tidak ada lagi. Ini mengusulkan cara baru untuk meningkatkan interpretasi model, yaitu membiarkan model menjelaskan logikanya sendiri, dan semakin mudah menjelaskannya, semakin baik.

Ide ini sebenarnya bukan hal baru, tetapi semua orang pernah menggunakan proyek kata cepat untuk melakukannya sebelumnya. Gunakan petunjuk seperti rantai pemikiran untuk memaksa AI menjelaskan jawabannya. Namun bukankah akan lebih baik jika modelnya lebih baik dalam menjelaskan? Kemudian Anda harus melakukan beberapa penyesuaian selama proses pelatihan model. Untuk mencapai tujuan ini, OpenAI mengusulkan metode yang disebut “pelatihan inspektabilitas”. Sebuah metode yang disebut "permainan pemberi sertifikat" digunakan untuk meningkatkan kemampuan model dalam menjelaskan dirinya sendiri. Akhirnya diketahui bahwa metode ini memang bermanfaat.

Bagaimana tepatnya mereka melakukannya?

Kami ingin melatih AI yang sangat cerdas (sebut saja "prover") untuk memecahkan masalah matematika. Kami berharap AI ini tidak hanya dapat memberikan jawaban yang benar, tetapi juga menjelaskannya dengan jelas dan memudahkan masyarakat untuk memahaminya. Namun, jika kita membiarkan AI mengejar jawaban yang benar, AI mungkin akan mengembangkan cara memecahkan masalah yang sangat kompleks dan sulit dipahami.

Misalnya pada contoh di bawah ini, jawaban yang diberikan model sudah benar, namun cara pembuktiannya sangat tidak dapat diungkapkan. Hal ini menyulitkan pengguna awam, termasuk pelanggan di industri yang memerlukan presisi tinggi, untuk menilai apakah ide mereka benar.

Jadi untuk menghindari situasi ini, para peneliti menemukan metode cerdas:

1. Mereka membuat AI "wasit" (disebut "validator"). Wasit ini memang tidak secerdas AI pemecah masalah, namun tugasnya adalah menilai apakah jawaban AI pemecah masalah sudah benar dan jelas.

2. Kemudian, mereka meminta AI pemecah masalah untuk memainkan dua peran: "siswa yang baik" (AI yang membantu), mencoba memberikan jawaban yang benar dan jelas; dan "siswa nakal" (AI yang licik), mencoba memberikan jawaban itu tampak benar namun sebenarnya sedikit salah.

3. Kedua “siswa” tersebut berusaha meyakinkan wasit AI bahwa jawaban mereka benar.

4. Seiring waktu, AI wasit menjadi semakin baik dalam mengidentifikasi jawaban yang benar dan salah. Pada saat yang sama, AI “siswa baik” belajar bagaimana menjelaskan masalah dengan lebih jelas, sedangkan AI “siswa nakal” belajar bagaimana membuat kesalahan yang lebih halus.

5. Prosesnya berulang seperti permainan yang sedang berlangsung.

Proses ini adalah "permainan pemberi sertifikasi-verifikasi". Dengan cara ini, setelah beberapa putaran pelatihan, penjelasan model menjadi semakin jelas. Misalnya, setelah satu putaran pelatihan semacam ini, interpretasi model menjadi jauh lebih baik.

(Hasil pelatihan putaran pertama sudah dirinci)

Setelah lima putaran, model pada dasarnya dapat menjelaskan topik tersebut kepada Anda dengan nada suara seorang guru sekolah dasar.

(Hasil latihan putaran kelima)

Dan "verifikasi" AI wasit ini juga telah berevolusi di bawah tekanan AI yang licik. Menjadi lebih baik dalam membedakan apakah jawaban benar atau salah. Bahkan jika AI yang licik membuat klaim yang fantastis, akan lebih mudah untuk menemukan celah di dalamnya.

(Ini jawaban dari Cunning AI, kelihatannya lumayan)

(Seiring berjalannya waktu, level AI yang licik juga meningkat)

Dalam prosesnya, peneliti OpenAI juga menemukan metode yang disebutFenomena “pajak pemahaman” dimana semakin mudah dipahami keluaran AI, semakin besar kemungkinannya mengorbankan tingkat kinerja atau akurasi tertentu.

Mereka membuat diagram untuk mewakili fenomena ini.

Dalam gambar, Sumbu X: mewakili keakuratan generator model, sumbu Y: mewakili keakuratan evaluator manusia, di sini digunakan sebagai ukuran keterbacaan. Model yang secara langsung melakukan pembelajaran penguatan (RL) tanpa "pelatihan inspektabilitas" memiliki kemampuan yang kuat tetapi kemampuan interpretasi yang buruk. Model yang telah menjalani "pelatihan inspektabilitas" dapat meningkatkan akurasi sekaligus mempertahankan kemampuan interpretasi yang sama. Namun ada batasannya. “Pajak pemahaman” yang ditandai dengan panah merah pada gambar adalah kinerja yang harus dikorbankan tanpa kehilangan interpretasi.

Apa sebenarnya yang dilakukan penelitian ini? Kita juga dapat melihat dari contoh di atas bahwa metode penjelasan yang lebih mudah dipahami oleh wasit AI juga lebih mudah dipahami oleh kita sebagai manusia.ini Hal ini menunjukkan bahwa kita dapat menggunakan model yang lebih kecil dan lebih mudah dilatih untuk menggantikan umpan balik anotasi manusia (seperti RHLF) guna meningkatkan pemahaman keluaran model yang besar. Makalah ini memberikan harapan yang tinggi terhadap metode ini. Mereka berpendapat bahwa “otonomi seperti itu akan sangat penting untuk menyelaraskan sistem AI super cerdas di masa depan, dengan tujuan memastikan bahwa sistem AI selaras dengan nilai-nilai dan harapan manusia tanpa pengawasan langsung dari manusia.”

Ingatlah bahwa karya perintis tim Super Alignment adalah gagasan untuk menggunakan model yang lemah untuk mengawasi model yang kuat. Tampaknya, menghadapi cita-cita awal superalignment, mereka benar-benar berusaha menggunakan berbagai cara untuk mencapainya. Sangat disayangkan keadaan telah berubah, tim telah pergi, dan yang bisa kita dengar sekarang hanyalah gaung terakhir.

berita

Makalah terbaru OpenAI memungkinkan model yang sangat canggih untuk menjelaskan dirinya sendiri

Makalah terbaru OpenAI memungkinkan model yang sangat canggih untuk menjelaskan dirinya sendiri

Perkenalan

informasi kontak saya