Pekerjaan anumerta Tim Super Alignment OpenAI: Dua model besar berkompetisi, dan hasilnya menjadi lebih mudah dipahami

Pekerjaan anumerta Tim Super Alignment OpenAI: Dua model besar memainkan sebuah permainan, dan hasilnya menjadi lebih mudah dipahami

2024-07-18

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Jika jawaban yang diberikan model AI sama sekali tidak bisa dipahami, beranikah Anda menggunakannya?

Karena sistem pembelajaran mesin digunakan di bidang-bidang yang lebih penting, menjadi semakin penting untuk menunjukkan mengapa kita dapat mempercayai keluarannya, dan kapan kita tidak dapat mempercayainya.

Salah satu cara yang memungkinkan untuk memperoleh kepercayaan terhadap keluaran suatu sistem yang kompleks adalah dengan mengharuskan sistem tersebut menghasilkan penafsiran atas keluarannya yang dapat dibaca oleh manusia atau sistem lain yang dipercaya, yaitu, dapat dimengerti sepenuhnya sampai pada titik di mana kesalahan apa pun yang mungkin terjadi dapat diatasi. ditemukan. Misalnya, untuk membangun kepercayaan pada sistem peradilan, kami mewajibkan pengadilan untuk memberikan pendapat tertulis yang jelas dan mudah dibaca yang menjelaskan dan mendukung keputusan mereka.

Untuk model bahasa berukuran besar, kita juga dapat mengadopsi pendekatan serupa.

Namun, ketika mengambil pendekatan ini, penting untuk memastikan bahwa model bahasa menghasilkan teks yang dapat dimengerti, terutama ketika menangani tugas-tugas kompleks seperti matematika dan coding.

Seperti yang ditunjukkan pada gambar di bawah, Anda meminta AI untuk menulis algoritma pengurutan cepat. AI menulisnya dengan cepat, dan jawabannya sangat ringkas. Namun jika Anda tidak tahu cara menulis kode, bagaimana Anda bisa menilai apakah AI ditulis dengan benar?

OpenAI mempelajari masalah ini dalam makalah terbarunya.

Judul Makalah: GAME PROVER-VERIFIER MENINGKATKAN LEGIBILITAS HASIL LLM

Tautan makalah: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Mereka menemukan bahwa jika model bahasa besar diminta untuk menghasilkan jawaban dengan tujuan “mendapatkan jawaban yang benar”, jawaban yang mereka berikan mungkin sulit untuk dipahami. Evaluator manusia dua kali lebih mungkin melakukan kesalahan ketika menilai jawaban-jawaban ini.

Jadi tujuan mereka adalah melatih model bahasa tingkat tinggi sehingga dapat menghasilkan teks yang dapat diverifikasi dengan mudah oleh model yang lebih sederhana. Mereka menemukan bahwa teks seperti itu tidak hanya ramah terhadap model sederhana tetapi juga lebih mudah dibaca oleh manusia.

Jadi, bagaimana cara mencapainya? Ini juga menyebutkan makalah tahun 2021- "Belajar Memberikan Jawaban yang Dapat Diperiksa dengan Permainan Prover-Verifier". Dalam makalah ini, Cem Anil dkk mengajukan kerangka teori permainan yang disebut “Permainan Pemverifikasi”. Kerangka kerja ini terdiri dari dua pembelajar yang bersaing: jaringan pemverifikasi tepercaya yang mencoba memilih jawaban yang benar, dan jaringan pembukti yang lebih kuat namun tidak dapat dipercaya yang mencoba meyakinkan pemverifikasi untuk menerima jawaban tertentu, terlepas dari kebenarannya. Tujuan dari kerangka ini adalah untuk menghasilkan protokol bukti yang andal dari game tersebut.

OpenAI meminjam kerangka kerja ini dalam studi baru ini, memungkinkan dua model besar (yang lebih kuat menjadi pembuktian dan yang lebih lemah menjadi pemverifikasi) untuk bermain melawan satu sama lain hingga keduanya mencapai keseimbangan. Saat ini, jawaban yang diberikan oleh pembuktian dapat dibaca dan cukup benar.

OpenAI mengatakan bahwa dengan meningkatkan keterbacaan keluaran model, penerapan kecerdasan buatan dapat menjadi lebih efektif dan dapat dipercaya, sehingga bermanfaat bagi berbagai bidang yang membutuhkan komunikasi yang tepat.

Perlu disebutkan bahwa makalah ini berasal dari tim Super Alignment OpenAI, beberapa penulisnya meninggalkan OpenAI awal tahun ini, dan tim tersebut juga telah berantakan. Salah satu penulis mengungkapkan bahwa ini adalah makalah terakhir tim.

Contoh intuitif

Untuk meningkatkan keterbacaan keluaran model, OpenAI mengoptimalkan rantai pemikiran (CoT) dari beberapa soal matematika sekolah dasar sehingga dapat dipahami oleh model yang lebih lemah. Contohnya adalah sebagai berikut:

Pertanyaan: Ayah Shawna lima kali lebih tua dari Shawna. Shauna sekarang tiga kali umur Aliya. Jika Aaliyah berumur 3 tahun, berapa umur ayah Shauna?

Tujuannya adalah untuk memverifikasi apakah keluaran model yang dilatih lebih langsung dan mudah dipahami.

Metode ini meningkatkan performa model sebesar 50% dan hanya melakukan beberapa pengoptimalan pada set pelatihan. Pada saat yang sama, jawaban yang dihasilkan oleh model juga lebih mudah dipahami, yang juga membantu pengguna manusia yang perlu mengevaluasi kebenaran jawaban tersebut untuk membuat penilaian yang lebih akurat. OpenAI percaya bahwa semakin mempersempit kesenjangan kinerja antara model yang dapat dibaca dan model yang mampu adalah tujuan utama dalam penelitian penyelarasan di masa depan.

Bagaimana "pemberi sertifikat" dan "verifikator" bersaing selama pelatihan?

Untuk memberikan insentif kepada model yang kuat (prover) agar menghasilkan teks yang lebih mudah dibaca, para peneliti mengadopsi skema pelatihan yang mengharuskan jawaban yang dihasilkan oleh model yang kuat agar mudah diverifikasi oleh model yang lebih lemah (verifier). Secara khusus, mereka menggunakan model besar dan kecil dari seri GPT-4. Mereka berbeda sekitar tiga kali lipat dalam jumlah data pra-pelatihan. Mereka semua menerima beberapa pelatihan derivasi matematika berdasarkan anotasi manusia, namun tidak ekstensif pasca pelatihan.

Pertama, tim meminta model pembuktian mencoba memecahkan serangkaian masalah matematika. Karena model pembuktian itu sendiri mungkin salah, beberapa jawaban yang dihasilkannya mungkin salah. Selanjutnya, mereka memasukkan jawaban-jawaban ini ke model verifikator, melakukan beberapa putaran verifikasi bergantian antara dua tahap berikut:

Pelatihan "verifikator": Tim peneliti melatih model "verifikator" yang lebih lemah untuk memverifikasi apakah jawaban yang diberikan oleh "verifikator" benar.

Pelatihan "Prover": Tim peneliti menginstruksikan model "prover" yang lebih kuat untuk memainkan peran "berguna" atau "licik".

Ketika "verifikator" disetel ke "berguna", tim peneliti akan memberi penghargaan kepada "verifikator" untuk jawaban yang benar dengan skor tinggi.

Ketika "pemeriksa" ditetapkan sebagai "licik", tim peneliti malah memberi penghargaan kepada "pemeriksa" untuk jawaban yang salah dengan skor tinggi.

Tim peneliti menemukan bahwa pada awalnya, seorang "pemeriksa" yang licik dapat dengan mudah menghasilkan jawaban yang salah yang meyakinkan "pemeriksa". Namun, jawaban yang salah ini akan memasuki putaran pelatihan "verifikasi" berikutnya, dan kerentanan yang sama tidak lagi meyakinkan di putaran berikutnya. Oleh karena itu, para "prover" akan dipaksa untuk mengeksplorasi strategi yang berbeda di setiap putaran.

Pelatihan berakhir ketika "pemeriksa" yang licik tidak dapat lagi menghasilkan solusi palsu yang meyakinkan "pemeriksa".

Apa yang ditemukan para peneliti?

Pertukaran kinerja vs. keterbacaan:

Model yang hanya melakukan penyesuaian yang diawasi pada derivasi yang ditulis manusia akan lebih mudah dibaca tetapi kurang akurat.

Ketika tujuan optimasi model adalah kebenaran saja, yaitu fokus hanya pada menghasilkan jawaban yang benar, meskipun akurasi tinggi dapat dicapai, solusi yang dihasilkan kurang mudah dibaca.

Pendekatan permainan yang dapat diperiksa yang diusulkan oleh OpenAI menyeimbangkan keduanya, menjaga keterbacaan yang tinggi sekaligus mempertahankan akurasi yang moderat.

Tiga model yang berguna:

Pemverifikasi yang Kuat: Secara efektif membedakan antara solusi yang benar dan salah meskipun solusi tersebut menyesatkan.

Pepatah yang berguna: Menghasilkan solusi yang dapat dimengerti oleh manusia, sehingga mengurangi kesalahan yang dilakukan oleh manusia evaluator.

Pepatah licik: Menghasilkan solusi yang halus dan salah yang pada awalnya membingungkan manusia yang melakukan evaluator, sehingga menyoroti area yang memerlukan perbaikan lebih lanjut.

Tim peneliti menggunakan pertanyaan tes yang sama untuk mendemonstrasikan konten pembuatan dan proses pelatihan Sneaky Prover.

Pertanyaan: Ayah Shawna lima kali lebih tua dari Shawna. Shauna sekarang tiga kali umur Aliya. Jika Aaliyah berumur 3 tahun, berapa umur ayah Shauna?

Kesimpulannya

Karena model bahasa besar (LLM) semakin banyak digunakan di domain kritis dan aplikasi kompleks, penting untuk memahami apakah konten yang dihasilkan dapat dipercaya. Dengan mewajibkan model memiliki alasan produksi yang jelas dan dapat diverifikasi, Anda dapat meningkatkan kepercayaan terhadap produk yang mereka hasilkan.

Keuntungan signifikan dari pendekatan ini adalah mengurangi ketergantungan pada demonstrasi manusia atau penilaian keterbacaan. Otonomi ini sangat penting untuk menyelaraskan sistem AI super cerdas di masa depan, dengan tujuan akhir untuk menyelaraskan sistem AI dengan nilai-nilai dan harapan kemanusiaan tanpa pengawasan langsung dari manusia.

Meskipun pekerjaan ini hanya dilakukan pada satu kumpulan data dan masih memerlukan label kebenaran dasar, tim peneliti masih berharap bahwa metode tersebut akan berperan dalam mengembangkan sistem AI yang benar, transparan, dan dapat diverifikasi serta meningkatkan kepercayaan dan keamanannya di dunia nyata aplikasi.

Untuk lebih jelasnya silakan mengacu pada kertas aslinya.

Tautan referensi:

https://openai.com/index/prover-verifier-games-improve-legibility/

berita

Pekerjaan anumerta Tim Super Alignment OpenAI: Dua model besar memainkan sebuah permainan, dan hasilnya menjadi lebih mudah dipahami

Perkenalan

informasi kontak saya