google deepmind mendemonstrasikan teknologi genrm: menyempurnakan llm sebagai model penghargaan untuk meningkatkan kemampuan penalaran ai generatif

2024-09-03

it house melaporkan pada tanggal 3 september bahwa tim google deepmind menerbitkan makalah tentang arxiv pada tanggal 27 agustus, memperkenalkan dan mendemonstrasikan pemverifikasi generatif genrm dan secara kreatif mengusulkan model penghargaan untuk meningkatkan kemampuan penalaran ai generatif.

dalam industri ai, pendekatan arus utama saat ini untuk meningkatkan model bahasa besar (llm) adalah mode best-of-n, yaitu n kandidat solusi yang dihasilkan oleh llm diurutkan berdasarkan verifikator dan solusi terbaik dipilih. .

validator berbasis llm seperti itu biasanya dilatih sebagai pengklasifikasi diskriminatif untuk menilai solusi, namun mereka tidak dapat memanfaatkan kemampuan pembuatan teks dari llm yang telah dilatih sebelumnya.

untuk mengatasi keterbatasan ini, tim deepmind mencoba menggunakan target prediksi token berikutnya untuk melatih verifikator saat melakukan verifikasi dan pembuatan solusi.

verifikator generatif (genrm) tim deepmind terutama mencakup keunggulan berikut dibandingkan dengan verifikator tradisional:

integrasi penyesuaian perintah yang mulus

mendukung rantai penalaran pemikiran

memanfaatkan penghitungan waktu inferensi tambahan melalui pemungutan suara mayoritas

saat menggunakan validator berbasis gemma pada tugas penalaran algoritmik dan matematika sekolah dasar, genrm mengungguli validator diskriminatif dan llm sebagai hakim, sehingga meningkatkan persentase masalah yang diselesaikan menggunakan best-of-n 16-64%.

seperti dilansir google deepmind, keunggulan genrm dibandingkan model penghargaan kategorikal menandai evolusi penting dalam sistem penghargaan kecerdasan buatan, khususnya dalam hal kapasitasnya untuk mencegah penipuan yang dipelajari oleh model-model baru. kemajuan ini menyoroti kebutuhan mendesak untuk meningkatkan model penghargaan guna menyelaraskan keluaran ai dengan standar tanggung jawab sosial.

berita

google deepmind mendemonstrasikan teknologi genrm: menyempurnakan llm sebagai model penghargaan untuk meningkatkan kemampuan penalaran ai generatif

perkenalan

informasi kontak saya