Q* OpenAI belum pernah terlihat sebelumnya, namun Q* dari sejumlah perusahaan startup ada di sini

Q* OpenAI belum pernah terlihat sebelumnya, namun Q* dari sejumlah perusahaan startup telah hadir

2024-07-31

Seberapa jauh kita dari AI yang bisa “berpikir lambat”?

Pengarang｜Stephanie Palazzolo

Kompilasi |

Editor｜Jingyu

Tahun lalu, sebelum dan setelah Sam Altman dipecat sementara, peneliti OpenAI mengirimkan surat bersama kepada dewan direksi, menunjukkan bahwa proyek misterius dengan nama kode Q dapat mengancam seluruh umat manusia. OpenAI mengakui Q* dalam surat internal lanjutannya kepada karyawan dan menggambarkan proyek tersebut sebagai "sistem otonom manusia super".

Meski Q* belum terlihat, selalu ada rumor yang beredar di dunia.

Lu Yifeng, insinyur senior di Google DeepMind, pernah membuat dugaan kepada Geek Park dari sudut pandang profesional: Model perlu menyadari masalah apa yang tidak pasti dan apa yang harus dilakukan selanjutnya. Pada saat ini, model tersebut mungkin perlu menjelajahi Internet, membaca buku, melakukan eksperimen, memikirkan beberapa ide yang tidak dapat dijelaskan, dan berdiskusi dengan orang lain seperti manusia.

Tahun ini, ketika saya mengajukan pertanyaan di aplikasi asisten AI dari produsen model besar, saya merasakan bahwa jawabannya lebih dapat diandalkan dibandingkan tahun lalu. Banyak produsen juga mengatakan bahwa mereka bekerja keras untuk membuat model berpikir lebih banyak dan lebih baik lagi kemampuan penalaran mereka. Bagaimana kemajuannya sejauh ini?

Mengenai masalah di atas, reporter Informasi Stephanie Palazzolo, dalam artikel "Bagaimana Saingan Kecil OpenAI Mengembangkan AI Mereka Sendiri yang 'Alasan'", membahas model perusahaan rintisan yang ada untuk meningkatkan kemampuan penalaran model, termasuk perusahaan Tiongkok Q*. Diselenggarakan oleh Geek Park, sebagai berikut:

Pesaing yang lebih kecil untuk OpenAI

Kembangkan AI “penalaran” Anda sendiri

Tidak termasuk gelembung, betapa bermanfaatnya gelombang AI ini adalah topik yang telah berulang kali menjadi sorotan tahun ini.

Prinsip dari model besar adalah menghasilkan unit kata satu per satu berdasarkan prediksi probabilitas, tetapi menirukan kata-kata berdasarkan korpus yang diberikan selama pelatihan, dan mengarang halusinasi ketika menghadapi pertanyaan yang belum pernah dilihat sebelumnya, jelas bukan hal yang diinginkan semua orang. mengharapkan. Meningkatkan lebih lanjut kemampuan penalaran model ini menjadi kuncinya.

Dalam hal ini, kami belum melihat kemajuan dari OpenAI dan Google, namun beberapa startup dan individu mengatakan bahwa mereka telah menemukan beberapa metode "murah" (peretasan murah) untuk mencapai beberapa bentuk kemampuan penalaran AI.

Jalan pintas ini mencakup memecah masalah kompleks menjadi langkah-langkah yang lebih sederhana dan menanyakan lusinan pertanyaan tambahan kepada model untuk membantunya menganalisis langkah-langkah tersebut.

Misalnya, ketika diminta untuk membuat draf postingan blog tentang produk baru, aplikasi AI secara otomatis memicu pertanyaan tambahan, seperti meminta model besar untuk mengevaluasi jawabannya dan area yang perlu ditingkatkan. Tentu saja, di antarmuka pengguna, Anda tidak dapat melihat tindakan yang dilakukan oleh model di latar belakang.

Hal ini mirip dengan metode Socrates dalam mengajar siswa untuk berpikir kritis tentang keyakinan atau argumen mereka. Yang terakhir ini mengadopsi metode pengajaran tanya-jawab. Ketika berkomunikasi dengan siswa, Socrates tidak akan memberikan jawaban secara langsung, melainkan ia akan membimbing siswa untuk menemukan masalahnya sendiri dan mengungkapkan kontradiksi dan kekurangan dalam pandangannya dengan terus-menerus mengajukan pertanyaan. , dan secara bertahap memperbaikinya untuk menarik kesimpulan yang benar.

Dengan tautan ini, aplikasi AI dapat meminta model besar untuk menulis ulang postingan blog di atas, dengan mempertimbangkan masukan yang diberikannya sendiri saat menulis. Proses ini sering disebut refleksi, dan salah satu pengusaha aplikasi AI mengatakan bahwa proses ini sering kali memberikan hasil yang lebih baik.

Selain pendekatan reflektif, pengembang juga dapat mengikuti Google dan mencoba Suatu teknik yang disebut sampling. Selama pengambilan sampel, pengembang meningkatkan kemampuan model besar untuk menghasilkan jawaban yang kreatif dan acak dengan menanyakan pertanyaan yang sama puluhan atau bahkan 100 kali dan kemudian memilih jawaban terbaik.

Misalnya, aplikasi asisten pemrograman mungkin meminta model besar untuk memberikan 100 jawaban berbeda untuk pertanyaan yang sama, lalu aplikasi tersebut menjalankan semua cuplikan kode ini. Aplikasi asisten pemrograman terakhir akan memilih kode yang menghasilkan jawaban yang benar dan secara otomatis memilih kode yang paling ringkas.

Meta menyoroti beberapa teknik serupa dalam makalah Llama 3 terbarunya.

Namun solusi ini—memanggil model bahasa besar sebanyak 100 kali, atau memintanya mengeluarkan teks dan kode sebanyak itu—sangat lambat dan mahal. Mungkin itulah sebabnya beberapa pengembang mengkritik asisten pemrograman yang dibuat oleh Cognition, sebuah startup yang menggunakan teknologi ini, karena kinerjanya yang lambat.

Pengembang juga telah melihat masalah ini dan mereka mencoba menyelesaikannya.caranya adalahPilih contoh model yang menunjukkan kemampuan penalaran yang baik untuk masalah tertentu dan "berikan" mereka kembali ke model tersebutdata pelatihanFokus pada penyelesaian masalah ini. Seperti yang dikatakan salah satu pengusaha, pendekatan ini mirip dengan pembelajaran tabel perkalian di sekolah dasar. Awalnya, siswa mungkin perlu menghitung secara manual setiap soal perkalian. Namun seiring berjalannya waktu, dan mereka menghafal tabel perkalian tersebut, jawabannya hampir menjadi bagian dari intuisi siswa.

Untuk mengembangkan AI semacam ini, pengembang memerlukan kendali atas model besar. Namun sulit untuk mendapatkan rasa kendali dari model sumber tertutup OpenAI atau Anthropic, sehingga mereka lebih cenderung menggunakan model bobot terbuka seperti Llama 3 (bobot terbuka adalah istilah dalam dunia sumber terbuka, artinya kode dengan tinggi tingkat keterbukaan).

Dua metode di atas mungkin merupakan teknologi yang digunakan OpenAI di balik terobosannya dalam penalaran. Tentu saja OpenAI belum merilis Q*, yang juga dikenal sebagai proyek "Strawberry".

Pertanyaan Tiongkok*

Pengembang dan peneliti Tiongkok juga secara bertahap menguasai teknologi tersebut.

Para peneliti dari Skywork AI Tiongkok dan Nanyang Technological University menerbitkan makalah tentang masalah ini pada bulan Juni tahun ini. Dalam artikel ini, mereka juga menamai teknologi Q* untuk menghormati versi OpenAI yang belum pernah mereka lihat sebelumnya.

Teknologi Q* Tiongkok memungkinkan model besar memecahkan masalah dengan beberapa langkah, seperti teka-teki logika yang rumit.

caranya adalahDengan "mencari" di setiap langkah jawaban untuk langkah terbaik berikutnya yang harus dicoba oleh model besar, daripada mengikuti langkah-langkah untuk mencapai kesimpulan (metode ini juga dikenal sebagai pencarian pohon Monte Carlo dan telah digunakan sebelumnya di Google AlphaGo) . Hal ini dicapai melalui persamaan khusus yang disebut model nilai-Q yang membantu model besar memperkirakan imbalan di masa depan dari setiap kemungkinan langkah berikutnya—atau kemungkinan bahwa jawaban akhirnya benar.

Para peneliti mengatakan mereka berencana untuk merilis teknologi tersebut ke publik pada musim gugur ini.

Alex Graveley, CEO Minion AI, sebuah startup agen cerdas dan mantan kepala arsitek GitHub Copilot, mengatakan bahwa mereka masih mencoba Ajari model bahasa untuk mundur satu langkah ketika menyadari ada yang tidak beres.Ia mengklaim bahwa kesadaran ini dapat terjadi ketika model besar menghasilkan jawaban yang salah atau diminta untuk merefleksikan langkah-langkah perantaranya (mirip dengan contoh postingan blog di atas), menyadari bahwa telah terjadi kesalahan.

Ada lebih banyak upaya di industri ini, termasuk makalah "Quiet-STAR" yang diterbitkan oleh Stanford University dan Notbad AI pada bulan Maret. Sama seperti manusia berhenti sejenak untuk memikirkan pemikirannya sebelum berbicara atau menulis, makalah ini menjelaskan cara mengajarkan model bahasa besar untuk menghasilkan informasi tentang langkah-langkah "berpikir" internal yang mereka ambil dalam masalah penalaran kompleks untuk membantu mereka mengambil keputusan yang lebih baik.

Teknologi Q*/Strawberry OpenAI mungkin memiliki keunggulan, namun semua orang tampaknya berlomba untuk mengejar ketinggalan.

*Sumber gambar utama: GulfNews

Geek bertanya

Apakah menurutmu kita berjauhan?

Sejauh mana AI bisa melakukan "berpikir lambat"?

Pengukuran sebenarnya dari rekaman panggilan iOS 18.1 beta, ponsel Android masih dapat menerima perintah perekaman.

Sukai dan ikutiAkun Video Geek Park，

berita

Q* OpenAI belum pernah terlihat sebelumnya, namun Q* dari sejumlah perusahaan startup telah hadir

Perkenalan

informasi kontak saya