berita

Pemrogram AI paling hebat kehilangan pekerjaannya: dia menjalankan kode dalam 84 detik dan berpikir seperti manusia! Timnya hanya 5 orang

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Angin barat Jin Lei berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Setelah Devin, yang lainInsinyur perangkat lunak AILayarnya digesek——

itu disebutJin, yang dikenal sebagai arusYang terkuat di permukaan, sudah bisa berpikir dan bertindak seperti manusia!



Jadi seberapa kuatkah "yang terkuat di permukaan" ini?

Mari kita lihat duluSkor ulasan

Dalam daftar resmi SWE-Bench, Genie memecahkannya30.07%Skor pertanyaan menduduki puncak daftar.

(SWE-Bench adalah tolok ukur yang digunakan untuk mengevaluasi model besar untuk memecahkan masalah perangkat lunak di dunia nyata.)

Hasil ini bisa dikatakan unggul jauh dari peringkat kedua sebesar 19,27%, unlockingPeningkatan terbesar dalam peningkatan SOTA - 57%!



Adapun JinEfek sebenarnya, dalam kata-kata tim:

Ini dapat memecahkan masalah perangkat lunak di kehidupan nyata seperti halnya insinyur manusia.

Pertama-tama, Anda dapat menggunakan 4 cara untuk memulai Genie, yaitu kata-kata cepat, GitHub Issue, Linear Ticket atau API.



Mengambil penyelesaian Masalah GitHub sebagai contoh, pertama-tama beri Genie tautan ke repo, dan itu akan dimulaiSelesaikan masalah secara otomatisTelah mendapatkan:



Klub JinPemikiran berulang otomatisJika ingin mengatasi masalah ini, file apa saja yang diperlukan hingga dirasa sudah menemukan file yang dirasa puas:



Segera setelah itu, ia akan melakukan aAnalisis berulang otomatisProsesnya:



Lalu Genie mulai "desir, desir, desir"Secara otomatis menulis + menjalankan kodeTelah mendapatkan:





Jika terjadi bug saat menjalankan kode, Genie hanya akan fokus pada area masalahnya dan mengulangi proses analisis, penulisan kode, dan menjalankannya hingga selesai.

Seluruh proses hanya membutuhkan waktu84 detik



Dalam kata-kata tim:

Genie telah menyaksikan dan belajar dari bagaimana pemrogram manusia memecahkan masalah perangkat lunak jutaan kali.
Ini adalah angka yang tidak dapat dicapai oleh programmer manusia seumur hidup.



Tapi yang lebih tidak terduga adalah tim di belakang Genie——Cosine, hanya 5 orang

Dan CEO Alistair juga memposting pesan terima kasih kepada OpenAI:

Kami tidak bisa membuat Genie tanpamu.



Jadi bagaimana tim Cosine membangun Genie?

Bagaimana cara menjadi insinyur AI terkuat?

Fitur utama Genie adalah kemampuannya meniru proses kognitif, logika, dan alur kerja para insinyur manusia.

Untuk melakukan hal ini, tim Genie mengungkapkan bahwa mereka mengumpulkan kumpulan data yang berisi aktivitas pengembangan programmer manusia nyata selama setahun terakhir.

Ini tidak hanya menggunakan analisis hasil, analisis statis, permainan mandiri, verifikasi langkah demi langkah, dan metode lainnya, tetapi juga menggunakan model AI yang dilatih berdasarkan sejumlah besar data berlabel. Manfaatnya adalah seiring dengan meningkatnya kemampuan model yang mendasarinya, kualitas data yang dapat diekstraksi juga meningkat.

Akhirnya JinGunakan data kepemilikan ini untuk pelatihan

Proses lengkap penalaran manusia dikodekan dalam kumpulan data, termasuk penelusuran informasi yang sempurna, penemuan pengetahuan tambahan, dan proses pengambilan keputusan langkah demi langkah berdasarkan kasus kerja aktual para insinyur perangkat lunak.

Proses penalaran Genie meliputiPerencanaan, pengambilan, penulisan kode, dan eksekusi kodeEmpat langkah utama tersebut mendobrak keterbatasan insinyur AI lainnya yang mengandalkan penambahan alat tambahan seperti browser web dan penerjemah kode di atas model dasar, dan dapat menangani masalah yang beragam, sangat situasional, dan belum pernah terjadi sebelumnya seperti yang terjadi pada manusia.



Cara pelatihan ini membuat netizen langsung teringat ide serupa yang pernah dikemukakan Karpathy sebelumnya:

Untuk LLM, data pelatihan yang ideal bukanlah konten yang Anda tulis sendiri, tetapi keseluruhan proses berpikir Anda dan setiap tindakan pengeditan selama proses penulisan. Namun, kami hanya dapat melakukan yang terbaik dengan sumber daya yang kami miliki.



Selain itu, pelatihan Genie juga memperkenalkanmekanisme perbaikan diri

Data pelatihan awal sebagian besar merupakan kode bebas kesalahan yang dapat berjalan normal, sehingga menyulitkan Genie untuk menghadapi situasi kesalahan. Untuk mengatasi masalah ini, tim menggunakan Genie versi pertama untuk menghasilkan data sintetis yang mengandung kesalahan, dan kemudian menggunakan data ini untuk melatih model versi berikutnya.

Secara khusus, Genie versi lama digunakan untuk mengusulkan solusi, dan jika solusinya salah, status akhir tugas yang dikuasai digunakan untuk mengajarinya mencapai status yang benar dari status saat ini.

Dengan mengulangi proses ini, solusi awal yang diusulkan oleh Genie secara bertahap menjadi lebih akurat, secara langsung memberikan jawaban yang benar dalam banyak kasus, dan bahkan jika membuat kesalahan, hanya memerlukan lebih sedikit koreksi pada kumpulan data.



Kunci lain untuk meningkatkan kemampuan Genie terletak pada besarnya dukungan model yang disediakan oleh OpenAI.

Tim menyatakan bahwa ketika mereka pertama kali mengembangkan Genie, mereka hanya dapat mengakses model konteks pendek dalam kisaran 16-32k untuk penyesuaian. Mereka menggunakan model ini untuk banyak pengembangan awal dan menggunakan lebih dari 100 juta data token untuk melatihnya model. Meskipun mereka menemukan bahwa arsitektur yang dirancang memiliki keunggulan tertentu, namun pada dasarnya dibatasi oleh jumlah informasi yang dapat diproses oleh model dalam jangka waktu tertentu.

Setelah mencoba berbagai metode kompresi/chunking, satu-satunya solusi adalah menggunakan model dengan konteks yang lebih luas.

OpenAI memberikan dukungan model konteks panjang, dan versi terbaru Genie telah dilatih pada miliaran token.

Tim percaya bahwa dibandingkan dengan penyesuaian hyperparameter dan volume data, kualitas data adalah kuncinya. Oleh karena itu, mereka juga melakukan banyak eksperimen pada pencampuran data, termasuk berbagai dimensi seperti bahasa, jenis tugas, durasi tugas, dll. Berikut ini adalah proporsi data bahasa pemrograman berbeda yang digunakan untuk melatih Genie:



Ada juga proporsi data dari berbagai jenis contoh:



Satu tim hanya terdiri dari 5 orang

Seperti yang kami sebutkan di atas, tim start-up Cosine saat ini hanya memiliki 5 orang.

Dalam perkenalan di situs resminya, mereka juga mendeskripsikan diri mereka secara langsung sebagai:

Kecil namun perkasa.
Kecil tapi kuat.



Dilihat dari perkenalannya, anggotanya ada yang berasal dari perusahaan unicorn, ada yang sudah berpengalaman mengelola tim global, bahkan ada yang sudah memulai pemrograman sejak berusia 8 tahun.

Tapi ketika Cosine pertama kali didirikan, hanya ada tiga orangMemahami penalaran manusia



Perlu disebutkan bahwa salah satu anggota tim adalah orang Tiongkok.Yang Li, adalah salah satu pendiri Cosine dan terdaftar di Forbes 30 under 30 pada tahun 2021.



Selain itu mengenai Genie sendiri, CEO Alistair juga mengatakan:

Kami mulai membayangkan Genie pada awal tahun 2022, tetapi secara teknis hal itu belum memungkinkan pada saat itu.
Baru sekitar enam bulan terakhir Genie menjadi kenyataan seiring dengan semakin matangnya model besar tersebut.



Ya, saya harus mengatakan bahwa model besar telah memberikan kontribusi yang besar lagi.

Genie saat ini sudah bisa mendaftar ke Waitlist. Teman-teman yang berminat bisa klik link di akhir artikel~

Alamat daftar tunggu:
https://cosine.sh/daftar

Tautan referensi:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/laporan-teknis-genie
[3]https://cosine.sh/blog/keadaan-seni
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_