berita

Ilmuwan AI pertama telah lahir! Telah menghasilkan 10 makalah akademis secara mandiri, dan juga mempekerjakan pengulas AI

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rumah Mengchen berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

sejarah“Ilmuwan AI” pertama, ternyata!

Itu dihasilkan sekaligus segera setelah muncul.Sepuluh makalah akademis lengkap



Makalah model difusi yang dihasilkan oleh AI

Mulai dari mengajukan ide penelitian, memeriksa hal baru, merancang eksperimen, menulis kode, menjalankan eksperimen pada GPU dan mengumpulkan hasilnya, hingga akhirnya menulis makalah, semuanya dilakukan sekaligus.

Itu semua dilakukan secara otomatis oleh "ilmuwan AI" ini.

Biaya per kertas kira-kira.$15(sekitar 107,62 yuan).



Ini yang pertama untukPenelitian ilmiah otomasidan sistem AI terintegrasi untuk penemuan terbuka,Ilmuwan AI

Dari startup Llion Jones, salah satu penulis Transformer:Sakana AI

Dan!

Apa yang dilakukan perusahaan ini bukan sekadar menciptakan ilmuwan AI,Kami juga membuat peninjau AI tambahan

Reviewer dapat meninjau makalah yang ditulis oleh AI dan memberikan saran perbaikan.

Tolong, ini adalah siklus matryoshka yang menggunakan tombakku untuk menyerang perisaiku!

Setelah satu operasi, ini lebih seperti lingkaran akademis manusia daripada lingkaran akademis manusia (tidak)



Satu lagi dan!

Baik itu ilmuwan AI atau pengulas AI, Sakana AI yang menempatkannyaSemua sumber terbuka.

Netizen bertepuk tangan setelah menonton ini;

Bagus Bagus, pekerjaan yang sangat menarik!



Dan beberapa orang sudah mulai memunculkan "ide buruk".

Disarankan untuk mengirimkan salah satu makalah ke AI Dinghui!



AI secara mandiri menyelesaikan sepuluh makalah pembelajaran mesin

Selama beberapa dekade, setelah setiap kemajuan besar dalam AI, para peneliti sering bercanda: “Saatnya mempertimbangkan untuk membiarkan AI membantu kita menulis makalah”。

Kini, ide tersebut akhirnya berubah dari lelucon menjadi kenyataan.



Secara khusus, ilmuwan AI menghasilkan sepuluh makalah, dan memilih satu makalah dengan skor lebih tinggi dari setiap arah penelitian untuk diperkenalkan.

Bagian 1, Arah Model Difusi, "Difusi Skala Ganda: Penyeimbangan Fitur Adaptif untuk Model Generatif Dimensi Rendah"

Metode denoising skala ganda yang adaptif diusulkan untuk memperbaiki masalah bahwa model difusi yang ada sulit untuk secara bersamaan menangkap struktur global dan detail lokal dalam ruang berdimensi rendah.



metode:

  • Rancang arsitektur skala ganda, termasuk cabang global dan lokal
  • Memperkenalkan mekanisme pembobotan bersyarat langkah waktu yang dapat dipelajari
  • Menggabungkan keluaran dari kedua cabang untuk menghilangkan prediksi

Hasil percobaan:

  • Indikator divergensi KL berkurang 2,5% menjadi 12,8% dibandingkan model baseline (lebih rendah lebih baik)
  • Namun, waktu penghitungan menjadi sekitar dua kali lipat, dan performa tidak stabil pada distribusi data yang kompleks (seperti kumpulan data dino)

Sekilas teks utama menunjukkan bahwa ada rumus dan bagan, dan kelihatannya cukup bagus.



Bagian Kedua, Arah Model Bahasa, "StyleFusion: Pembuatan multi-gaya adaptif dalam model bahasa tingkat karakter."

Makalah ini mengusulkan metode baru yang disebut Adaptor Multi-Gaya, yang meningkatkan kesadaran gaya dan konsistensi model bahasa tingkat karakter dengan memperkenalkan penyematan gaya yang dapat dipelajari dan header klasifikasi gaya.

Mencapai skor konsistensi gaya yang hampir sempurna pada semua kumpulan data (0,9667 untuk shakespeare_char, 1,0 untuk enwik8 dan text8), dengan kehilangan validasi lebih baik daripada model dasar, namun dengan sedikit penurunan dalam kecepatan inferensi (~400 token/dtk vs. 670 token untuk garis dasar)



Artikel ketiga, menggabungkan Transformer dengan pembelajaran penguatan, "Kecepatan pembelajaran adaptif Transformers melalui Q-Learning".

Penelitian ini mengeksplorasi penerapan pembelajaran penguatan untuk menyesuaikan kecepatan pembelajaran secara dinamis dalam pelatihan model transformator, menggunakan kerugian verifikasi dan kecepatan pembelajaran saat ini sebagai keadaan untuk menyesuaikan kecepatan pembelajaran secara dinamis untuk mengoptimalkan proses pelatihan.

Hasilnya mengungguli model dasar pada semua kumpulan data dan juga menunjukkan keunggulan dalam waktu pelatihan.



Artikel keempat mempelajari fenomena "Grokking" pada model besar yang diusulkan oleh tim Google, "Membuka Grokking: Studi Perbandingan Strategi Inisialisasi Bobot dalam Model Transformer"

Makalah ini secara sistematis mempelajari dampak inisialisasi bobot pada grokking untuk pertama kalinya, dan membandingkan lima strategi inisialisasi bobot untuk mengoptimalkan dinamika pembelajaran jaringan saraf.

ternyata:

  • Inisialisasi Xavier memiliki performa terbaik pada sebagian besar tugas, mengurangi jumlah langkah yang diperlukan untuk mencapai akurasi verifikasi 99% hingga 63%
  • Inisialisasi ortogonal berkinerja baik dalam beberapa tugas tetapi buruk dalam tugas lainnya.



Kode pendukung untuk makalah ini (juga dihasilkan oleh AI) juga bersifat open source di GitHub, menyoroti kode yang dapat direproduksi.



Selain itu, tim menemukan bahwa "ilmuwan AI" juga punya beberapaPerilaku yang menarik tapi agak berbahaya

Dalam satu percobaan, ia memodifikasi kodenya sendiri untuk menyelesaikan penelitian,Biarkan sistem memanggil dirinya sendiri secara iteratif, dan akhirnya berubah menjadi boneka matryoshka yang tak terbatas.



Di lain waktu, ketika dihadapkan pada batas waktu berjalan yang ditentukan oleh manusia, AI tidak menemukan cara untuk mempercepat efisiensi, namun melonggarkan persyaratannya untuk dirinya sendiri.Memperpanjang batas waktu dari 2 jam menjadi 4 jam



Bagaimana menjadi “ilmuwan AI” pertama

Keseluruhan ide penelitian berasal dari kelanjutan beberapa pencapaian pasca berdirinya Sakana AI:

Pertama, mereka mengembangkan metode yang secara otomatis menggabungkan pengetahuan dari beberapa model besar dan berevolusi untuk menghasilkan model baru. Dalam penelitian terbaru, mereka memanfaatkan model besar untuk menemukan fungsi tujuan baru guna menyesuaikan model lainnya.

Dalam proyek-proyek ini, tim terus dikejutkan oleh kreativitas model-model mutakhir, yang mengarah pada impian yang lebih besar:Bisakah model besar digunakan untuk mengotomatiskan seluruh proses penelitian?

Hasil akhir diselesaikan oleh tim Sakana AI, Laboratorium Foerster Universitas Oxford, dan Universitas British Columbia.

Sistem "Ilmuwan AI" terdiri dari empat bagian.

Generasi ide:

Dengan adanya template awal, AI pertama-tama melakukan "brainstorming" terhadap serangkaian arah penelitian baru yang berbeda, dan menelusuri Semantic Scholar untuk memverifikasi apakah ide-ide ini pernah dilakukan sebelumnya.



Iterasi eksperimen:

Untuk ide yang disajikan di bagian pertama, "ilmuwan AI" pertama-tama melakukan eksperimen yang diusulkan dan kemudian membuat visualisasi bagan dari hasilnya.



Penulisan esai:

Saya menulis artikel LaTeX yang ringkas dan informatif dalam gaya konferensi pembelajaran mesin standar, dan juga menggunakan Semantic Scholar untuk secara mandiri mencari makalah yang relevan untuk dikutip.



Tinjauan sejawat otomatis:

Sebuah "peninjau AI" otomatis dikembangkan yang dapat mengevaluasi makalah yang dihasilkan dengan akurasi yang hampir mendekati manusia, memungkinkan putaran umpan balik berkelanjutan yang memungkinkan "ilmuwan AI" meningkatkan hasil penelitian mereka secara berulang.



Sebanyak 10 makalah dihasilkan sebagai berikut:



Dalam percobaan tersebut, tim juga membandingkan efek menghubungkan model besar arus utama yang berbeda ke seluruh sistem, termasuk model besar kode domestik dari tim DeepSeek.

ternyata,Claude-Sonnet-3.5 memiliki kinerja terbaik dalam hal inovasi ide, tingkat kelulusan ujian, dan kualitas penyelesaian makalah.

GPT-4o dan DeepSeek Coder memiliki kinerja serupa, namun DeepSeek Coder 30 kali lebih murah.



Tentu saja, pada tahap ini, makalah yang diselesaikan secara mandiri oleh AI belum sempurna, juga belum bisa dipublikasikan secara langsung.

Peneliti manusia telah merangkum beberapa keterbatasan dan tantangan:

  • Sistem "Ilmuwan AI" saat ini belum mengintegrasikan kemampuan visual, dan bagan yang dihasilkan terkadang sulit dibaca, tabel terkadang melebihi lebar halaman, dan tata letak halaman buruk.
  • Ilmuwan AI mungkin memiliki ide yang benar tetapi melaksanakannya dengan salah, atau membuat perbandingan yang tidak adil terhadap data dasar, sehingga menghasilkan hasil yang menyesatkan.
  • Ilmuwan AI terkadang membuat kesalahan serius, seperti halusinasi, saat menulis dan mengevaluasi hasil.
Saya juga ingin membentuk ketua regional dan konferensi AI baru

Singkatnya, makalah yang ditulis oleh ilmuwan AI generasi pertama ini masih memiliki beberapa bug dari waktu ke waktu.

Namun proyek itu sendiri, dan biayanya sebesar US$15 per artikel, disebut "menjanjikan" oleh Sakana AI dan dapat digunakan untuk membantu mempercepat kemajuan ilmu pengetahuan.

Sakana AI juga merilis artikel penjelasan yang menyatakan bahwa visi akhir para ilmuwan AI adalah aEkosistem ilmiah yang sepenuhnya didukung oleh AI

Sistem ini tidak hanya mencakup peneliti besar yang didorong oleh model, tetapi juga pengulas, ketua regional, dan konferensi baru.



Perlu dicatat bahwa Sakana AI percaya bahwa:

Peran ilmuwan manusia tidak akan berkurang dengan munculnya ilmuwan AI.

Jika kita harus membuat perbandingan, ilmuwan harus beradaptasi dengan kemunculan dan penerapan teknologi baru, beradaptasi dengan perubahan posisi peran mereka, dan "meningkatkan rantai makanan".

Selain itu, masih harus dilihat apakah para ilmuwan AI benar-benar dapat menghasilkan paradigma yang benar-benar baru.

Toh, benda ini masih berbasis Transformer.

Bisakah ia menghasilkan sesuatu yang sekuat Model Transformer atau Difusi? Bahkan konsep teoretis seperti jaringan saraf tiruan atau teori informasi?

Kami juga tidak tahu, dan kami tidak berani mengatakannya.

Sakana AI juga menulis paragraf ini:

Kami percaya bahwa ilmuwan AI akan menjadi mitra hebat bagi ilmuwan manusia.
Namun hanya waktu yang akan membuktikan sejauh mana esensi kreativitas manusia dan momen inovasi yang tidak disengaja dapat direplikasi melalui penemuan terbuka oleh manusia.



Sakana AI: Ikan kecil AI yang sepenuhnya otomatis sedang menjelajahi dunianya

Dari startup penulis Transformer

Perusahaan yang menyelesaikan "kreasi baru" kali ini, Sakana AI, juga merupakan teman lama kami dalam arti sebenarnya.

Oleh yang terakhir dari 8 penulis makalah TransformerLION JONESStartup ini didirikan dengan tujuan menjadi "laboratorium penelitian kecerdasan buatan kelas dunia".

Basis perusahaan di Tokyo, dan sakana adalah kata dalam bahasa Jepang untuk "ikan" (ikan).



Mungkin karena pertimbangan budaya perusahaan, Llion juga menyatakan di LinkedIn bahwa ia memiliki transliterasi namanya dalam bahasa Jepang: ライオン (yang juga merupakan katakana dari Lion; selanjutnya ia akan dipanggil sebagai Brother Lion).

Pada bulan Agustus tahun lalu, perusahaan itu diumumkan.

Saat itu, Lion Brother berkata tanpa ragu bahwa dia tidak punya niat buruk terhadap Google, tapiGoogle memang membuatnya merasa "terjebak"

Sebelum memulai bisnisnya sendiri, Saudara Lion telah bekerja di Google selama 8 tahun.



△ Tebak siapa yang kehilangan separuh wajahnya?

Ia lulus dari Universitas Birmingham dengan gelar sarjana dan pernah bekerja di Delcam, YouTube, dan Google adalah perusahaan tempat ia tinggal paling lama.

Menurut FourWeekMBA, dalam pengalaman kerja sebelumnya,“Saya melewatkan pekerjaan di Google dua kali”

Pertama kali adalah ketika dia sedang mencari pekerjaan setelah lulus. Meskipun dia menyerahkan resumenya sebagai insinyur perangkat lunak di Google London dan melewati dua putaran wawancara telepon, dia akhirnya memilih Delcam, sebuah perusahaan perangkat lunak CAD/CAM di Inggris. melalui Google.

Patut disebutkan bahwa sebelum mendapat tawaran Google, ia kebetulan mengalami krisis ekonomi pada tahun 2009. Lion Brother tidak dapat mendapatkan pekerjaan dan harus bergantung pada dana bantuan untuk bertahan hidup selama beberapa bulan.

Kedua kalinya, setelah 18 bulan bekerja, dia menerima panggilan rekrutmen dari Google yang menanyakan apakah dia ingin melamar kembali, namun dia tetap tidak membuka Google, melainkan kemudian bergabung dengan YouTube.

Saat bekerja sebagai insinyur perangkat lunak di YouTube selama tiga tahun, ia mulai tertarik pada kecerdasan buatan, belajar sendiri kursus pembelajaran mesin Coursera, dan akhirnya bergabung dengan Google Research pada tahun 2015 sebagai insinyur perangkat lunak senior.

Pada periode inilah dia dan tujuh penulis lainnya menerbitkan makalah Transformer yang terkenalPerhatian Adalah Semua Yang Anda Butuhkan

Selain itu Lion Brother juga telah mengikuti banyak penelitian di Google, antara lain ProtTrans, Tensor2Tensor, dll.



Dia memilih untuk meninggalkan Google karena perusahaannya telah berkembang menjadi besar sehingga tidak mungkin baginya untuk terus melakukan pekerjaan yang ingin dia lakukan.

Selain membuang-buang energi setiap hari untuk memecahkan masalah bug orang lain, dia juga perlu meluangkan waktu mencari sumber daya dari perusahaan ini untuk mencoba mendapatkan akses ke data tertentu.

Setelah memulai bisnisnya, pekerjaan Sakana AI berjalan dengan tertib.

Sebelum menggunakan ilmuwan AI dan peninjau AI, kami juga menerbitkan model besar yang menggabungkan algoritma evolusioner dan mempelajari aliran informasi internal Transformer.



Sedangkan untuk proyek AI scientist dan AI reviewer diselesaikan atas kerja sama dengan Sakana AI, Oxford, dan UBC.

Ketiga rekan penulis tersebut adalah:

Chris Lu, pekerja magang di Sakana AI, menjabat sebagai ilmuwan riset perusahaan.

Dia lulus dari UC Berkeley dengan gelar sarjana dan saat ini menjadi mahasiswa Ph.D. tahun ketiga di Universitas Oxford.

Arah penelitian penting Chris saat ini adalah menerapkan teknik yang terinspirasi evolusi pada pembelajaran meta dan pembelajaran penguatan multi-agen.

Pada musim panas 2022, ia magang sebagai ilmuwan riset di DeepMind.



Cong Lu, peneliti postdoctoral di UBC (University of British Columbia), dibimbing oleh Jeff Clune.

Cong belajar di RGU (Robert Gordon University) dan menerima gelar PhD dari Universitas Oxford pada tahun 2019. Minat penelitian utamanya adalah pembelajaran penguatan terbuka dan penemuan ilmiah AI.

Sebelumnya, ia magang di Waymo dan Microsoft.



Robert Tjarko Lange, salah satu anggota pendiri Sakana AI dan ilmuwan riset di perusahaan tersebut.

Saat ini, ia sedang menyelesaikan tahun terakhir studi doktoralnya di Universitas Teknik Berlin, dan arah penelitiannya adalah pembelajaran meta evolusioner.

Pemuda tersebut memperoleh gelar master di bidang ilmu komputer dari Imperial College London, gelar master di bidang ilmu data dari Pompeu Fabra University, dan gelar sarjana ekonomi dari University of Cologne.

Tahun lalu, dia bekerja sebagai peneliti mahasiswa penuh waktu di tim Google DeepMind di Tokyo.



Alamat kertas:
https://arxiv.org/abs/2408.06292

Tautan referensi:
[1]https://x.com/SakanaAILabs/status/1823178623513239992
[2]https://sakana.ai/ai-scientist/