raja baru model besar sumber terbuka telah mengalahkan gpt4o, teknologi baru dapat mengoreksi dirinya sendiri, dan mathematics 99.2 telah memaksimalkan set pengujian

2024-09-06

angin barat datang dari kuil aofei
qubit |. akun publik qbitai

tahta model besar open source tiba-tiba berpindah tangan, dan itu datang dari tim wirausaha kecil, yang langsung meledakkan industri.

model baru disebutrefleksi 70b, menggunakan teknologi pelatihan baru yang memungkinkan ai belajar memperbaiki kesalahan dan ilusinya sendiri selama proses penalaran.

misalnya, dalam pengujian r digital yang baru-baru ini populer, model ini melakukan kesalahan yang sama seperti kebanyakan model pada awalnya, namun model tersebut mengambil inisiatif untuk melakukannya.tag <refleksi>zhong mengoreksi dirinya sendiri.

dalam evaluasi resmi, model 70b secara komprehensif melampaui open source terkuat llama 3.1 405b, gpt-4o, claude 3 opus, dan gemini 1.5 pro. secara khusus, model ini secara langsung melampaui benchmark matematika gsm8k.mencetak 99,2%。

hasil ini pun membuat noam brown, seorang ilmuwan openai dan bapak ai poker, dengan antusias membuka mikrofon:

gsm8k mendapat skor 99%! bisakah tolok ukur ini dihapuskan secara resmi?

segera setelah model tersebut online, netizen kewalahan dengan uji coba tersebut, dan meta juga secara aktif mendukung lebih banyak daya komputasi.

dalam pengujian netizen, reflection 70b dapat menjawab pertanyaan yang memiliki jawaban salah terhadap kumpulan data gsm8k:

saya memberi model 5 masalah "ground_truth" yang ada di gsm8k yang pada dasarnya salah.
daripada mengulangi jawaban yang salah dalam kumpulan data, model ini menjawab semuanya dengan benar, dan ini merupakan hal yang mengesankan.menunjukkan bahwa akurasi 99,2% tidak berasal dari menghafal set tes！

sangat mudah untuk menghitung semua jenis huruf rkata-kata yang diciptakanbeberapa huruf r pada "drirrrrngrrrrnnnn" juga dapat dihitung dengan benar.

netizen terkejut bahwa open source yang dibuat oleh tim kecil telah melampaui close source teratas. kini model open source paling kuat dapat dijalankan secara lokal.

kuncinya 70b hanyalah permulaan. para pejabat mengatakan bahwa yang lebih besar akan dirilis minggu depan.refleksi 405b。

performa 405b diharapkan jauh lebih baik dibandingkan sonnet dan gpt-4o.

bobot refleksi 70b telah dipublikasikan dan akses api akan disediakan oleh hyperbolic labs hari ini.

model dapat melakukan refleksi diri dan memperbaiki kesalahan

rincian lebih lanjut yang saat ini tersedia pada refleksi 70b ada di bawah.

kunci untuk meningkatkan kemampuan reflection 70b adalah penggunaan metode yang disebutpenyetelan refleksisebuah metode pelatihan yang memungkinkan model untuk merefleksikan teks yang dihasilkannya, mendeteksi dan memperbaiki kesalahan dalam alasannya sendiri sebelum menyelesaikan respons.

data dalam pelatihan berasal dari data sintetis yang dihasilkan menggunakan platform glaiveai.

refleksi 70b didasarkan pada instruksi llama 3.1 70b dan dapat diambil sampelnya dari refleksi llama-3.1 70b menggunakan kode, saluran pipa, dll. yang sama dengan model llama lainnya.

bahkan menggunakan format obrolan standar llama 3.1.

namun, refleksi 70b memperkenalkan beberapa haltoken khusus, proses keluaran terstruktur.

seperti yang ditunjukkan dalam contoh berikut, membagi proses perencanaan menjadi beberapa langkah terpisah dapat meningkatkan efek cot dan menjaga keluaran tetap baik:

modelnya akan berasal dari<thinking> dan</thinking> inferensi keluaran intra-label dimulai, dan setelah puas dengan inferensinya, maka<output> dan</output> jawaban akhirnya adalah keluaran pada label.

sehingga mampu memisahkan pemikiran dan penalaran internalnya dari jawaban akhir.

ada<thinking> bagian, model dapat mengeluarkan satu atau lebih<reflection>label, yang menunjukkan bahwa model telah menemukan kesalahan dalam alasannya dan akan mencoba memperbaikinya sebelum memberikan jawaban akhir.

sistem meminta sebagai berikut:

anda adalah sistem ai kelas dunia, yang mampu melakukan penalaran dan refleksi yang kompleks. berpikirlah melalui kueri di dalam tag, lalu berikan respons akhir anda di dalam
tag. jika anda merasa telah membuat kesalahan dalam penalaran anda di titik mana pun, perbaiki diri anda di dalam tag.
(anda adalah sistem kecerdasan buatan kelas dunia yang mampu melakukan penalaran dan refleksi yang kompleks. memikirkan pertanyaan dalam tag, dan kemudian
berikan tanggapan akhir anda dalam tag. jika anda menemukan alasan yang salah pada suatu saat, perbaiki diri anda dalam label. )

perlu juga disebutkan bahwa dalam pengujian benchmark, semua benchmark telah diperiksa kontaminasinya dan diisolasi oleh llm decontaminator lmsys.<output> bagian dan uji bagian ini saja.

saat menggunakan reflection 70b, pejabat tersebut juga membagikan beberapa tips:

awalnya disarankan agar parameter temperatur adalah 0,7 dan top_p adalah 0,95
untuk meningkatkan akurasi, yang terbaik adalah menambahkan "pikirkan baik-baik."

para pejabat juga menyatakan hal itusebuah laporan akan dirilis minggu depan, merinci proses dan temuan pelatihan model.

dibuat oleh tim kewirausahaan agen

di balik reflection 70b terdapat tim kecil yang dipimpin oleh ceo hyperwriteai anjing shumermemimpin.

menurut linkedin, mutt shumer adalah seorang pengusaha serial lulusan universitas syracuse di amerika serikat dan saat ini menjadi salah satu pendiri dan ceo othersideai.

othersideai adalah perusahaan aplikasi ai yang berdedikasi untuk mengembangkan alat pelengkapan otomatis tercanggih di dunia melalui sistem ai skala besar. ia juga merupakan perusahaan di balik hyperwrite.

hyperwrite adalah agen pengoperasian browser yang dapat mengoperasikan google chrome seperti manusia untuk menyelesaikan serangkaian tugas, seperti memesan pizza:

seperti gpt-llm-trainer, anda hanya perlu mendeskripsikan tujuan dalam teks, dan ia akan menjalankannya sambil mencantumkan langkah-langkahnya.

saat pertama kali diluncurkan, diklaim “lebih baik dari autogpt”.

hyperwrite juga dapat dipasang sebagai ekstensi google.

selain itu, mutt shumer mendirikan visos ketika dia masih di sekolah menengah dan berkomitmen untuk mengembangkan perangkat lunak realitas virtual generasi berikutnya untuk keperluan medis.

juga mendirikan furi, sebuah perusahaan yang bertujuan untuk mendisrupsi industri perlengkapan olahraga dengan menciptakan produk berkinerja tinggi dan menjualnya dengan harga yang wajar.

meskipun ada dukungan meta, uji coba saat ini terbuka, namun masih: tidak dapat diakses untuk sementara.

jika anda berminat dengan sepatu anak bisa melakukan pemesanan terlebih dahulu~

https://reflection-playground-production.up.railway.app/

tautan referensi:
[1]https://huggingface.co/mattshumer/refleksi-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degenerator/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

berita

raja baru model besar sumber terbuka telah mengalahkan gpt4o, teknologi baru dapat mengoreksi dirinya sendiri, dan mathematics 99.2 telah memaksimalkan set pengujian

model dapat melakukan refleksi diri dan memperbaiki kesalahan

dibuat oleh tim kewirausahaan agen

perkenalan

informasi kontak saya