berita

tim medali emas o1 mengungkap momen menakjubkan ketika ai melampaui manusia! versi lengkap dari video berdurasi 22 menit tersebut kini terbuka untuk umum

2024-09-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

laporan kebijaksanaan baru

editor: tao zi qiao yang

[pengantar kebijaksanaan baru】kelahiran o1 adalah momen paling revolusioner bagi tim openai. dalam video wawancara berdurasi 22 menit penuh, mereka berbagi pemikiran mereka tentang model baru dan kisah pengembangan di baliknya.

video lengkap wawancara dengan tim openai o1 akhirnya online!

selama 22 menit, tim r&d o1 yang diorganisir oleh project bob mcgrew berbagi momen "aha" bersama.

beberapa orang menyebutkan bahwa model o1 baru setara dengan "fusi" beberapa dokter dan seringkali memiliki kinerja lebih baik daripada manusia. beberapa orang mengatakan bahwa setelah rilis o1, mereka jelas merasakan kedatangan agi.

“ketika model mengungguli manusia di berbagai bidang seperti matematika, coding, go, dan catur, masa depan agi menjadi lebih jelas.”

nathan lambert, ilmuwan dari allen institute, membuat rangkuman dari highlight video ini.

total ada 8 poin:

1 o1 dengan pembelajaran penguatan lebih baik daripada manusia dalam menemukan langkah-langkah penalaran cot baru

2 munculnya kritik diri adalah momen paling kuat bagi o1

3 biarkan o1 menyelesaikan jawabannya sebelum "timeout", dan tiba-tiba muncul momen "aha".

4. tantangan dalam menskalakan ukuran parameter, dan melanjutkan jalur kemajuan algoritma pembelajaran penguatan

5 banyak orang menyebutkan betapa pentingnya infrastruktur dibandingkan dengan algoritma

6 melalui perencanaan dan koreksi kesalahan, o1 dapat memecahkan masalah baru di dunia

7 paradigma pelatihan baru adalah pendekatan yang benar-benar baru yang menempatkan lebih banyak daya komputasi ke dalam modelnya

8 o1saat menulis kode, ketika mengeluarkan kode yang akan digunakan, kode tersebut harus lulus pengujian unit

selanjutnya, mari kita lihat lebih dekat kisah di balik model o1.

pembelajaran penguatan + pemikiran, o1 membuka paradigma baru

sebagai seri baru openai, perbedaan terbesar antara o1 dan model gpt terletak pada inferensi.

intinya, ini adalah model penalaran, yang berarti akan “berpikir” lebih dari sebelumnya.

menurut peneliti openai, "berpikir" adalah cara berpikir yang paling intuitif.

terkadang, ketika ditanya apa ibu kota italia, kita bisa langsung menjawabnya, bahkan tanpa berpikir panjang. namun terkadang, jika menyangkut rencana bisnis, menulis novel, dan lain-lain, membutuhkan proses pemikiran yang panjang.

tentu saja, semakin lama anda memikirkannya, semakin baik hasilnya.

oleh karena itu, penalaran merupakan kemampuan untuk mengubah waktu berpikir menjadi hasil yang optimal.

dalam kata-kata mark chen, penalaran adalah “primitif” dan satu-satunya cara untuk mencapai proses berpikir yang andal.

mengenai penelitian inferensi, openai sebenarnya dimulai sejak awal. pada awal berdirinya, mereka melihat potensi alphago untuk mengalahkan manusia melalui algoritma rl dan melakukan banyak penelitian.

misalnya, mereka membuka platform pengujian game "universe" pada tahun 2016, yang merupakan platform sumber terbuka untuk melatih tingkat kecerdasan ai secara umum.

pada tahun 2018 telah tercipta sebuah game ai bernama openai five yang sukses mengalahkan tim og juara dunia di dua kali turnamen invitational internasional dota2.

pada saat yang sama, kemajuan signifikan telah dicapai dalam bidang data dan robotika.

tim openai mulai berpikir: bagaimana menerapkan pembelajaran penguatan di bidang umum dan mencapai ai yang sangat kuat?

artinya, paradigma baru yang dibuka oleh seri gpt. ini telah mencapai hasil yang luar biasa dalam meningkatkan pembelajaran tanpa pengawasan.

dan, sejak itu, para peneliti mulai mengeksplorasi cara menggabungkan kedua paradigma ini—pembelajaran penguatan dan pembelajaran tanpa pengawasan.

sulit untuk mengatakan secara pasti kapan upaya ini dimulai, namun hal ini sudah dilakukan sejak lama, kata para peneliti.

momen "aha".

dalam video tersebut, seseorang mengatakan bahwa menurutnya hal paling keren dari penelitian tersebut adalah momen "aha".

pada titik waktu tertentu, terobosan tak terduga terjadi dalam penelitian, dan semuanya tiba-tiba menjadi jelas, seperti sebuah pencerahan.

lantas, momen “aha” seperti apa yang dialami anggota tim?

seseorang berkata bahwa dia merasa ada momen kritis dalam proses pelatihan model, yaitu ketika mereka menginvestasikan lebih banyak daya komputasi daripada sebelumnya dan menghasilkan cot yang sangat koheren untuk pertama kalinya.

saat ini, semua orang terkejut: terlihat jelas bahwa model ini sangat berbeda dari model sebelumnya.

yang lain mengatakan bahwa ketika mempertimbangkan untuk melatih model dengan kemampuan penalaran, hal pertama yang terlintas dalam pikiran adalah membiarkan manusia mencatat proses berpikir mereka dan melatihnya.

baginya, momen aha adalah ketika ia menemukan bahwa melatih model melalui pembelajaran penguatan untuk menghasilkan dan mengoptimalkan cot bahkan lebih baik daripada cot yang ditulis oleh manusia.

momen ini menunjukkan bahwa kita dapat memperluas dan mengeksplorasi kemampuan penalaran model dengan cara ini.

peneliti ini mengatakan bahwa dia telah bekerja keras untuk meningkatkan kemampuan model dalam memecahkan masalah matematika.

yang membuatnya frustrasi, model tersebut sepertinya tidak pernah mempertanyakan kesalahan apa yang dilakukannya setiap kali berhasil.

namun, saat melatih salah satu model o1 awal, mereka terkejut saat mengetahui bahwa nilai tes matematika model tersebut tiba-tiba meningkat secara signifikan.

selain itu, peneliti dapat melihat proses penelitian model - model mulai merefleksikan dirinya sendiri dan mempertanyakan dirinya sendiri.

dia berseru: kami akhirnya membuat sesuatu yang berbeda!

perasaan ini sangat kuat, dan pada saat itu, segala sesuatunya tampak menyatu.

peneliti lain mengatakan bahwa ketika anda meminta model untuk menyelesaikan pemikirannya sebelum "batas waktu", prosesnya sangat menarik.

ini seperti berpartisipasi dalam kompetisi matematika. pemikiran apa pun dibatasi waktu.

ia mengatakan bahwa ini juga yang menjadi alasan utama mengapa ia memasuki bidang ai, dan kini, baginya, ini bisa dianggap sebagai momen "closed-loop".

selain itu, hal yang menakjubkan tentang model o1 adalah model ini sangat membantu dalam mendorong penemuan ilmiah dan kemajuan teknik.

bagi banyak orang, agi tampaknya merupakan konsep yang sangat abstrak dan tidak masuk akal. sampai mereka melihat ai melakukan hal-hal yang bisa dilakukan manusia, mereka tidak akan percaya dengan kedatangan agi.

untuk pemain catur dan go profesional, deep blue dari ibm, serta deepmind alphago dan alphazero, membuat mereka menyadari hal ini beberapa tahun yang lalu.

bagi kelompok ilmuwan openai yang pandai matematika dan coding, model o1 memiliki arti serupa. menariknya lagi, karya mereka setara dengan menciptakan ai yang mampu melampaui kemampuan mereka sendiri.

kesulitan apa yang anda temui selama proyek berlangsung?

mengenai kendala yang ditemui dalam prosesnya, peneliti langsung menyatakan bahwa pelatihan llm pada dasarnya sangat sulit.

mirip dengan meluncurkan roket dari bumi ke bulan, hanya ada jalan sempit menuju kesuksesan, namun ada banyak sekali jalan menuju kegagalan. jika anda menyimpang sedikit saja dari suatu sudut, anda tidak akan dapat mencapai tujuan.

ada ribuan kemungkinan terjadinya kesalahan dalam proses pelatihan, dan bahkan di tangan kelompok ilmuwan peneliti berbakat ini, ratusan masalah dihadapi setiap putaran pelatihan.

selain itu, seiring dengan semakin cerdasnya model, seperti o1, yang setara dengan manusia dengan beberapa gelar phd, evaluasi menjadi semakin sulit.

terkadang, mereka membutuhkan waktu lama untuk menentukan apakah model tersebut melakukan hal yang benar, dan pada akhirnya banyak tolok ukur industri yang umum digunakan menjadi jenuh, dan mereka perlu menemukan kembali tolok ukur yang sesuai dengan kemampuan o1.

selain proses pengembangan model, para peneliti juga ditanyai tentang kasus penggunaan favorit mereka untuk model o1.

hyung won chung berkata o1 bisa menjadi asisten coding yang baik.

dia biasanya mengikuti metode pengembangan tdd (test-driven development) saat bekerja. dengan bantuan o1, dia dapat menyelamatkan dirinya dari penulisan unit test.

selain itu, pesan kesalahan yang ditemui juga dapat langsung dilempar ke o1. meskipun terkadang tidak dapat menyelesaikan masalah secara langsung, pesan tersebut dapat menanyakan pertanyaan yang lebih baik daripada kompiler dan membantu anda mengatasi kesalahan tersebut.

jason wei mengatakan bahwa dirinya sering menggunakan o1 sebagai partner brainstorming, dan cakupan permasalahan yang bisa dibahas cukup luas, mulai dari cara menyelesaikan masalah machine learning hingga cara membuat draft blog atau tweet.

sebuah blog yang dia tulis pada bulan mei tahun ini tentang evaluasi llm mengacu pada opini o1, seperti struktur artikel, kelebihan dan kekurangan berbagai tolok ukur evaluasi, dan gaya penulisan.

bagaimana rasanya bekerja di openai?

dalam masalah ini, banyak orang membicarakan kecerdasan setiap orang dan keharmonisan suasana tim.

misalnya, saya sedang men-debug sebuah kode selama seminggu, dan seorang kolega yang lewat langsung menyelesaikannya; menghabiskan waktu dengan rekan-rekan yang sangat cerdas setiap hari secara bertahap membuat saya rendah hati.

mark chen menggambarkan proyek "strawberry" sebagai proyek yang sangat "organik", karena setiap orang memiliki pendapat dan opini masing-masing mengenai masalah profesional, dan mereka semua memiliki ide yang ingin mereka promosikan dengan antusias.

ketika ide-ide ini bersatu, percikan api akan meledak dan menjadi bola salju seperti bola salju.

namun, sisi lain dari bersikap asertif adalah setiap orang bersikeras pada pendapatnya masing-masing, namun tidak keras kepala. mereka juga akan berubah pikiran jika melihat hasil obyektif yang membantah klaim mereka.

yang lebih terpuji adalah kelompok orang yang sangat pintar ini juga sangat baik dan bersedia membantu orang lain memecahkan masalah. rekan kerja makan bersama dan berkumpul bersama. banyak peneliti dalam wawancara tersebut berkata terus terang, "bekerja di sini sangat menyenangkan." pengalaman".

kisah dibalik o1-mini

motivasi peluncuran o1-mini adalah untuk memberikan lebih banyak peneliti model yang memiliki anggaran lebih rendah namun tetap memiliki kemampuan inferensi yang kuat.

ini bisa disebut sebagai "ahli penalaran" dan lebih pintar dari model openai terbaik di masa lalu.

selain itu, biaya dan latensinya sangat rendah.

mungkin, seseorang belum tentu mengenal orang terkenal berdasarkan tanggal lahirnya, namun ia memang mempunyai kemampuan bernalar efektif dan banyak hikmahnya.

peneliti openai mengatakan mereka akan lebih meningkatkan algoritme agar sebanding dengan model kecil terbaik.

selain itu, para peneliti di seluruh dunia telah berinvestasi pada lebih banyak komputasi dan perangkat keras, yang menyebabkan biaya model turun secara eksponensial dalam jangka waktu yang lama.

namun, satu kekurangannya adalah kita tidak menghabiskan lebih banyak waktu untuk mencari cara baru untuk membalikkan keadaan.

paradigma baru o1 adalah penemuan kami - penskalaan inferensi, yang juga dapat mengoptimalkan efisiensi daya komputasi.

apa yang memotivasi anda melakukan penelitian?

apa alasan kelompok “otak cerdas” ini bisa berkumpul untuk menginspirasi mereka melakukan penelitian?

seorang peneliti mengatakan sangat menarik memikirkan berbagai cara menggunakan modelnya untuk membuat kesimpulan.

yang lain berkata, "semua hal baik datang di masa sulit."

fakta bahwa o1 dapat menjawab dengan sangat cepat adalah langkah pertama menuju model yang dapat memikirkan pertanyaan dalam waktu yang lama. di masa depan, diperlukan penelitian berbulan-bulan atau bahkan bertahun-tahun untuk membawanya ke perjalanan berikutnya.

“sangat menarik dan bermakna untuk berpikir bahwa sejumlah kecil dari kita dapat memberikan dampak yang mengubah dunia.”

hal yang paling menarik adalah paradigma baru membuka tugas-tugas yang sebelumnya tidak dapat diselesaikan oleh model. hal ini tidak hanya menjawab pertanyaan tertentu, namun sebenarnya menggeneralisasi kemampuan baru melalui perencanaan, memperbaiki kesalahan.

terlebih lagi, o1 dapat menghasilkan pengetahuan baru, yang merupakan bagian paling menarik dari penemuan ilmiah.

para peneliti mengatakan bahwa dalam waktu singkat, model tersebut akan menjadi kontributor yang semakin kuat bagi perkembangannya.

terakhir, ketika penanggung jawab o1 bertanya, "apakah ada pengamatan lain yang layak disebutkan?"

jason wei berbagi, "pengamatan yang menarik adalah bahwa setiap model yang dilatih sedikit berbeda dan memiliki keunikannya sendiri, seperti artefak. keunikan ini menambah sentuhan kepribadian pada setiap model."

versi lengkap videonya adalah sebagai berikut: