berita

o1 mengalahkan gpt-4 di bidang medis, dan kinerjanya meroket! tim tiongkok mengeluarkan artikel: kami semakin dekat dengan dokter ai

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina



  laporan kebijaksanaan baru

redaktur: lrs
[pengantar kebijaksanaan baru]model o1 openai telah menunjukkan kinerja luar biasa pada tugas-tugas bahasa umum. evaluasi terbaru menunjukkan kinerja model o1 di bidang medis, dengan fokus pada pemahaman, penalaran, dan kemampuan multi-bahasa.


ketika model bahasa besar pertama kali dirilis, ia berhasil menyelesaikan tugasnya, keserbagunaan domain, dan kemampuan pembuatan teks yang lancar. namun, teknologi pada saat itu hanya dapat diterapkan pada beberapa tugas yang relatif sederhana.


dengan munculnya teknologi cepat seperti rantai pemikiran, terutama model openai o1 yang baru dirilis, ini adalah yang pertama mengadopsi teknologi rantai pemikiran internal dari strategi pembelajaran penguatan, yang meningkatkan kemampuan model besar untuk memecahkan masalah dan penalaran yang kompleks. tingkat yang benar-benar baru.


meskipun model o1 telah menunjukkan kemampuan yang sangat kuat dalam berbagai tugas bahasa umum, kinerjanya dalam bidang profesional seperti kedokteran masih belum diketahui.


sebuah tim tiongkok dari universitas california, santa cruz, universitas edinburgh, dan institut kesehatan nasional bersama-sama merilis sebuah laporan, melakukan eksplorasi komprehensif terhadap o1 dalam berbagai skenario medis, dan memeriksa kinerja model dalam pemahaman dan penalaran. . ) dan kemampuan multibahasa.



penilaian ini mencakup enam tugas dengan menggunakan data dari 37 kumpulan data medis, termasuk dua tugas tanya jawab yang sulit berdasarkan new england journal of medicine (nejm) dan the lancet professional medical test.


dibandingkan dengan tolok ukur jawaban pertanyaan medis standar seperti medqa, kumpulan data ini lebih relevan secara klinis dan dapat diterapkan secara lebih efektif dalam skenario klinis dunia nyata.


analisis model o1 menunjukkan bahwa peningkatan kemampuan penalaran llm lebih kondusif bagi pemahaman model terhadap berbagai instruksi medis dan juga dapat meningkatkan kemampuan model dalam bernalar dalam skenario klinis yang kompleks.


perlu dicatat bahwa keakuratan model o1 dalam 19 kumpulan data dan dua skenario tanya jawab kompleks melebihi gpt-4 sebelumnya rata-rata sebesar 6,2% dan 6,6%.


pada saat yang sama, peneliti menemukan beberapa kelemahan dalam kemampuan model dan protokol evaluasi yang ada, termasuk halusinasi, kemampuan multibahasa yang tidak konsisten, dan metrik evaluasi yang tidak konsisten.


penilaian komprehensif terhadap kemampuan medis model besar


dalam hal meningkatkan kemampuan penalaran model, petunjuk rantai pemikiran (cot) adalah strategi cepat yang umum digunakan, yang menggunakan pola penalaran dalam model untuk meningkatkan kemampuan menyelesaikan tugas-tugas kompleks.


model o1 melangkah lebih jauh, memasukkan proses cot ke dalam pelatihan model, mengintegrasikan pembelajaran penguatan, dan menunjukkan kinerja penalaran yang kuat, namun model o1 belum dievaluasi dengan data di bidang profesional, dan kinerjanya pada tugas-tugas tertentu masih tidak dikenal.



tolok ukur llm yang ada di bidang medis biasanya hanya mengevaluasi kemampuan spesifik model, seperti pengetahuan dan penalaran, keamanan, dan multi-bahasa. tes tersebut relatif terisolasi satu sama lain dan tidak dapat mengevaluasi model lanjutan seperti o1 secara komprehensif.



untuk memastikan penilaian yang komprehensif, para peneliti mengumpulkan berbagai tugas medis dan kumpulan data yang mencakup aspek-aspek di atas dan mengeksplorasi tiga strategi pendorong dalam proses tersebut, termasuk:


1. petunjuk langsung untuk memandu model bahasa besar agar dapat memecahkan masalah secara langsung

2. rantai berpikir, yang mengharuskan model berpikir selangkah demi selangkah sebelum menghasilkan jawaban akhir.

3. petunjuk singkat memberikan beberapa contoh kepada model untuk mempelajari pemetaan input-output dengan cepat.


terakhir, gunakan metrik yang sesuai untuk mengukur perbedaan antara tanggapan yang dihasilkan dan jawaban sebenarnya.



fokus dan tugas


para peneliti menggunakan 35 kumpulan data yang ada dan membuat 2 kumpulan data tambahan dengan tingkat kesulitan yang lebih tinggi untuk evaluasi, lalu mengklasifikasikan seluruh 37 kumpulan data menjadi 3 aspek dan 6 tugas untuk evaluasi dan analisis yang lebih jelas guna memahami bagaimana kinerja suatu model dalam domain tertentu.


memahamimengacu pada kemampuan model dalam menggunakan pengetahuan medis internalnya untuk memahami konsep medis.


misalnya, dalam tugas pengenalan konsep, model perlu mengekstrak atau menguraikan konsep medis dari artikel atau laporan diagnostik; dalam peringkasan teks, model perlu memahami konsep dalam teks kompleks untuk menghasilkan ringkasan yang ringkas.


pemikiranuji kemampuan model berpikir logis melalui beberapa langkah untuk mencapai kesimpulan.


dalam tugas tanya jawab, model perlu mengikuti instruksi cepat untuk bernalar berdasarkan informasi medis yang diberikan dalam pertanyaan dan memilih jawaban yang benar dari beberapa pilihan.


selain kumpulan data tanya jawab umum, para peneliti juga mengumpulkan pertanyaan klinis dunia nyata dari the lancet, the new england journal of medicine (nejm), dan medbullets untuk mengevaluasi kegunaan klinis llm dengan lebih baik.


dalam tugas rekomendasi klinis, model perlu memberikan rekomendasi pengobatan atau keputusan diagnostik berdasarkan informasi pasien. dalam kumpulan data ai hospital dan agentclinic, model perlu bertindak sebagai agen medis; dalam kumpulan data medcalc-bench, model perlu melakukan penalaran matematis dan menghitung jawaban.


multibahasa, bahasa untuk memasukkan instruksi dan mengeluarkan jawaban berbeda.


kumpulan data xmedbench mengharuskan llm menjawab pertanyaan medis dalam enam bahasa, termasuk cina, arab, hindi, spanyol, cina, dan inggris; dalam kumpulan data rumah sakit ai, model perlu menggunakan bahasa mandarin untuk tanya jawab.


indikator evaluasi


ketepatan, ukuran langsung persentase jawaban yang dihasilkan oleh model yang sama persis dengan jawaban sebenarnya.


terutama digunakan ketika jawaban sebenarnya adalah kata atau frasa, termasuk kumpulan data pertanyaan pilihan ganda, kumpulan data medcalcbench, dan kumpulan data saran klinis dan identifikasi konsep.


skor f1, rata-rata harmonik dari presisi dan perolehan, digunakan pada kumpulan data yang modelnya perlu memilih beberapa jawaban yang benar.


bleu dan pemerah, metrik pemrosesan bahasa alami yang mengukur kesamaan antara respons yang dihasilkan dan jawaban sebenarnya, menggunakan bleu-1 dan rouge-1 untuk semua tugas pembuatan bentuk bebas dalam evaluasi


sejajarkan skor, metrik yang mengukur konsistensi fakta teks yang dihasilkan, menggunakan alignscore untuk semua tugas pembuatan format yang tidak ditentukan guna mengevaluasi tingkat ilusi model.


ungu muda, metrik yang mengukur perbedaan antara distribusi teks yang dihasilkan dan teks yang ditulis manusia, digunakan untuk semua tugas pembuatan format yang tidak ditentukan. nilai metrik berkisar dari 0 hingga 100, dengan nilai yang lebih tinggi menunjukkan kualitas model yang lebih tinggi. keluaran.


hasil percobaan


strategi yang cepat


untuk tugas tanya jawab pengetahuan, tugas agen, tugas komputasi medis, dan tugas terkait multi-bahasa, gunakan metode evaluasi langsung dan cepat;


untuk tugas lain dari meds-bench, strategi dorongan tiga sampel dalam pengaturan benchmark diikuti.



menurut pernyataan openai, teknik dorongan umum seperti chain of thoughts (cot) dan contoh dalam konteks tidak terlalu membantu dalam meningkatkan kinerja o1 karena model tersebut sudah memiliki cot implisit bawaan.


untuk lebih menguji klaim ini, para peneliti menambahkan efek dari beberapa isyarat lanjutan ke dalam penilaian, termasuk cot, self consistency, dan reflex.


selain memilih model gpt-3.5, gpt-4, dan o1 untuk evaluasi, para peneliti juga memilih dua model sumber terbuka: satu adalah model bahasa besar meditron-70b yang dilatih dengan data pusat medis, dan yang terbaru dan paling kuat sumber terbuka model model bahasa besar llama3-8b


hasil utama


kemampuan o1 dalam pemahaman klinis telah ditingkatkan


ketika model o1 dirilis, openai terutama menekankan hal tersebutpeningkatan signifikan dalam pengetahuan dan kemampuan penalaran, seperti pemecahan masalah matematika dan pembuatan kode, juga dapat diamati dari hasil eksperimen, dan kemampuan ini juga dapat ditransfer ke pemahaman pengetahuan klinis tertentu.



dapat dilihat bahwa o1 mengungguli model lain dalam hal pemahaman sebagian besar tugas klinis. misalnya, o1 rata-rata mengungguli gpt-4 dan gpt-3.5 pada 5 kumpulan data pengenalan konsep yang menggunakan f1 sebagai metrik. dengan peningkatan rata-rata sebesar 24,5% pada kumpulan data bc4chem yang umum digunakan.



pada tugas ringkasan, o1 meningkatkan skor rouge-1 masing-masing sebesar 2,4% dan 3,7% dibandingkan dengan gpt-4 dan gpt-3.5, membuktikan peningkatan kemampuannya dalam pemahaman klinis dunia nyata di kemajuan dalam kemampuan pemrosesan bahasa alami secara umum dapat secara efektif diterjemahkan ke dalam pemahaman model yang ditingkatkan di bidang medis.


kemampuan penalaran yang kuat dari model o1 dalam skenario diagnosis klinis


pada tugas-tugas yang berhubungan dengan penalaran, model o1 juga telah menunjukkan kelebihannya dalam situasi diagnostik dunia nyata.


dalam tugas menjawab pertanyaan yang baru dibangun dan menantang nejmqa dan lancetqa, akurasi rata-rata o1 pada masing-masing kumpulan data meningkat sebesar 8,9% dan 27,1% dibandingkan dengan gpt-4 (79,6%) dan gpt-3,5 (61,5%).


peningkatan penting lainnya dalam kemampuan penalaran matematis o1 adalah peningkatan baseline medcalc-bench menjadi 34,9%, yang berarti 9,4% lebih tinggi dibandingkan gpt-4.


dalam skenario penalaran yang lebih kompleks yang melibatkan beberapa putaran dialog dan simulasi lingkungan, o1 mengungguli gpt-4 dan gpt-3.5 pada benchmark agentclinic, masing-masing memperoleh setidaknya 15,5% dan 10% pada subset medqa dan nejm , dengan skor masing-masing 45,5% dan 20,0%.


selain akurasi yang lebih tinggi, jawaban o1 juga lebih ringkas dan langsung, sedangkan gpt-4 menghasilkan penjelasan halusinasi di samping jawaban yang salah.



para peneliti percaya bahwa peningkatan o1 dalam pengetahuan dan penalaran terutama disebabkan oleh penggunaan data yang ditingkatkan dan teknik yang mendasarinya (seperti data cot dan teknik pembelajaran penguatan) selama proses pelatihan.


berdasarkan hasil optimis di atas, para peneliti dengan bersemangat menyatakan dalam makalahnya: dengan model o1, kita semakin dekat dengan dokter ai yang sepenuhnya otomatis.


referensi: