berita

AI sepenuhnya mengalahkan dokter manusia! Studi ini menemukan bahwa pengambilan keputusan klinis dalam model besar dilakukan secara tergesa-gesa dan tidak aman, dengan tingkat akurasi terendah hanya 13

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Akankah dokter manusia diberhentikan satu demi satu karena model besar seperti ChatGPT?

Kekhawatiran ini bukannya tidak berdasar. Bagaimanapun, model besar Google (Med-PaLM 2) dengan mudah lulus USMLE dan mencapai level ahli medis.

Namun, sebuah studi baru menunjukkan:Dalam istilah klinis,Dokter manusia dapat sepenuhnya mengalahkan model kecerdasan buatan (AI) saat ini, dan tidak perlu terlalu khawatir tentang “pengangguran” pribadi.

Makalah penelitian terkait berjudul "Evaluasi dan mitigasi keterbatasan model bahasa besar dalam pengambilan keputusan klinis" baru-baru ini diterbitkan di jurnal ilmiah Nature Medicine.


Studi ini menemukan bahwa model bahasa besar (LLM) yang paling canggih sekalipun tidak dapat membuat diagnosis yang akurat untuk semua pasien dan memberikan kinerja yang jauh lebih buruk daripada dokter manusia.

Akurasi diagnosis dokter sebesar 89%, sedangkan akurasi diagnosis LLM hanya 73%. Dalam satu kasus ekstrim (diagnosis kolesistitis), LLM hanya 13% benar.

Yang lebih mengejutkan lagi, akurasi diagnostik LLM menurun seiring dengan semakin banyaknya informasi yang dipelajari mengenai kasus tersebut, bahkan terkadang memerlukan tes yang dapat menimbulkan risiko kesehatan yang serius bagi pasien.

Bagaimana kinerja LLM sebagai dokter darurat?

Meskipun LLM dapat dengan mudah melewati USMLE,Ujian Perizinan Medis dan Tantangan Kasus Klinis cocok untuk menguji pengetahuan medis umum kandidat saja, dan jauh lebih mudah dibandingkan dengan tugas pengambilan keputusan klinis sehari-hari yang rumit.

Pengambilan keputusan klinis merupakan proses multi-langkah yang memerlukan pengumpulan dan integrasi data dari berbagai sumber dan evaluasi fakta yang berkelanjutan untuk sampai pada keputusan berbasis bukti tentang diagnosis dan pengobatan pasien.

Untuk menyelidiki lebih lanjut potensi LLM dalam diagnosis klinis, tim peneliti dari Technical University of Munich dan kolaboratornya menghasilkan database yang mencakup 2.400 kasus pasien nyata dan 4 penyakit perut umum berdasarkan Medical Information Market Intensive Care Database (MIMIC-IV) .radang usus buntu, pankreatitis, kolesistitis, dan divertikulitis),Simulasikan lingkungan klinis yang realistis dan ulangi proses dari ruang gawat darurat hingga perawatan , sehingga menilai kesesuaiannya sebagai pengambil keputusan klinis.


Gambar |. Sumber kumpulan data dan kerangka evaluasi. Dataset ini berasal dari kasus nyata di database MIMIC-IV dan berisi data rekam kesehatan elektronik komprehensif yang dicatat selama rawat inap. Kerangka penilaian mencerminkan keadaan klinis nyata dan memberikan penilaian LLM yang komprehensif berdasarkan berbagai kriteria, termasuk akurasi diagnostik, kepatuhan terhadap pedoman diagnostik dan pengobatan, konsistensi dalam mengikuti instruksi, kemampuan untuk menafsirkan hasil laboratorium, dan respons terhadap perubahan instruksi. , ketahanan terhadap perubahan volume informasi dan urutan informasi. ICD, Klasifikasi Penyakit Internasional; CT, computerized tomography; USG, MRCP, kolangiopankreatografi resonansi magnetik.

Tim peneliti menguji Llama 2 dan turunannya, termasuk versi umum (seperti Llama 2 Chat, Open Assistant, WizardLM) dan model yang selaras dengan domain medis (seperti Clinical Camel dan Meditron).

Karena masalah privasi dan perjanjian penggunaan data data MIMIC, data tersebut tidak dapat digunakan untuk API eksternal seperti OpenAI atau Google, sehingga ChatGPT, GPT-4 dan Med-PaLM tidak diuji. Khususnya, Llama 2, Clinical Camel, dan Meditron telah menyamai atau melampaui kinerja ChatGPT dalam ujian lisensi medis dan tes tanya jawab biomedis.

kelompok kontrol tes Empat dokter dari dua negara dengan tahun pengalaman darurat yang berbeda (masing-masing 2, 3, 4, dan 29 tahun) diikutsertakan. Hasilnya menunjukkan bahwa kinerja LLM jauh lebih buruk dibandingkan dokter manusia dalam diagnosis klinis.

1. Kinerja diagnostik LLM secara signifikan lebih rendah dibandingkan kinerja klinis

Hasil dokter menunjukkan bahwa LLM saat ini secara signifikan lebih rendah dibandingkan dokter dalam kinerja semua penyakit secara keseluruhan (P <0,001),Kesenjangan akurasi diagnostik adalah antara 16% dan 25% . Meskipun model ini memiliki kinerja yang baik dalam diagnosis radang usus buntu sederhana, model ini memiliki kinerja yang buruk dalam diagnosis patologi lain seperti kolesistitis. Secara khusus, model Meditron gagal dalam diagnosis kolesistitis dan sering kali mendiagnosis pasien dengan "batu empedu".

LLM medis profesional tidak mengungguli model lain secara signifikan dalam kinerja keseluruhan , dan ketika LLM perlu mengumpulkan semua informasi sendiri, kinerjanya akan semakin menurun.


Gambar |. Keakuratan diagnostik dengan syarat semua informasi disediakan. Data didasarkan pada subset MIMIC-CDM-FI (n=80), rata-rata akurasi diagnostik ditampilkan di atas setiap batang, dan garis vertikal mewakili deviasi standar. Kinerja rata-rata LLM secara signifikan lebih buruk (P <0,001), terutama pada kolesistitis (P <0,001) dan divertikulitis (P <0,001).


Gambar |. Akurasi diagnostik dalam skenario pengambilan keputusan klinis otonom. Dibandingkan dengan skenario penyediaan informasi lengkap, keakuratan penilaian model secara keseluruhan telah menurun secara signifikan. LLM memiliki kinerja terbaik dalam mendiagnosis apendisitis namun memiliki kinerja buruk dalam tiga patologi: kolesistitis, divertikulitis, dan pankreatitis.

2. Pengambilan keputusan klinis LLM tergesa-gesa dan tidak aman

Tim peneliti menemukan hal ituLLM berkinerja buruk dalam mengikuti pedoman diagnostik dan mudah melewatkan informasi penting pasien. . Ada juga kurangnya konsistensi dalam memesan tes laboratorium yang diperlukan untuk pasien. LLM juga memiliki kekurangan yang signifikan dalam menginterpretasikan hasil laboratorium. Hal ini menunjukkan bahwa mereka membuat diagnosis yang tergesa-gesa tanpa sepenuhnya memahami kasus pasien, sehingga menimbulkan risiko serius bagi kesehatan pasien.


Gambar |. Evaluasi metode pengobatan yang direkomendasikan LLM. Regimen pengobatan yang diinginkan ditentukan berdasarkan pedoman klinis dan pengobatan yang benar-benar diterima oleh pasien dalam kumpulan data. Dari 808 pasien, Llama 2 Chat mendiagnosis 603 orang dengan benar. Dari 603 pasien tersebut, Llama 2 Chat merekomendasikan operasi usus buntu dengan tepat sebanyak 97,5%.

3. LLM masih memerlukan pengawasan klinis yang ekstensif oleh dokter

Selain itu,Semua LLM saat ini berkinerja buruk dalam mengikuti panduan medis dasar , kesalahan terjadi dalam setiap 2-4 kasus, dan panduan yang tidak ada ditemukan dalam setiap 2-5 kasus.


Gambar |. kinerja LLM pada jumlah data yang berbeda. Studi ini membandingkan kinerja setiap model yang menggunakan semua informasi diagnostik versus hanya menggunakan satu pemeriksaan diagnostik dan riwayat penyakit saat ini. Untuk hampir semua penyakit, dalam kumpulan data MIMIC-CDM-FI, penyediaan semua informasi tidak menghasilkan kinerja yang optimal. Hal ini menunjukkan bahwa LLM tidak dapat fokus pada fakta-fakta penting dan kinerja menurun ketika terlalu banyak informasi yang diberikan.

Studi tersebut juga menunjukkan bahwa urutan informasi yang memberikan kinerja terbaik untuk setiap model berbeda untuk setiap patologi, yang tentunya semakin meningkatkan kesulitan optimasi model selanjutnya. Tugas ini tidak dapat dilakukan dengan andal tanpa pengawasan dokter yang ekstensif dan evaluasi sebelumnya. Secara keseluruhan, alat-alat tersebut memiliki kekurangan yang terperinci dalam mengikuti instruksi, urutan pemrosesan informasi, dan pemrosesan informasi yang relevan, sehingga memerlukan pengawasan klinis yang signifikan untuk memastikan alat-alat tersebut berfungsi dengan benar.

Meskipun penelitian ini menemukan berbagai masalah dalam diagnosis klinis LLM, LLM masih memiliki harapan besar dalam dunia kedokteran dan kemungkinan lebih cocok untuk diagnosis berdasarkan riwayat kesehatan dan hasil tes. Tim peneliti meyakini hal ituPekerjaan penelitian ini memiliki ruang untuk perluasan lebih lanjut dalam dua aspek berikut:

  • Validasi dan pengujian model: Penelitian lebih lanjut harus fokus pada validasi dan pengujian LLM yang lebih komprehensif untuk memastikan efektivitasnya dalam pengaturan klinis nyata.

  • Kolaborasi multidisiplin: Direkomendasikan agar para ahli AI bekerja sama dengan dokter untuk bersama-sama mengembangkan dan mengoptimalkan LLM yang sesuai untuk praktik klinis dan memecahkan masalah dalam aplikasi praktis.

Bagaimana AI mengganggu layanan kesehatan?

Tidak hanya penelitian di atas, tim dari National Institutes of Health (NIH) dan kolaboratornya juga menemukan permasalahan serupa - saat menjawab 207 pertanyaan image challenge,Meskipun GPT-4V mendapat skor tinggi dalam memilih diagnosis yang benar, GPT-4V sering kali membuat kesalahan dalam mendeskripsikan gambar medis dan menjelaskan alasan di balik diagnosis tersebut.

Meskipun AI saat ini jauh lebih rendah daripada dokter profesional manusia, penelitian dan penerapannya dalam industri medis selalu menjadi "medan pertempuran" penting bagi perusahaan teknologi dalam dan luar negeri serta universitas riset ilmiah untuk bersaing.

Misalnya, Google menerbitkanModel besar AI medis Med-PaLM2 , memiliki kemampuan diagnostik dan pengobatan yang kuat, dan juga merupakan model besar pertama yang mencapai tingkat "ahli" dalam rangkaian tes MedQA.


Diusulkan oleh tim peneliti dari Universitas Tsinghua“Rumah Sakit Agen” , dapat mensimulasikan seluruh proses pengobatan penyakit, dan tujuan intinya adalah agar agen dokter mempelajari cara mengobati penyakit dalam lingkungan simulasi, dan bahkan terus mengumpulkan pengalaman dari kasus yang berhasil dan gagal untuk mencapai evolusi diri.


Harvard Medical School memimpin pengembangan alat baru untuk patologi manusiaAsisten AI umum bahasa visual —— PathChat , yang dapat mengidentifikasi penyakit dengan tepat dari bagian biopsi di hampir 90% kasus, dan kinerjanya lebih baik daripada model AI umum dan model medis profesional yang saat ini ada di pasaran seperti GPT-4V.


Gambar |. Petunjuk untuk menyempurnakan kumpulan data dan konstruksi PathChat

Baru-baru ini, CEO OpenAI Sam Altman berpartisipasi dalam pendirian perusahaan baru, Thrive AI Health, yang bertujuan menggunakan teknologi AI untuk membantu masyarakat meningkatkan kebiasaan sehari-hari dan mengurangi angka kematian akibat penyakit kronis.

Mereka berkata,Teknologi AI yang sangat dipersonalisasi Hal ini secara efektif dapat meningkatkan kebiasaan hidup masyarakat, sehingga mencegah dan mengelola penyakit kronis, mengurangi beban ekonomi medis, dan meningkatkan kesehatan masyarakat secara keseluruhan.

Saat ini, penerapan AI dalam industri medis telah secara bertahap beralih dari tahap percobaan awal ke tahap penerapan praktis, namun perjalanan masih panjang sebelum AI dapat membantu dokter meningkatkan kemampuan mereka, meningkatkan pengambilan keputusan klinis, atau bahkan langsung menggantinya.