berita

orang tiongkok yang lahir pada tahun 2000 menerbitkan sebuah makalah di nature, mengatakan bahwa model berukuran besar kurang dapat diandalkan untuk manusia

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

karya seorang tionghoa kelahiran tahun 2000-an diterbitkan di nature, dan makalah model besar ini menimbulkan diskusi hangat.

sederhananya, makalah ini menemukan bahwa model yang lebih besar dan lebih patuh juga menjadi kurang dapat diandalkan, dan dalam beberapa kasusgpt-4 tidak dapat diandalkan seperti gpt-3 dalam menjawab pertanyaan

dibandingkan dengan model sebelumnya, model terbaru, yang memiliki lebih banyak daya komputasi dan umpan balik manusia, justru mengalami penurunan keandalan jawaban.

begitu kesimpulannya keluar, langsung menarik lebih dari 200.000 netizen untuk menonton:

hal ini pun memicu diskusi di forum reddit.

hal ini mengingatkan masyarakat bahwa banyak model tingkat pakar/doktoral yang masih belum mengetahui pertanyaan sederhana “mana yang lebih besar, 9,9 atau 9,11”.

mengenai fenomena ini, makalah tersebut menyebutkan bahwa hal ini juga mencerminkan,performa model tidak sesuai dengan ekspektasi kesulitan manusia

dengan kata lain, "llm berhasil dan (yang lebih berbahaya) gagal di tempat yang tidak diharapkan oleh pengguna."

prediksi ilya sutskever pada tahun 2022:

mungkin seiring berjalannya waktu perbedaan ini akan berkurang.

namun, makalah ini menemukan bahwa hal tersebut tidak terjadi. tidak hanya seri gpt, llama dan bloom saja, bahkanopenaibarumodel o1 dan claude-3.5-sonetaada juga kekhawatiran mengenai keandalan.

lebih penting lagi, makalah itu juga ditemukanandalkan pengawasan manusia untuk memperbaiki kesalahanpendekatan ini juga tidak berhasil.

beberapa netizen percaya bahwa meskipun model yang lebih besar mungkin menimbulkan masalah keandalan, model tersebut juga memberikan fungsionalitas yang belum pernah ada sebelumnya.

kita perlu fokus pada pengembangan metode penilaian yang kuat dan meningkatkan transparansi.

yang lain percaya bahwa penelitian ini menyorotiaitantangan halus yang dihadapi(menyeimbangkan perluasan dan keandalan model)

model yang lebih besar kurang dapat diandalkan dan mengandalkan masukan manusia tidak akan berhasil

untuk mengilustrasikan kesimpulannya, makalah ini mengkaji tiga aspek utama yang mempengaruhi keandalan llm dari sudut pandang manusia:

1、kesulitan yang tidak konsisten: apakah llm gagal ketika manusia memperkirakannya akan gagal?
2、
penghindaran tugas: apakah llm menghindari menjawab pertanyaan yang berada di luar kemampuannya?
3、
sensitivitas terhadap ekspresi bahasa yang cepat: apakah keefektifan rumusan masalah dipengaruhi oleh tingkat kesulitan masalah?

lebih penting lagi, penulis juga menganalisis tren historis dan bagaimana ketiga aspek ini berkembang seiring dengan kesulitan tugas.

perluas mereka satu per satu di bawah.

untuk pertanyaan pertama, makalah ini terutama berfokus padaevolusi kebenaran relatif terhadap kesulitan

dilihat dari evolusi gpt dan llama, seiring dengan meningkatnya kesulitan, kebenaran semua model akan menurun secara signifikan.(konsisten dengan harapan manusia)

namun, model ini masih belum dapat menyelesaikan banyak tugas yang sangat sederhana.

ini berarti bahwa pengguna manusia tidak dapat menemukan ruang operasi llm yang aman dan menggunakannya untuk memastikan bahwa kinerja penerapan model dapat berjalan dengan sempurna.

anehnya, llm baru terutama meningkatkan kinerja pada tugas-tugas sulit, tanpa perbaikan signifikan pada tugas-tugas sederhana. misalnya,gpt-4 dibandingkan pendahulunya gpt-3.5-turbo

hal di atas membuktikan bahwa terdapat inkonsistensi antara ekspektasi kesulitan manusia dan performa model.dan ketidakkonsistenan ini diperparah pada model baru.

ini juga berarti:

saat ini tidak ada kondisi pengoperasian yang aman bagi manusia untuk menentukan bahwa llm dapat dipercaya.

hal ini khususnya mengkhawatirkan dalam aplikasi yang memerlukan keandalan tinggi dan identifikasi ruang pengoperasian yang aman. hal ini membuat orang merenungkan apakah kecerdasan mesin mutakhir yang diciptakan manusia dengan kerja keras benar-benar sesuai dengan harapan masyarakat.

kedua, mengenai poin 2, temuan makalah(penghindaran biasanya mengacu pada model yang menyimpang dari jawaban pertanyaan, atau langsung menyatakan “saya tidak tahu”)

dibandingkan dengan llm sebelumnya,llm terbaru secara drastis memperbaiki banyak jawaban yang salah atau tidak masuk akal, daripada dengan hati-hati menghindari tugas-tugas di luar kemampuan mereka.

hal ini juga mengarah pada fenomena ironis: di beberapa tolok ukur, tingkat kesalahan llm baru meningkat lebih cepat daripada akurasi (doge).

secara umum, semakin sulit suatu tugas yang dihadapi manusia, semakin besar kemungkinan tugas tersebut menjadi kabur.

namun kinerja llm sebenarnya sangat berbedaperilaku menghindar mereka tidak berhubungan secara signifikan dengan kesulitan.

hal ini dapat dengan mudah menyebabkan pengguna pada awalnya terlalu mengandalkan llm untuk menyelesaikan tugas yang tidak mereka kuasai, namun membuat mereka kecewa dalam jangka panjang.

konsekuensinya, manusia juga perlu memverifikasi keakuratan keluaran model dan mendeteksi kesalahan.(jika anda ingin menggunakan llm untuk bermalas-malasan, anda akan mendapat diskon besar)

terakhir, makalah ini menemukan bahwa meskipun beberapa indikator keandalan telah meningkat, model tersebut masih sensitif terhadap perubahan kecil pada rumusan masalah yang sama.

berikan kastanye, menanyakan "bisakah anda menjawab...?" alih-alih "tolong jawab pertanyaan berikut..." akan menghasilkan tingkat akurasi yang berbeda-beda.

analisis ditemukan:mengandalkan hanya pada peningkatan dan pembentukan yang ada sepertinya tidak akan sepenuhnya menyelesaikan masalah sensitivitas indikasi, karena model terbaru tidak dioptimalkan secara signifikan dibandingkan pendahulunya.

dan bahkan jika anda memilih format representasi terbaik dalam hal kinerja rata-rata, format tersebut mungkin efektif terutama untuk tugas-tugas dengan tingkat kesulitan tinggi, tetapi pada saat yang sama tidak efektif untuk tugas-tugas dengan tingkat kesulitan rendah.(tingkat kesalahan lebih tinggi)

ini menunjukkan hal itukemanusiaan masih tunduk pada proyek yang mendorong

yang lebih menakutkan lagi adalah surat kabar tersebut menemukan hal itupengawasan manusia tidak dapat mengurangi ketidakandalan model

makalah ini menganalisis berdasarkan survei manusia apakah persepsi manusia terhadap kesulitan konsisten dengan kinerja sebenarnya dan apakah manusia dapat mengevaluasi keluaran model secara akurat.

hasilnya menunjukkan, di wilayah pengoperasian yang dianggap sulit oleh pengguna, mereka sering kali menganggap keluaran yang salah sebagai benar; bahkan untuk tugas sederhana, tidak ada wilayah pengoperasian yang aman dengan kesalahan model rendah dan kesalahan pengawasan rendah.

masalah tidak dapat diandalkan di atas terjadi di beberapa seri llm, termasuk gpt, llama, dan bloom. berikut ini tercantum dalam penelitian ini32 model

model-model ini menunjukkan perbedaanpeningkatan(peningkatan perhitungan, ukuran model, dan data) danpembentukan(misalnya instruksi ft, rlhf).

selain hal di atas, penulis kemudian menemukan bahwa beberapa model terbaru dan terkuat juga mengalami masalah tidak dapat diandalkan yang disebutkan dalam artikel ini:

termasuk model o1 openai, claude-3.5-sonnet dari antropicic, dan llama-3.1-405b dari meta

ada juga dokumen yang memberikan contoh.(untuk detailnya, silakan merujuk ke dokumen asli)

selain itu, untuk memverifikasi apakah model lain memiliki masalah keandalan, penulis menggunakan tolok ukur pengujian yang digunakan dalam makalah inibangku keandalanini juga sumber terbuka.

ini adalah kumpulan data yang mencakup lima domain, aritmatika sederhana (“penambahan”), reorganisasi kosa kata (“teka-teki kata”), pengetahuan geografis (“lokasi”), masalah sains dasar dan lanjutan (“ilmu pengetahuan”), dan pusat berbasis informasi transformasi (“transformasi”).

pengenalan penulis

makalah pertamalexin zhou, saat ini baru saja lulus dari universitas cambridge dengan gelar master di bidang cs (24 tahun), dan minat penelitiannya adalah evaluasi model bahasa yang besar.

sebelumnya, beliau memperoleh gelar sarjana di bidang ilmu data dari universitas politeknik valencia, dibimbing oleh profesor jose hernandez-orallo.

halaman beranda pribadinya menunjukkan bahwa ia memiliki banyak pengalaman kerja magang. berpartisipasi dalam pengujian tim merah di openai dan meta.(konsultasi tim merah )

mengenai makalah ini, ia fokus pada:

desain dan pengembangan kecerdasan buatan secara umum perlu dilakukanperubahan mendasar, terutama di domain berisiko tinggi, dimana distribusi kesalahan yang dapat diprediksi sangatlah penting. sebelum hal ini tercapai,ada bahayanya jika mengandalkan pengawasan manusia.

saat mengevaluasi suatu model,pertimbangkan kesulitan yang dirasakan manusia dan evaluasi perilaku penghindaran model, dapat memberikan gambaran yang lebih komprehensif mengenai kemampuan dan risiko model, dibandingkan hanya berfokus pada kinerja pada tugas-tugas sulit.

makalah ini juga secara khusus menyebutkan beberapa kemungkinan alasan ketidakandalan ini, serta solusinya:

dalam peningkatan skala, tolok ukur dalam beberapa tahun terakhir semakin cenderung menambahkan contoh yang lebih sulit, atau memberi bobot lebih pada apa yang disebut sumber "otoritatif". oleh karena itu, peneliti lebih cenderung mengoptimalkan kinerja model pada tugas-tugas sulit, sehingga menghasilkan kronis penurunan konsistensi kesulitan.

dalam pembentukan (seperti rlhf), orang yang direkrut cenderung menghukum jawaban yang menghindari tugas, menyebabkan model lebih cenderung "berbicara omong kosong" ketika dihadapkan pada masalah sulit yang tidak dapat diselesaikan.

bagaimana mengatasi ketidakandalan ini, makalah ini percaya bahwa ekspektasi kesulitan manusia dapat digunakan untuk melatih atau menyempurnakan model dengan lebih baik, atau kesulitan tugas dan kepercayaan diri model dapat digunakan untuk mengajarkan model dengan lebih baik guna menghindari masalah di luar kemampuannya sendiri, dll.

apa pendapat anda tentang ini?