Informasi kontak saya
Surat[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Crecy berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI
Tim Apple telah merilis pencapaian open source baru - serangkaian tolok ukur kemampuan memanggil alat model besar.
Tolok Ukur ini digunakan secara inovatifMetode evaluasi berbasis skenario, yang dapat lebih mencerminkan tingkat model di lingkungan nyata.
Hal ini juga memperkenalkan skenario penting yang tidak diperhatikan dalam standar tradisional seperti interaksi dialog dan ketergantungan pada negara.
Serangkaian tolok ukur pengujian ini disebut ToolSandbox, dan Pang Ruoming, kepala tim model dasar Apple, juga berpartisipasi dalam penelitian ini.
ToolSandbox menutupi kekurangan evaluasi berbasis skenario terhadap standar pengujian yang ada dan mempersempit kesenjangan antara kondisi pengujian dan aplikasi sebenarnya.
Dan dalam hal interaksi, penulis membiarkan GPT-4o bertindak sebagai pengguna dan berbicara dengan model yang diuji, sehingga mensimulasikan skenario dunia nyata.
Misalnya, beri tahu GPT-4o bahwa Anda bukan lagi asisten, tetapi Anda ingin berperan sebagai pengguna A yang sedang berbicara dengan pengguna B, lalu buat serangkaian permintaan khusus.
Selain itu, penulis juga menggunakan ToolSandbox untuk menguji beberapa model mainstream, dan hasilnya secara keseluruhanModel sumber tertutup mendapat skor lebih tinggi daripada model sumber terbuka, yang terkuat adalah GPT-4o.
Pengembang aplikasi iOS Nick Dobos mengatakan bahwa serangkaian standar Apple ringkas dan jelas.
Pada saat yang sama, dia menunjukkan bahwa ChatGPT sudah agak kewalahan ketika dihadapkan dengan tiga alat. Jika Siri ingin mengelola lusinan atau ratusan aplikasi di ponsel, Siri juga perlu meningkatkan kemampuan panggilan alatnya.
Implikasinya adalah penelitian ToolSandbox mungkin untuk memperjelas arah penelitian dan pengembangan Siri di masa depan.
Seperti disebutkan di atas, ToolSandbox mengadopsi metode pengujian berbasis skenario dan interaktif.
Secara khusus, ToolSandbox mencakup total hampir 2.000 skenario dalam tujuh jenis, termasuk pemanggilan alat tunggal/berganda, dialog tunggal/berganda, ketergantungan negara, standardisasi, dan informasi yang tidak memadai.
Yang pertama relatif mudah dipahami. Berikut beberapa penjelasan untuk tiga tipe adegan berikut:
Dalam skenario ini, ToolSandbox akan berfokus pada tiga indikator model:
Dalam hal alat, penulis memilih 34 fungsi Python yang dapat digabungkan sebagai alat, yang sebanding dengan kompleksitas skenario nyata.
Ini mencakup alat Python asli dan beberapa alat RapidAPI terintegrasi, dengan fungsi yang mencakup banyak area umum seperti pencarian, dialog, navigasi, cuaca, dan pemrosesan gambar.
Dari segi prosesnya, langkah pertama adalah menyiapkan skenario pengujian. Para peneliti akan mendefinisikan dan menyimpan keadaan dunia awal, dan pada saat yang sama menggunakan model GPT-4o yang dikalibrasi untuk menghasilkan pesan pengguna awal.
Kemudian memasuki tahap eksekusi interaktif, sistem terlebih dahulu menginisialisasi Message Bus sebagai saluran komunikasi antar peran, dan mengkonfigurasi model yang berperan sebagai pengguna dan model yang diuji.
Saat perulangan percakapan dimulai, model yang menyimulasikan pengguna mengirimkan pesan awal, dan model yang diuji menerima pesan tersebut dan memutuskan tindakan selanjutnya—baik membalas langsung ke pengguna, atau memanggil alat untuk berinteraksi dengan lingkungan.
Jika model memilih untuk memanggil alat tersebut, alat tersebut akan menyediakan parameter yang diperlukan dalam format JSON, dan lingkungan eksekusi kemudian menafsirkan dan mengeksekusi panggilan ini, kemungkinan memperbarui status dunia, dan menangani potensi kondisi panggilan paralel.
Setelah hasil eksekusi dikembalikan ke model yang diuji, model yang diuji menentukan tindakan selanjutnya lagi. Proses ini berlanjut hingga simulator pengguna yakin bahwa tugas telah selesai (atau tidak dapat diselesaikan), yang pada saat itu akan memanggil end_conversation. alat untuk mengakhiri percakapan.
Selama keseluruhan proses interaksi, sistem mencatat semua pesan dan perubahan status untuk membentuk "jalur dialog" yang lengkap, yang kemudian memasuki tahap evaluasi.
Evaluasi menggunakan “pencapaian” dan “ladang ranjau” yang telah ditentukan sebelumnya untuk mengukur kinerja model agen.
tonggak pencapaianPeristiwa penting untuk menyelesaikan tugas ditentukan, membentuk grafik asiklik terarah untuk mencerminkan ketergantungan waktu.
Sistem mencari kecocokan terbaik antara peristiwa dan pencapaian dalam lintasan sambil mempertahankan urutan topologi pencapaian tersebut.
daerah ranjauIni mendefinisikan peristiwa terlarang dan terutama digunakan untuk mendeteksi apakah model berhalusinasi karena informasi yang tidak mencukupi.
Misalnya, gambar di bawah ini menunjukkan contoh penilaian ladang ranjau dalam skenario "informasi tidak mencukupi".
Dalam tugas ini, karena stempel waktu saat ini tidak tersedia, model tidak boleh memanggil alat timestamp_diff, namun model salah menebak stempel waktu saat ini dan memanggil alat tersebut, sehingga menghasilkan skor 0 untuk putaran ini.
Pada akhirnya, sistem menghitung skor gabungan yang merupakan hasil kali rata-rata skor pertandingan pencapaian dan penalti ladang ranjau.
Selain itu, sistem juga akan menghitung jumlah rata-rata putaran yang diperlukan untuk menyelesaikan tugas sebagai indikator tambahan untuk mengevaluasi efisiensi model.
Secara keseluruhan,Model sumber tertutup mempunyai kinerja lebih baik daripada model sumber terbuka dalam hal pemanggilan alat。
Yang memiliki skor rata-rata tertinggi adalah GPT-4o, dengan skor 73,0. Ini adalah satu-satunya yang melebihi 70 dan mencapai skor tertinggi dalam empat dari tujuh skenario yang ditetapkan penulis.
Selain itu, GPT-4o juga sangat tangguh. Penulis menggunakan 8 metode untuk memodifikasi alat, dan GPT-4o memiliki skor ketahanan tertinggi di antara metode tersebut.
Diikuti oleh Claude 3-Opus, dengan skor rata-rata 69,2, yang mengungguli GPT-4o dalam adegan dengan informasi yang tidak mencukupi, dan kemudian beberapa versi GPT dan Claude lainnya.
Gemini Google relatif tertinggal. Skor 1,5 Pro adalah 60,4, yang hanya lulus dan tidak sebagus GPT-3.5. Namun, kinerjanya baik dalam satu item dengan informasi yang tidak memadai.
Skor rata-rata tertinggi dari model open source hanya 31,4. Di antara mereka, skor Mistral-7B yang terkenal adalah 29,8, tetapi mencapai skor terbaik 76,8 dalam satu item informasi yang tidak mencukupi.
Bahkan beberapa model sumber terbuka seperti Gorilla dan Command-R tidak dapat menangani respons alat sama sekali, atau hanya dapat menyelesaikan satu putaran pemanggilan alat saja.
Analisis lebih lanjut menunjukkan hal ituModel open source buruk dalam mengidentifikasi kapan saatnya menggunakan alat, lebih memilih untuk memperlakukan masalah ini sebagai tugas pembuatan teks murni.
Dari dimensi tugas, model besar berkinerja baik dalam satu/beberapa panggilan alat dan permintaan pengguna satu putaran, namunKeuntungannya melemah dalam percakapan multi-turn dan tugas-tugas yang bergantung pada negara。
Di GPT, Claude, Gemini dan keluarga lainnya,Model yang lebih besar memiliki keunggulan yang lebih nyata dalam pemanggilan multi-alat dan tugas dialog multi-putaran.;TetapiPada tugas-tugas yang bergantung pada negara, model kecil dan menengah(如GPT-3.5、Claude-3-Sonnet)Sebaliknya, ini lebih baik daripada model besar(GPT-4, Claude-3-Opus)berkinerja lebih baik。
Selain itu, normalisasi merupakan tantangan besar bagi semua model, terutama skenario yang memerlukan alat untuk normalisasi, dan normalisasi parameter terkait waktu juga sangat sulit.
Penelitian tentang ketahanan menunjukkan bahwa sensitivitas model terhadap perubahan deskripsi alat, informasi parameter, dll. sangat bervariasi, dan tidak ditemukan aturan yang jelas.
Dalam hal efisiensi, model yang lebih kuat biasanya lebih efisien, namun ada pengecualian. Misalnya, efisiensi model seri Claude umumnya lebih baik daripada GPT.
Singkatnya, model besar masih menghadapi banyak tantangan saat menggunakan alat untuk menangani skenario interaksi kompleks di dunia nyata.
Anggota tim ToolSandbox berasal dari pembelajaran mesin Apple, ilmu data, model besar dasar, dan tim lainnya.
Penulis pertama adalah seorang insinyur pembelajaran mesin TiongkokLu Jiarui, lulus dari Universitas Tsinghua dengan gelar sarjana. Selama masa studinya, ia juga menjabat sebagai asisten peneliti di laboratorium Profesor Zhu Jun.
Selanjutnya, Lu memperoleh gelar master dalam pembelajaran mesin dari Universitas Carnegie Mellon dan bergabung dengan Apple pada tahun 2020 setelah lulus.
Termasuk Lu, ditandatangani10 dari 12 penulis adalah orang Cina, dan semuanya memiliki latar belakang sekolah bergengsi.
Ini juga termasuk kepala tim model dasar yang besarPang Ruoming(Ruoming Pang)。
Selain itu, seorang direktur teknik yang telah bekerja di Apple selama 8 tahunBernhard Aumayerjuga berpartisipasi dalam proyek ini.
Alamat kertas:
https://arxiv.org/abs/2408.04682