berita

Google DeepMind terungkap telah menjiplak hasil sumber terbuka, dan makalahnya diterima di konferensi terkemuka

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Angin barat ikan dan domba berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Kalangan model besar kembali mengungkap plagiarisme dari Dagua, kali ini,“Terdakwa” tetaplah Google DeepMind yang terkenal



“Penggugat” langsung berteriak dengan marah:Mereka baru saja mencuci laporan teknis kami

Secara khusus:

Makalah Google DeepMind yang diterima dalam konferensi generasi baru teratas CoLM 2024 ditolak. Pemiliknya menunjukkan bahwa makalah itu menjiplak studi yang diposting di arXiv setahun yang lalu. Jenis sumber terbuka.



Kedua makalah mengeksplorasi metode untuk memformalkan struktur pembuatan teks model.

Hasil tangkapannya adalah makalah Google DeepMind dengan jelas mengutip makalah "penggugat".



Namun, meskipun kutipan disebutkan, kedua penulis makalah "penggugat", Brandon T. Willard (Brandon) dan R'emi Louf (Remy), masih bersikeras bahwa Google melakukan plagiat, dan percaya bahwa:

Deskripsi Google tentang perbedaan antara keduanya "sangat konyol".



Banyak netizen yang perlahan memunculkan tanda tanya setelah membaca makalah tersebut: Bagaimana CoLM mengulas naskahnya?



Bedanya hanya konsepnya saja yang diubah?



Segera lihat perbandingan kertasnya...

Perbandingan dua makalah

Mari kita lihat sekilas perbandingan abstrak kedua makalah tersebut.

Apa yang dikatakan dalam makalah Google DeepMind adalah bahwa tokenisasi membawa masalah pada keluaran model bahasa yang terbatas. Mereka memperkenalkan teori automata untuk memecahkan masalah ini. Intinya adalah untuk menghindari melintasi semua nilai logis (logit) pada setiap langkah decoding.

Metode ini hanya perlu mengakses nilai logika yang didekodekan dari setiap token, dan penghitungannya tidak bergantung pada ukuran model bahasa. Metode ini efisien dan mudah digunakan di hampir semua arsitektur model bahasa.

Pernyataan “penggugat” kira-kira:

Kerangka kerja yang efisien diusulkan untuk meningkatkan efisiensi pembuatan teks terbatas dengan membangun indeks kosakata model bahasa.Sederhananya, memang demikianHindari melintasi semua nilai logika melalui pengindeksan

Juga "tidak bergantung pada model tertentu".



Memang ada perbedaan besar dalam arahnya, jadi mari kita lihat lebih detailnya.

Kami menggunakan Google Gemini 1.5 Pro untuk merangkum isi utama kedua makalah tersebut, lalu meminta Gemini untuk membandingkan persamaan dan perbedaan keduanya.

Mengenai makalah Google "terdakwa", Gemini merangkum metodenya sebagaiMendefinisikan ulang detokenisasi sebagai operasi Finite State Transformer (FST).



Gabungkan FST ini dengan robot yang mewakili bahasa formal target, yang dapat diwakili oleh ekspresi reguler atau tata bahasa.

Melalui kombinasi di atas, otomat berbasis token dihasilkan, yang digunakan untuk membatasi model bahasa selama proses decoding untuk memastikan bahwa teks keluarannya sesuai dengan spesifikasi bahasa formal yang telah ditetapkan.

Selain itu, makalah Google juga membuat serangkaian ekstensi ekspresi reguler, yang ditulis menggunakan grup tangkapan bernama khusus untuk meningkatkan efisiensi dan ekspresi sistem secara signifikan saat memproses teks.

Adapun makalah "penggugat", Gemini merangkum inti pendekatannya sebagaiMembingkai ulang masalah pembuatan teks sebagai transformasi antara finite state machine (FSM)

Metode khusus "penggugat" adalah:

  • Bangun FSM menggunakan ekspresi reguler atau tata bahasa bebas konteks dan gunakan untuk memandu proses pembuatan teks.
  • Identifikasi kata-kata valid secara efisien di setiap langkah dan hindari melintasi seluruh kosakata dengan membangun indeks kosakata.



Gemini mencantumkan kesamaan antara kedua makalah tersebut.



Adapun perbedaan keduanya kurang lebih seperti yang dikatakan netizen sebelumnya. Rangkuman sederhananya adalah Google mengartikan kosakata sebagai FST.



Seperti disebutkan sebelumnya, Google mencantumkan makalah penggugat sebagai karya “paling relevan” di “Pekerjaan terkait”:

Penelitian yang paling relevan adalah Outlines (Willard & Louf, 2023), yang juga menggunakan finite state automata (FSA) dan pushdown automata (PDA) sebagai batasan - metode kami dikembangkan secara independen pada awal tahun 2023.

Google percaya bahwa perbedaan antara keduanya adalah bahwa metode Outlines didasarkan pada operasi "pengindeksan" yang dibuat khusus yang memerlukan perluasan manual ke skenario aplikasi baru. Sebaliknya, Google sepenuhnya mendefinisikan ulang seluruh proses menggunakan teori automata, sehingga lebih mudah menerapkan FSA dan menggeneralisasikannya ke PDA.

Perbedaan lainnya adalah Google telah menetapkan ekstensi untuk mendukung pencocokan karakter pengganti dan meningkatkan kegunaan.



Google juga menyebut Outlines ketika memperkenalkan dua karya terkait berikut ini.

Salah satunya adalah Yin et al. (2024) memperluas Garis Besar dengan menambahkan kemampuan untuk "mengompresi" segmen teks ke pra-populasi.

Sistem lainnya adalah sistem yang baru-baru ini diusulkan oleh Ugare et al (2024) yang disebut SynCode. Ia juga menggunakan FSA, tetapi menggunakan parser LALR dan LR, bukan PDA untuk memproses tata bahasanya.

Mirip dengan Outlines, metode ini mengandalkan algoritma khusus.

Namun orang yang makan melon jelas tidak terlalu membelinya:

Peninjau CoLM harus memperhatikan hal ini. Menurut saya, hal ini bukan merupakan “upaya-upaya yang dilakukan pada saat yang sama” yang terpisah.



Netizen: Ini tidak biasa...

Begitu kejadian ini terungkap, banyak netizen yang marah. Plagiarisme itu memalukan, belum lagi "ini bukan pertama kalinya raksasa teknologi menjiplak karya tim kecil".

Omong-omong, baik Brandon maupun Remy bekerja dari jarak jauh untuk Normal Computing, sebuah perusahaan AI Infra yang didirikan pada tahun 2022, ketika mereka menerbitkan makalah penggugat.

Oh iya, sebagian dari tim pendiri Normal Computing berasal dari Google Brain...



Selain itu, Brandon dan Remy kini telah memulai bisnis bersama. Perusahaan baru bernama .txt. Menurut informasi situs resminya, tujuannya adalah untuk menyediakan model ekstraksi informasi yang cepat dan andal. Dan beranda GitHub yang terdaftar di situs resminya adalah gudang Outlines.

Kembali ke netizen, yang membuat semua orang semakin marah adalah "situasi ini sudah menjadi hal biasa".

Seorang postdoc dari Delft University of Technology di Belanda berbagi pengalamannya:

Kami menyelesaikan sebuah karya pada bulan Oktober lalu, dan baru-baru ini ada makalah yang diterima yang menggunakan ide dan konsep yang sama, namun bahkan tidak mengutip makalah kami.



Ada juga seorang lelaki tua dari Northeastern University di Amerika yang lebih parah lagi, ia sudah dua kali mengalami situasi ini, dan pelakunya selalu dari kelompok yang sama. Dan penulis pertama di seberangnya juga menambahkan bintang ke GitHub-nya...



Namun beberapa netizen mengungkapkan pendapat berbeda:

Jika memposting postingan blog atau makalah pracetak yang tidak dievaluasi dianggap curang, maka semua orang juga curang, bukan?



Sebagai tanggapan, Remy dengan marah berkata:

Hai teman-teman, menerbitkan makalah pracetak dan kode sumber terbuka = ​​memanfaatkan situasi;
Menulis makalah matematika yang bahkan tidak memerlukan kodesemu = kerja bagus? ? ?



Saudara Brandon juga berkata pada Yue:

Kode sumber terbuka dan menulis makalah terkait adalah "memanfaatkan orang lain", tetapi menyalin karya orang lain dan mengatakan "Saya punya ide ini sebelumnya" dan mengirimkannya ke konferensi bukanlah hal yang benar? Menjijikkan sekali.



Ayo makan melonnya dulu. Bagaimana pendapatmu tentang ini? Anda mungkin ingin melanjutkan diskusi di area komentar~

Klik di sini untuk kedua makalah tersebut:
Makalah Google DeepMind: https://arxiv.org/abs/2407.08103v1
Makalah penggugat: https://arxiv.org/abs/2307.09702

Tautan referensi:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46