“Semua data teks berkualitas tinggi di Internet akan digunakan pada tahun 2028”

2024-08-01

Firma riset Epoch AI memperkirakan bahwa semua data teks berkualitas tinggi di Internet akan digunakan pada tahun 2028, dan kumpulan data pembelajaran mesin mungkin akan menghabiskan semua "data bahasa berkualitas tinggi" pada tahun 2026.

Para peneliti menunjukkan bahwa melatih model pembelajaran mesin generasi masa depan pada kumpulan data yang dihasilkan oleh kecerdasan buatan (AI) dapat menyebabkan "keruntuhan model". Topik apakah terdapat kekurangan data pelatihan untuk model AI besar sekali lagi menjadi topik hangat di media baru-baru ini.

Baru-baru ini, majalah The Economist menerbitkan sebuah artikel berjudul "Perusahaan AI akan segera menghabiskan sebagian besar data internet", yang menyatakan bahwa seiring dengan berkurangnya data berkualitas tinggi di Internet, perusahaan AI akan segera menghabiskan sebagian besar data internet "dinding data". Bagi perusahaan model AI yang besar, tantangannya sekarang adalah menemukan sumber data baru atau alternatif yang berkelanjutan.

Artikel tersebut mengutip prediksi firma riset Epoch AI bahwa semua data teks berkualitas tinggi di Internet akan digunakan pada tahun 2028, dan kumpulan data pembelajaran mesin mungkin akan menghabiskan semua "data bahasa berkualitas tinggi" pada tahun 2026. Fenomena ini dikenal di industri sebagai “dinding data”. Cara menangani "dinding data" adalah salah satu masalah utama yang dihadapi perusahaan AI saat ini, dan mungkin juga merupakan masalah yang paling mungkin memperlambat kemajuan pelatihan mereka. Artikel tersebut menunjukkan bahwa ketika data pra-pelatihan di Internet berkurang, pasca-pelatihan menjadi lebih penting. Perusahaan pelabelan seperti Scale AI dan Surge AI menghasilkan ratusan juta dolar setiap tahun dari pengumpulan data pasca pelatihan.

Majalah The Economist mengutip diagram Epoch AI

Faktanya, sudah lama ada suara-suara di industri mengenai “kehabisan data”. Makalah ini memperhatikan bahwa pada awal Juli 2023, Stuart Russell, profesor ilmu komputer di Universitas California, Berkeley dan penulis "Artificial Intelligence - Modern Approaches", memperingatkan bahwa robot yang digerakkan oleh kecerdasan buatan seperti ChatGPT akan segera "Melelahkan" teks di alam semesta," teknologi untuk melatih robot dengan mengumpulkan teks dalam jumlah besar "mulai mengalami kesulitan."

Namun ada juga pendapat berbeda di industri ini. Dalam sebuah wawancara dengan reporter teknologi Bloomberg Emily Chang pada Mei 2024, Li Feifei, seorang ilmuwan komputer terkenal, salah satu direktur Laboratorium Kecerdasan Buatan Universitas Stanford, dan seorang profesor di Universitas Stanford, menjelaskan bahwa dia tidak setuju dengan "kami “Model AI kehabisan data untuk pelatihan” adalah pandangan yang lebih pesimis. Li Feifei berpendapat bahwa pandangan ini terlalu sempit. Dari perspektif model bahasa saja, masih ada sejumlah besar data terdiferensiasi yang menunggu untuk ditambang guna membangun model yang lebih disesuaikan.

Saat ini, salah satu solusi terhadap masalah terbatasnya data pelatihan adalah dengan menggunakan data sintetis, yang dibuat oleh mesin sehingga tidak terbatas. Namun data sintetis juga membawa risiko data sintetis. Sebuah makalah ilmu komputer yang diterbitkan di jurnal akademis internasional Nature pada tanggal 24 Juli menunjukkan bahwa melatih model pembelajaran mesin generasi mendatang dengan kumpulan data yang dihasilkan oleh kecerdasan buatan (AI) dapat mencemari data mereka. Kesimpulannya, konsep ini disebut "model keruntuhan". Karena model dilatih berdasarkan data yang terkontaminasi, model tersebut akhirnya salah menafsirkan kenyataan.

Tim peneliti menunjukkan dalam penelitian bahwa dalam tugas pembelajaran model bahasa besar, ekor dari distribusi yang mendasarinya adalah penting. Penggunaan model bahasa besar dalam skala besar untuk mempublikasikan konten di Internet akan mencemari upaya pengumpulan data untuk melatih penerusnya. Di masa depan, data nyata manusia tentang interaksi model bahasa besar akan semakin berharga. Namun tim peneliti juga menyebutkan bahwa data yang dihasilkan AI tidak sepenuhnya tidak diinginkan, namun data tersebut harus disaring secara ketat. Misalnya, dalam data pelatihan setiap model generasi, simpan 10% atau 20% data asli, Anda juga dapat menggunakan beragam data, seperti data yang dihasilkan oleh manusia, atau mempelajari algoritme pelatihan yang lebih kuat.

berita

“Semua data teks berkualitas tinggi di Internet akan digunakan pada tahun 2028”

Perkenalan

informasi kontak saya