berita

Jika data AI tidak cukup, bisakah kita menggunakan kertas untuk "mengkompensasinya"?

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

14 Agustus
Situs resmi Nature menerbitkan artikel yang menyatakan hal itu
Beberapa penerbit akademis berinvestasi di perusahaan teknologi
Menjual hak untuk menggunakan makalah penelitian
Digunakan untuk melatih model AI
Dalam banyak kasus, transaksi ini
Penulis tidak diajak berkonsultasi
Hal ini menyebabkan ketidakpuasan yang kuat di antara beberapa peneliti.
Makalah yang "dikhianati"
Skala alam
Penerbit akademis Inggris
Taylor Fransiskus
Sudah menandatangani kesepakatan dengan Microsoft
Perjanjian senilai $10 juta
Izinkan Microsoft mengakses datanya
untuk meningkatkan sistem AI
Pada bulan Juni, ada kabar bahwa
Penerbit Amerika Wiley
Izinkan perusahaan menggunakan kontennya untuk melatih model
sehingga menghasilkan $23 juta
Skala alam
Makalah ini mencakup
Ilmu alam, ilmu sosial dan bidang lainnya
Ini telah menjadi korpus penting untuk pelatihan model AI.
Robot lukis mendemonstrasikan lukisan pada "KTT Global Kecerdasan Buatan untuk Kemanusiaan" 2024 di Jenewa, Swiss.
Sumber: Kantor Berita Xinhua
Artikel alam berpikir
Penulis makalah akademis saat ini
Saat menghadapi penerbit yang menjual karya berhak ciptanya
hampir tidak ada hak untuk ikut campur
Untuk artikel yang diterbitkan
Tidak ada mekanisme untuk mengkonfirmasi konten ini
Apakah itu digunakan sebagai data pelatihan AI
Dalam penggunaan model bahasa besar
Bagaimana membangun mekanisme yang lebih adil
Melindungi hak pencipta
Layak untuk didiskusikan secara luas di kalangan akademisi dan hak cipta
Data AI tidak cukup
Makalah untuk "diperbaiki"
Tiga elemen utama untuk pengembangan model besar kecerdasan buatan
Itu adalah data, algoritma, dan kekuatan komputasi
Dengan pesatnya perkembangan teknologi AI
Meningkatnya permintaan akan data pelatihan
Beberapa media mengatakan
akhir tahun 2021
Pelatihan OpenAI GPT-4
menemui masalah yang sulit
Pelatihannya telah habis di internet
Sumber teks bahasa Inggris yang andal
Kemudian
Untuk mengatasi masalah ini
OpenAI menggunakan video dan audio dari platform Youtube
Transkripsikan teks percakapan dalam jumlah besar
Pelatihan setelahnya
Pada tanggal 2 Juli, anggota staf berkomunikasi dengan orang-orang digital di area pengalaman mendalam ekonomi digital pada Konferensi Ekonomi Digital Global 2024.
Foto oleh reporter Kantor Berita Xinhua, Ren Chao
Sekarang
Raksasa teknologi mengalihkan fokus mereka ke
penerbit akademis
makalah akademis sebagai
Kristalisasi kebijaksanaan dalam bidang penelitian ilmiah
Menjadi "kue panas" yang buru-buru dibeli orang.
Ambil pemrosesan bahasa alami sebagai contoh
Melalui pelatihan di sejumlah besar makalah
Model AI bisa lebih memahami
pengetahuan domain akademis
meningkatkan akurasinya
Raksasa teknologi seperti Google dan Microsoft
Telah banyak berinvestasi dalam pembelian corpora
Untuk mendapatkan keunggulan kompetitif di bidang AI
Financial Times telah memuat kontennya sendiri
dengan harga yang terhormat
Dijual ke OpenAI
Situs berita sosial Reddit
Kesepakatan serupa juga dicapai dengan Google
Transaksi ini mencerminkan
Penerbit berupaya memberikan otorisasi secara hukum
Hindari konten Anda dirayapi oleh model AI secara gratis
Dilema data pelatihan
Cara memecahkan permainan
Bekerja dengan penerbit
Hanya perusahaan teknologi yang menyelesaikannya
Contoh dari masalah data pelatihan yang tidak mencukupi
Baru-baru ini
Majalah The Economist menerbitkan sebuah artikel
"Perusahaan AI akan segera menggunakan sebagian besar data Internet"
Memprediksi apa yang tersedia di Internet
Data teks manusia akan habis dalam empat tahun
Pada tanggal 23 April, di Pameran Industri Hannover di Jerman, pengunjung memainkan permainan "batu, kertas, gunting" dengan robot cerdas.
Foto oleh reporter Kantor Berita Xinhua, Ren Pengfei
Menghadapi masalah seperti itu
Pendiri dan CEO OpenAI Sam Altman
Solusi telah diusulkan:
Perusahaan seperti OpenAI
Pada akhirnya akan ada peralihan ke penggunaan data yang dihasilkan AI
(juga dikenal sebagai data sintetis) untuk melatih AI
Pengembang menciptakan teknologi yang semakin canggih
Hal ini juga akan mengurangi ketergantungan pada data berhak cipta
tentu
Apakah jalur teknis ini layak dilakukan?
Masih ada kontroversi
Sebuah artikel sampul di majalah Nature berpendapat demikian
Jika model besar diperbolehkan
Latih diri Anda dengan data yang dihasilkan secara otomatis
AI mungkin menurunkan dirinya sendiri
Hanya dalam beberapa generasi, konten aslinya
Diulang menjadi omong kosong yang tidak dapat ditebus
Selain metode data sintetik
Berbagi data publik secara lebih terbuka
juga dianggap sebagai jalur yang efektif
Laporan Sekuritas Industri menunjukkan hal itu
Memperkuat pengembangan data publik yang terbuka
adalah solusi terkini untuk penyebaran data
Langkah-langkah penting untuk meningkatkan kualitas data pelatihan
Ditulis oleh:Li Fei, Ma Jingyuan penyusunan huruf:Li Wenjian Koordinator:Li Zhengwei
Referensi丨Nature, The Paper, Kantor Berita Keuangan China, 21st Century Business Herald
Diproduksi oleh Guangming.com
Sumber: Konferensi Internet Dunia
Laporan/Umpan Balik