apa yang harus dilakukan jika manusia kehabisan data? profesor universitas fudan xiao yanghua mengusulkan dua solusi

apa yang harus dilakukan jika manusia kehabisan data? xiao yanghua, seorang profesor di universitas fudan, mengusulkan dua solusi:

2024-09-07

biro modal bintang merah melaporkan pada tanggal 7 september bahwa di era data besar, nilai data belum sepenuhnya dieksplorasi. begitu era ai tiba, data dihadapkan pada tantangan konsumsi yang terlalu cepat, yang menjadikannya sintetis teknologi data merupakan bidang yang panas. menurut laporan yang dirilis oleh organisasi penelitian epoch ai pada bulan juni, mulai tahun 2026, jumlah data baru yang dihasilkan oleh manusia akan lebih sedikit dibandingkan jumlah data baru yang dipelajari oleh model. diperkirakan model bahasa besar akan kehabisan model bahasa manusia data pada tahun 2028.

data menentukan batas atas kecerdasan sampai batas tertentu, sehingga semakin banyak terobosan dalam teknologi model besar, semakin banyak teknologi data yang harus “diselaraskan” dengannya.

selama konferensi bund 2024, xiao yanghua, seorang profesor di universitas fudan dan direktur shanghai key laboratory of data science, mengatakan dalam sebuah wawancara dengan red star capital bureau dan media lain bahwa mungkin ada dua cara untuk memecahkan masalah kehabisan data. di masa depan. yang pertama adalah data sintetis, dan yang lainnya masuk ke domain pribadi.

xiao yanghua

"banyak orang telah membuat anotasi pada empat buku dan lima klasik. proses anotasi itu seperti proses sintesis data. kita dapat terus memikirkan, menghubungkan, dan mengintegrasikan data asli untuk menghasilkan lebih banyak data. ini adalah data sintetis." , data sintetis adalah ide yang sangat penting. tidak hanya untuk mengatasi masalah kehabisan data, hal ini juga memiliki arti yang sangat penting.

“sebagian besar data yang disintesis adalah data proses berpikir kita. melalui data sintetik, sejumlah besar data yang tersirat, tidak tercatat, tidak terekspresikan, dan terfokus pada pemikiran diungkapkan kemampuan model besar.

xiao yanghua menyebutkan bahwa model besar kita saat ini "hanya memiliki kecerdasan dan tidak memiliki rasionalitas". ia hanya mengingat lebih banyak fakta, namun bukan berarti ia lebih "pintar", dan kemampuan rasionalnya tidak meningkat. data sintetik merupakan ide yang sangat penting untuk meningkatkan kemampuan rasional.

“gunakan data sintetik yang mensimulasikan proses berpikir untuk melatih model besar sehingga dapat mengetahui cara memikirkan suatu masalah. oleh karena itu, data sintetik tidak hanya untuk meringankan 'kelaparan' data, tetapi juga untuk meningkatkan kemampuan rasional model besar. ."

ide lain yang sangat penting yang disebutkan oleh xiao yanghua adalah masuk ke domain pribadi. “lebih banyak data berkualitas tinggi dan bernilai tinggi ada di domain swasta, di industri vertikal, di ribuan industri, dan lebih jauh lagi adalah data pribadi. jadi domain pribadi dan individu masih memiliki banyak data berharga, sangat asli dan data sebenarnya. namun kami belum mengaktifkan data ini dan belum memasukkannya ke dalam model besar. model besar belum mempelajari pengetahuan ini. cara menggunakan atribut domain pribadi untuk merangsang potensi model besar juga merupakan hal yang sangat penting hal di masa depan.”

xiao yanghua mengatakan bahwa semua data domain pribadi ada dalam sistem basis data. basis data ini berisi sejumlah besar data domain pribadi berkualitas tinggi dan data industri dalam berbagai bentuk. jika anda dapat menggunakan data domain pribadi untuk melatih model besar, model besar dapat diubah menjadi pakar industri.

“model besar saat ini hanya memiliki pengetahuan umum dan tidak memenuhi syarat untuk tugas profesional. untuk mencapai hal tersebut, memanfaatkan data domain pribadi dengan baik mungkin menjadi kuncinya, sehingga potensi data yang dapat dimanfaatkan masih sangat besar.”

xiao yanghua juga menantikan "data pribadi". dia menunjukkan bahwa penggunaan data pribadi untuk melatih model besar baru saja dimulai. ia percaya bahwa langkah selanjutnya yang harus dilakukan adalah menggabungkan data pribadi dengan model besar. di masa depan, masih ada potensi besar dalam cara menggabungkan data pribadi dengan model besar dan mengubahnya menjadi "model besar yang dipersonalisasi" untuk melayani individu masih merupakan potensi yang besar. jalan yang harus ditempuh masih panjang.

reporter berita bintang merah, wang tian

editor deng lingyao

(unduh red star news dan kirimkan laporan anda untuk memenangkan hadiah!)

laporan/umpan balik

berita

apa yang harus dilakukan jika manusia kehabisan data? xiao yanghua, seorang profesor di universitas fudan, mengusulkan dua solusi:

perkenalan

informasi kontak saya