berita

Percakapan dengan tim Qi Peng di Institut Penelitian AI Chongqing, Universitas Shanghai Jiao Tong: Tingkat model besar saat ini hanya setara dengan tingkat anak berusia lima tahun |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Sumber gambar: unsplash)

Baru-baru ini, sebuah berita tentang “Model besar tidak dapat menentukan apakah 9.11 atau 9.9 lebih besar” memicu diskusi.

Saat pengguna menanyakan 12 model AI besar di dalam dan luar negeri, termasuk GPT-4o, sebuah pertanyaan matematika yang sulit bagi siswa sekolah dasar, “Mana yang lebih besar, 9.11 atau 9.9?”, hasil akhirnya ternyata hanya Alibaba Tongyi Qianwen dan Baidu Wenxin. , Minimax dan Tencent Yuanbao memberikan 4 jawaban yang benar, sedangkan 8 model besar termasuk ChatGPT-4o memberikan jawaban yang salah.

Artinya kemampuan matematis model besar buruk dan banyak masalah yang perlu dipecahkan.

Dalam percakapan eksklusif sebelumnya dengan TMTpost AGI, Dr. Qi Peng, direktur AI Large Model Center di Shanghai Jiao Tong University, Institut Kecerdasan Buatan Chongqing (Institut Kecerdasan Buatan Shanghai-Chongqing), mengatakan bahwa meskipun model besar memiliki kemampuan yang hebat berpotensi dan dapat menangani masalah yang kompleks serta memiliki kemampuan belajar kemampuan generalisasi. Namun, model bahasa besar mungkin lebih seperti "siswa seni liberal" karena keterbatasan arsitektur model dan kurangnya kemampuan ilmiah. Selain itu, daya komputasi yang terbatas saat ini tidak mencukupi, data teks tidak mencukupi, akurasi dan keandalannya bias, dan skala modelnya tidak cukup besar. Tingkat kecerdasannya masih pada tingkat anak-anak, lebih seperti “anak berusia lima tahun ", dan sulit untuk menangani tugas-tugas yang rumit. , "ilusi" itu ada sejak lama.

Qi Peng lulus dari Universitas Tsinghua dengan gelar sarjana dan menyelesaikan gelar doktor di Universitas Wisconsin di Amerika Serikat. Saat ini dia bekerja di Institut Penelitian Kecerdasan Buatan Chongqing di Universitas Shanghai Jiao Tong. Qi Peng telah terlibat secara mendalam dalam ilmu data, AI, dan bidang lainnya selama bertahun-tahun, berpartisipasi dalam banyak proyek sains dan teknologi nasional, dan memiliki sejumlah hak kekayaan intelektual.

Karena ChatGPT menjadi populer di seluruh dunia, selama sekitar setahun terakhir, Qi Peng telah memimpin tim pusat model besar AI dari Universitas Shanghai Jiao Tong dan Institut Penelitian Kecerdasan Buatan Chongqing untuk secara mandiri mengembangkan model bahasa besar "Zhaoyan", dan pada bulan Maret tahun ini, evaluasi agen model besar SuperCLUE Tiongkok menduduki peringkat ketiga secara global dan kedua dalam negeri dalam tolok ukur.

Pada saat yang sama, pada bulan Juli tahun ini, Qi Peng memimpin Zhuang Shaobin, seorang mahasiswa doktoral di Universitas Shanghai Jiao Tong, dan lainnya untuk berpartisipasi dalam proyek komunitas sumber terbuka dan berhasil mereproduksi model video Wensheng mirip Sora Menggunakan Latte tingkat lanjut arsitektur perhatian pemisahan spatiotemporal, setelah pelatihan yang cermat, video berdurasi 16 detik (128 bingkai) dihasilkan pada kumpulan data video InternVid. Dibandingkan dengan model sumber terbuka sebelumnya, yang hanya dapat menghasilkan 3 detik (24 -frame) video, kinerjanya meningkat 5 kali lipat (500%).

Pada 12 Juli, Qi Peng dan Zhuang Shaobin melakukan percakapan eksklusif dengan TMTpost selama sekitar dua jam, dengan fokus pada status pengembangan Sora saat ini dan tantangan yang dihadapi oleh pengembangan model besar, implementasi industri, dan arah pengembangan di masa depan.

Berbicara tentang dampak teknologi Sora, Qi Peng mengatakan kepada TMTpost AGI bahwa Sora lebih seperti “palu” baru yang dapat menyelesaikan berbagai masalah. Selain pembuatan video, model video Sora Vincent juga dapat berperan di banyak bidang seperti mengemudi otonom dan simulasi dunia fisik. Aplikasi yang paling intuitif adalah pembuatan video. Pengguna hanya perlu memasukkan deskripsi teks untuk dengan cepat menghasilkan konten video yang memenuhi persyaratan, meningkatkan efisiensi dan kenyamanan produksi video.

Dalam penerapannya di industri, Qi Peng menunjukkan bahwa model besar banyak digunakan di berbagai industri vertikal, namun kasus implementasi aktualnya relatif sedikit. Ada dua alasan utama: pertama, kurangnya kemampuan matematika dan kemampuan teknik model besar; kedua, sebagai bagian dari kategori pembelajaran mesin, sifat model besar berdasarkan metode statistik menentukan bahwa model tersebut tidak dapat mencapai akurasi 100%.

Menantikan perkembangan AGI di masa depan, Qi Peng menekankan bahwa masyarakat manusia berada dalam periode kritis menuju AGI. Meskipun kemampuan model saat ini tidak memenuhi standar AGI, suatu hari nanti, ketika orang melihat kembali periode sejarah ini, mereka mungkin menyadari bahwa ChatGPT telah menempatkan kita pada titik sejarah yang penting.

“Tujuan penting dari lembaga ini adalah mewujudkan komersialisasi teknologi. Large Model Center saat ini fokus pada penerapan AIGC, khususnya isu ‘last mile’, bagaimana mentransformasikan hasil penelitian menjadi produk atau layanan aktual untuk memuaskan pasar. Permintaan. Meskipun kecerdasan model besar dapat terus meningkat, dari usia lima hingga sepuluh tahun hingga delapan belas tahun, dan bahkan mencapai tingkat ahli terbaik, sistem seperti itu akan selalu membutuhkan fasilitas dan alat pendukung untuk mendukung pengoperasian dan penerapannya Biaya pengembangannya mungkin relatif rendah, namun hal ini memainkan peran penting dalam mempromosikan penerapan praktis dan nilai sosial dari model berukuran besar,” kata Qi Peng.


Qi Peng, Direktur Pusat Model Besar AI di Institut Kecerdasan Buatan Chongqing, Universitas Shanghai Jiao Tong

Berikut rangkuman percakapan TMTpost Media AGI dengan Qi Peng dan Zhuang Shaobin:TMTpost Media AGI: Dibandingkan dengan model video lainnya, apa perbedaan inti dari model video berulang Sora Vincent yang dikembangkan bersama oleh Institut Penelitian Kecerdasan Buatan Chongqing dari Universitas Shanghai Jiao Tong?

Qi Peng: Proyek ini dikembangkan oleh tim yang dipimpin oleh Dr. Zhuang Shaobin. Tim memilih untuk menggunakan semua data sumber terbuka untuk pelatihan model. Tim tidak hanya membuka data, tapi juga mempublikasikan proses pelatihannya. Dengan cara ini, peneliti atau pengembang lain dapat mereproduksi proses pelatihan model di lingkungan mereka sendiri berdasarkan langkah dan pengaturan parameter yang sama, serta memverifikasi efektivitas dan stabilitas model.

Perbedaan inti terutama tercermin dalam tiga aspek:

Pertama, tim menggunakan semua data sumber terbuka untuk pelatihan model, yang berarti seluruh proses pelatihan didasarkan pada kumpulan data yang dapat diakses publik. Pendekatan ini memastikan transparansi dan pengulangan proses pelatihan, dan siapa pun yang tertarik dapat menggunakan kumpulan data yang sama untuk mereproduksi atau menyempurnakan model.

Kedua, tim mengadopsi metode pelatihan tidak langsung, yang dapat melatih model secara efisien dengan biaya komputasi yang lebih rendah. Pendekatan ini cocok untuk kumpulan data berskala besar dan model yang kompleks, karena memerlukan waktu pelatihan yang lebih lama dan sumber daya komputasi yang lebih tinggi. Dengan menggunakan pelatihan tidak langsung, waktu pelatihan dapat dipersingkat dengan menambah jumlah node komputasi tanpa meningkatkan biaya daya komputasi dari satu node komputasi.

Ketiga, tim juga melakukan beberapa pekerjaan optimasi yang mendasarinya, terutama optimasi overhead memori video. Pengoptimalan ini memungkinkan model untuk melatih video panjang secara stabil di cluster atau server, sehingga meningkatkan efisiensi pelatihan dan skalabilitas model.

TMTpost AGI: Apa logika dan alasan di balik pemilihan model open source?

Qi Peng: Berbeda dengan proyek komersial, keuntungan menggunakan model sumber terbuka untuk proyek penelitian yang dikolaborasikan oleh tim dan komunitas sumber terbuka adalah bahwa proyek tersebut dapat menarik lebih banyak personel Litbang untuk berpartisipasi. Karena tidak ada batasan hak cipta dan komersialisasi, siapa pun yang tertarik dengan proyek ini dapat dengan mudah memperoleh dan menggunakan model tersebut, mengajukan saran perbaikannya sendiri, atau menyumbangkan kode baru. Model ini dapat membantu perbaikan dan optimalisasi model secara berkelanjutan, serta dapat memperkuat komunikasi dan kerja sama interdisipliner dan lintas bidang.

TMTpost AGI: Model video mirip Sora berulang ini menggunakan arsitektur perhatian kopling spatiotemporal Latte. Apa alasannya tidak terhubung dengan arsitektur DiT?

Qi Peng: Arsitektur model mirip Sora yang dikembangkan oleh tim tidak sepenuhnya meninggalkan Transformer atau model tradisional lainnya. Ini berkembang berdasarkan DiT dan menambahkan dimensi waktu untuk mendukung pemrosesan video. Pertimbangan arsitektur baru ini mungkin untuk lebih beradaptasi dengan karakteristik data video dan meningkatkan kinerja model pada tugas pembuatan atau pemrosesan video.

Titanium Media AGI: Arsitektur DiT memiliki keterbatasan dalam menghasilkan video panjang. Dapatkah arsitektur perhatian berpasangan spatiotemporal Latte memecahkan masalah ini?

Zhuang Shaobin: Model terbaik yang saat ini sedang dilatih oleh tim dapat menghasilkan video berdurasi hingga 16 detik. Ini merupakan peningkatan besar dibandingkan model sebelumnya berdasarkan arsitektur unet, yang biasanya hanya dapat menghasilkan video berdurasi dua hingga tiga detik. 16 detik bukanlah waktu yang lama, namun merupakan rekor yang relatif lama dalam bidang pembuatan video.

Masalah kontinuitas dan koherensi dalam pembuatan video, yang terutama dipengaruhi oleh kualitas data. Jika terdapat situasi yang tidak koheren seperti lompatan frame dalam data video, model yang dilatih juga kemungkinan besar akan menghasilkan video yang tidak koheren. Selain itu, kecepatan frame dan resolusi selama pelatihan model berdampak pada kualitas pembuatan video. Jika model hanya dilatih pada data dengan resolusi dan kecepatan frame yang lebih rendah, model tersebut mungkin tidak dapat menghasilkan video dengan resolusi tinggi dan halus.

Mengapa saya tidak dapat membuat video berdurasi satu atau dua menit secara end-to-end? Video end-to-end berdurasi satu atau dua menit berarti ribuan frame atau bahkan dua atau tiga ribu frame data, yang membutuhkan konsumsi sumber daya komputasi ratusan atau ribuan kali lipat. Meskipun arsitektur perhatian berpasangan spasialtemporal Latte secara teoritis dapat diperluas hingga durasi tersebut, saat ini tidak ada institusi yang memiliki daya komputasi dan data yang cukup untuk mendukung pelatihan tersebut.

TMTpost AGI: Saat ini siapa yang menggunakan Sora? Masalah apa yang terpecahkan? Nilai apa yang dibawanya?

Zhuang Shaobin: Di sisi C, bagi produser video non-profesional, seperti pengguna rumahan biasa, model pembuatan video seperti Sora dapat sangat mengurangi kesulitan produksi video. Pengguna hanya perlu memasukkan teks deskripsi untuk menghasilkan konten video yang indah, sehingga memudahkan dalam berpartisipasi dalam pembuatan video.

Di sisi B, untuk editor dan kreatif video profesional, Sora dapat menghasilkan materi video yang kompleks atau imajinatif. Para profesional dapat menyempurnakan dan mengoptimalkan berdasarkan materi yang disediakan oleh model, sehingga meningkatkan efisiensi kerja dan kualitas kreasi.

Sora tidak hanya digunakan dalam produksi video, tetapi juga memiliki serangkaian eksplorasi di berbagai bidang seperti mengemudi otonom, pembuatan dan pemodelan 3D, serta penelitian fisika. Sistem penggerak otonom perlu secara akurat memprediksi perubahan dinamis objek di sekitarnya, dan Sora, sebagai "simulator dunia", dapat mensimulasikan dan memprediksi lintasan pergerakan objek, memberikan pemodelan lingkungan yang lebih akurat untuk sistem penggerak otonom.

Misalnya, di bidang mengemudi otonom, solusi mengemudi otonom Tesla dan sistem bantuan mengemudi canggih serupa telah membuat kemajuan teknologi yang signifikan. Mereka dapat merasakan lingkungan sekitar secara real time, termasuk kendaraan, pejalan kaki, rintangan, dll., yang merupakan kuncinya untuk mewujudkan mengemudi otonom. Sora membantu sistem mengemudi otonom membuat keputusan terlebih dahulu untuk menghindari situasi yang berpotensi berbahaya, seperti tabrakan dan tabrakan dari belakang. Pada saat yang sama, dengan memprediksi pergerakan objek, sistem juga dapat mengoptimalkan rute dan kecepatan berkendara, meningkatkan efisiensi lalu lintas, serta mengurangi kemacetan dan emisi.

Secara umum, Sora menurunkan ambang batas produksi video dan memungkinkan lebih banyak orang untuk berpartisipasi dalam pembuatan video. Baik pengguna non-profesional di sisi C maupun produser video profesional di sisi B dapat memperoleh manfaat darinya.

Qi Peng: Sora lebih seperti "palu", alat baru yang dapat memecahkan berbagai masalah. Selain pembuatan video, model video Sora Vincent juga dapat berperan di banyak bidang seperti mengemudi otonom dan simulasi dunia fisik. Aplikasi yang paling intuitif adalah pembuatan video. Pengguna hanya perlu memasukkan deskripsi teks untuk dengan cepat menghasilkan konten video yang memenuhi persyaratan, meningkatkan efisiensi dan kenyamanan produksi video.

Seringkali, teknologi tidak dikembangkan untuk memecahkan masalah tertentu, namun solusi ampuh ditemukan secara tidak sengaja selama proses penelitian. Setelah metode ini matang, metode ini dapat digunakan secara luas di banyak bidang untuk memecahkan serangkaian masalah.

Saat ini Sora masih dalam versi beta dan belum tersedia secara luas untuk umum. Di Tiongkok, mungkin ada beberapa kasus penerapan versi beta internal atau eksternal, namun jumlahnya relatif kecil dan sebagian besar terbatas pada pembuatan video pendek atau klip film. Karena ini adalah versi beta, dalam banyak kasus mungkin tersedia gratis. Jika penagihan dimulai di masa mendatang, biayanya akan sangat kecil dari biaya produksi video saat ini, misalnya beberapa ratus yuan, sehingga sangat mengurangi biaya produksi video.

TMTpost AGI: Tantangan apa yang dihadapi tim selama pengembangan model Sora? Bagaimana cara mengatasi tantangan-tantangan ini?

Qi Peng : Proyek ini terutama bekerja sama dengan komunitas sumber terbuka. Pekerjaan penelitian dan pengembangan utama dilakukan oleh Dr. Zhuang Shaobin dan satu atau dua personel penelitian dan pengembangan. Proyek secara keseluruhan dibagi menjadi empat kelompok, yang bertanggung jawab atas pengumpulan dan pelabelan data, pelatihan model, evaluasi model, percepatan pelatihan, dan optimalisasi mesin.

Zhuang Shaobin: Selama proses pelatihan model, tantangan terbesar yang dihadapi tim adalah sumber daya komputasi yang tidak mencukupi. Apalagi saat memproses data berskala besar dan model yang kompleks, kebutuhan sumber daya komputasi sangat tinggi. Untuk memanfaatkan sumber daya mesin yang terbatas secara lebih efisien, tim algoritme dari tim proyek melakukan banyak pekerjaan pengoptimalan.

Pengoptimalan ini mencakup strategi pengoptimalan tingkat lanjut seperti paralelisme model dan paralelisme saluran, serta pengoptimalan memori video untuk masing-masing model.

Selain itu, tim juga mengoptimalkan bidang video, sehingga proyek dapat memiliki skenario penerapan dan area sasaran yang jelas agar lebih memenuhi kebutuhan penerapan proyek yang sebenarnya.

TMTpost Media AGI: Institut Penelitian Kecerdasan Buatan Chongqing Universitas Shanghai Jiao Tong dan Institut Penelitian Revitalisasi Pedesaan (Chongqing) sebelumnya merilis model besar revitalisasi pertanian pedesaan yang disebut “Zhaoyan·Zhaofeng”.

Qi Peng: Sebagai satu-satunya kota dengan pemandangan pedesaan, Chongqing menyediakan pemandangan yang kaya dan ruang yang luas untuk penerapan model pertanian skala besar. Model revitalisasi pedesaan skala besar memanfaatkan data online yang sangat besar dan data pertanian dari Akademi Ilmu Pertanian. Data ini memberikan dasar untuk konstruksi dan pelatihan model, dan dapat lebih akurat mencerminkan situasi produksi pertanian yang sebenarnya. Saat ini, proyek ini dikembangkan bersama dengan instansi pemerintah, Lembaga Penelitian Revitalisasi Pedesaan (Chongqing) dan pihak lain. Model kerja sama ini membantu mengintegrasikan sumber daya, teknologi, dan dana untuk bersama-sama mendorong penelitian dan pengembangan serta penerapan model pertanian skala besar.

Model besar revitalisasi pedesaan berencana untuk membuat 14 model, dan saat ini terdapat 3-4 produk terkait. Model besar tersebut mengubah pengetahuan para ahli menjadi informasi yang populer dan mudah dipahami, memecahkan masalah dalam produksi pertanian, pengelolaan dan penghidupan masyarakat, serta membantu. industri pertanian. Pekerja dapat mengakses dan menggunakan pengetahuan pertanian semudah penduduk perkotaan, yang akan membantu mempersempit kesenjangan informasi antara perkotaan dan pedesaan serta meningkatkan efisiensi dan efektivitas produksi pertanian.

TMTpost AGI: Pada tahap ini, apa saja hambatan dalam pengembangan teknologi model besar?

Qi Peng: Pertama-tama, jelas apa yang didefinisikan oleh tim sebagai model besar, yaitu model bahasa yang besar. Model bahasa besar adalah arus utama, dan intinya terletak pada pengetahuan dan logika. Seiring dengan berkembangnya model bahasa besar, tingkat kecerdasan mereka mungkin secara bertahap meningkat dari IQ anak berusia lima tahun ke tingkat anak berusia sepuluh tahun, delapan belas tahun, atau bahkan manusia super. Proses ini terutama bergantung pada penguasaan model dan penerapan pengetahuan dan logika.

Berbeda dengan model bahasa besar, model video Vincent merupakan rangkaian lain dari model besar. Model ini tidak melibatkan pengetahuan dan logika yang kompleks, tetapi lebih berfokus pada pemahaman dan simulasi hukum dunia fisik. Model seperti Vincent Video Modeling dapat memprediksi dan merespons perubahan di dunia fisik berdasarkan persepsi dan pengalaman, namun tidak memiliki pemahaman logis tingkat tinggi dan kemampuan ringkasan pengetahuan.

Selain itu, terdapat model multi-modal, yang dapat menyandikan dan memproses berbagai bentuk informasi seperti teks, gambar, suara, dll secara terpadu. Model multimodal merupakan salah satu arah pengembangan masa depan, yang dapat memahami dan memproses informasi kompleks di dunia nyata secara lebih komprehensif.

Saat ini, model-model besar sedang memasuki masa stabil, dan tampaknya sulit untuk mencapai lompatan kualitatif dalam hal kecerdasan. Kami masih yakin bahwa model yang lebih besar cenderung mampu menangani masalah yang lebih kompleks serta memiliki kemampuan pembelajaran dan generalisasi yang lebih kuat. Ketika suatu model dapat mencapai akurasi 99,9%, model besar ini akan menjadi alat produktivitas baru yang mampu melakukan berbagai tugas.

Pengembangan model besar memiliki masalah seperti daya komputasi yang tidak mencukupi, data teks yang tidak mencukupi, penyimpangan dalam akurasi dan keandalan, dan skala model yang tidak mencukupi. Dengan cara ini, "IQ" model besar tidak cukup tinggi, lebih seperti tingkat IQ anak berusia lima atau enam tahun. Kemampuan model besar untuk menangani tugas-tugas kompleks terbatas dan tidak dapat mencapai tingkat yang dimiliki manusia mengharapkan.

Kedua, karena keterbatasan arsitektur model bahasa besar, model besar ini agak mirip dengan "mahasiswa seni liberal". Ia menangani bahasa dengan sangat baik, tetapi tidak pandai matematika dan teknik. Model besar dapat dibandingkan dengan "CEO atau COO" suatu perusahaan. Meski "CEO atau COO" ini mungkin tidak tahu banyak tentang teknologi, ia mampu memobilisasi berbagai komponen berteknologi tinggi.

Pada saat yang sama, produsen besar dalam negeri dan perusahaan rintisan menghadapi kesulitan dalam mengembangkan model besar, terutama karena biaya investasi yang besar, dan komersialisasi tidak cukup untuk mendukung investasi berkelanjutan dalam daya komputasi dan data.

Jika tingkat kecerdasan model besar tidak dapat ditingkatkan secara signifikan dalam waktu singkat, maka pengembangan aplikasi menjadi pilihan yang layak. Pada tahap pengembangan model besar saat ini, pelanggan perlu mengeksplorasi dan meningkatkan praktik dalam berbagai skenario aplikasi. Melalui komersialisasi aplikasi, pendapatan dapat dihasilkan untuk mendukung pengembangan berkelanjutan dan optimalisasi model-model besar. Hal ini tidak hanya menjamin keberlanjutan ekonomi proyek, namun juga memberikan kemungkinan bagi inovasi teknologi di masa depan.

Selain itu, perusahaan model besar juga dapat mendukung pengembangan proyek melalui pembiayaan. Namun, pendanaan tidaklah mudah. ​​Hal ini bergantung pada apakah pasar menyadari potensi dan nilai proyek tersebut.

TMTpost AGI: Pasar sangat antusias dengan model besar, namun penerapan model besar berjalan lambat, sehingga tertinggal dari ekspektasi pasar. Mengapa penerapan model besar sangat lambat?

Qi Peng: Ada dua alasan:

Pertama, kurangnya kemampuan teknis saat ini menyebabkan terbatasnya perbaikan, sehingga mengurangi antusiasme terhadap peningkatan yang proaktif;

Kedua, penerapan teknologi baru memerlukan dukungan perangkat keras dan daya komputasi baru, namun berbagai perusahaan kurang siap dan kekurangan ruang komputer dan sumber daya komputasi cerdas untuk menerapkan dan menjalankan model besar, sehingga sulit untuk menerapkan model besar di industri vertikal. Masalah kedua sebenarnya dapat diselesaikan melalui kebijakan yang sesuai. Jika perusahaan dapat mempercayai jaminan keamanan data dari lembaga penelitian atau pusat daya komputasi yang didanai pemerintah, mereka dapat mulai mengembangkan solusi model berskala besar sebelum membangun ruang komputer komputasi pintar mereka sendiri.

Model besar, terutama yang mampu menghasilkan teks, gambar, dll. berkualitas tinggi, seringkali memerlukan sumber daya komputasi yang besar untuk dijalankan. Misalnya, ketika 1 juta pengguna menggunakan model besar pada saat yang sama, biaya daya komputasi tahunan mungkin melebihi ratusan juta, sehingga sulit untuk dikomersialkan. Bagi pengguna biasa, produk aplikasi model besar yang berbiaya tinggi mungkin tidak terjangkau, yang juga membatasi promosi aplikasi C-end.

Pada tahap ini, solusinya mungkin termasuk mengadopsi algoritma yang lebih efisien, mengoptimalkan struktur model untuk mengurangi jumlah perhitungan, atau memanfaatkan sumber daya komputasi terdistribusi seperti komputasi awan untuk menyebarkan biaya.

Dalam beberapa aspek, agen cerdas model besar saat ini masih seperti "anak berusia lima tahun". Ia memiliki masalah seperti "IQ" yang tidak mencukupi, kinerja yang tidak stabil, dan rentan terhadap halusinasi, yang sangat memengaruhi pengalaman dan kepercayaan pengguna. Masalah-masalah ini tidak dapat diterima dalam skenario aplikasi yang memerlukan akurasi tinggi, seperti skenario layanan pelanggan pemerintah atau keuangan. Bahkan di beberapa bidang konsultasi atau operasi dan pemeliharaan di mana persyaratan akurasi tidak terlalu tinggi, tingkat akurasi saat ini sebesar 80% atau 60% belum mencapai titik kritis untuk penerapan secara luas.

Meningkatkan kinerja dan stabilitas agen memerlukan optimalisasi algoritme yang berkelanjutan, meningkatkan keragaman dan kuantitas data pelatihan, dan memperkenalkan arsitektur model yang lebih kompleks. Pada saat yang sama, mekanisme pemantauan real-time dan penanganan kesalahan juga perlu diperkuat untuk memastikan stabilitas model besar di lingkungan yang kompleks.

Pengenalan gambar adalah bidang yang sangat penting dalam penerapan model multi-modal besar. Berdasarkan model yang telah dilatih sebelumnya, model pengenalan gambar baru dapat dikembangkan dengan biaya yang sangat rendah, mencakup banyak skenario jangka panjang, dan memiliki potensi pasar yang besar. Meskipun pengenalan gambar memiliki banyak skenario penerapan, model pengenalan gambar besar saat ini masih memiliki masalah akurasi yang rendah dan kebutuhan daya komputasi yang relatif tinggi.

Selain itu, karena kecerdasan buatan generasi sebelumnya sudah relatif matang dalam pemahaman gambar, masyarakat belum sepenuhnya menerima nilai tambahan yang dapat dihasilkan oleh model besar, yang juga mempengaruhi kecepatan promosinya.

TMTpost AGI: Bagaimana pandangan Anda terhadap inovasi industri model industri vertikal besar saat ini? Mengapa kasus industri vertikal yang diterapkan sangat sedikit?

Qi Peng: Dalam hal implementasi industri vertikal, dengan mengambil contoh robot humanoid di industri manufaktur, mungkin diperlukan waktu lima hingga sepuluh tahun agar robot humanoid dapat digunakan dalam keluarga. Hal ini terutama karena kemampuan generalisasinya dalam perangkat lunak masih terbatas. Itu tidak cukup, dan perangkat kerasnya juga memerlukan penelitian, pengembangan, dan peningkatan lebih lanjut.

Arah penelitian yang lebih praktis adalah dengan fokus pada masalah generalisasi lengan robot dalam skenario manufaktur. Meskipun lengan robotik itu sendiri sudah sangat matang dan ditempati oleh produsen besar dalam dan luar negeri di pasar, lengan robotik yang ada saat ini kurang memiliki kemampuan generalisasi yang memadai dan tidak dapat secara fleksibel beradaptasi dengan berbagai tugas kerja yang berbeda. Hal ini mengakibatkan perlunya pemrograman ulang setiap kali lengan robot diperlukan untuk melakukan tugas baru dalam aplikasi praktis, yang tidak praktis jika tugas sering berubah.

Kunci untuk memecahkan masalah generalisasi lengan robot terletak pada pengembangan perangkat lunak, terutama yang memungkinkan lengan robot menangani skenario yang lebih luas. Diharapkan dalam satu atau dua tahun, melalui optimalisasi dan pengembangan perangkat lunak, kemampuan generalisasi lengan robotik akan meningkat secara signifikan.

Tentu saja ada beberapa tantangan untuk mencapai tujuan kemampuan generalisasi lengan robot, yaitu kurangnya data. Untuk melatih lengan robot yang dapat menangani berbagai skenario, diperlukan sejumlah besar data berkualitas tinggi untuk mendukung pembelajaran dan pengoptimalan algoritma.

Faktanya, model besar dapat digunakan sebagai agen cerdas di industri manufaktur dan dapat memanggil perangkat lunak yang berbeda secara keseluruhan. Artinya, dalam sistem kompleks di industri manufaktur, berbagai perangkat lunak yang awalnya memerlukan pengoperasian manual atau koneksi pemrograman kini secara teori dapat diotomatisasi dan diintegrasikan melalui model besar.

Pengguna hanya perlu berinteraksi dengan model besar melalui bahasa atau ide, dan model besar dapat secara otomatis menjalankan program terkait dan menyelesaikan berbagai tugas. Namun, karena perusahaan manufaktur yang berbeda memiliki lingkungan produksi, sistem, dan API yang berbeda, kemampuan adaptasi model besar dalam skenario yang berbeda telah menjadi tantangan besar. Bahkan model besar yang disetel dengan baik dalam satu adegan mungkin tidak berfungsi dengan baik di lingkungan lain. Oleh karena itu, pengembang perusahaan perlu menyempurnakan skenario tertentu untuk meningkatkan performa dan akurasi model besar.

Keterbatasan ini secara langsung mempengaruhi penerapan luas dan pengembangan mendalam model-model besar di bidang manufaktur. Karena manufaktur sering kali melibatkan operasi yang sangat kompleks dan halus, sehingga memerlukan perhitungan dan pengendalian yang presisi tinggi. Jika sebuah model besar tidak mampu melakukan tugas-tugas ini, maka ia tidak akan mencapai potensinya di bidang manufaktur.

Selain keterbatasan kapasitas model besar itu sendiri, masalah kompatibilitas antar sistem juga merupakan faktor penting yang membatasi penerapan model besar di bidang manufaktur. Perusahaan atau unit produksi yang berbeda mungkin menggunakan sistem yang sangat berbeda, termasuk perangkat lunak, perangkat keras, dan API yang berbeda. Hal ini menyulitkan penerapan langsung model besar yang disesuaikan dalam satu skenario ke skenario lain karena lingkungan sistem dari kedua skenario mungkin sangat berbeda. Variabilitas antar sistem ini meningkatkan kompleksitas dan biaya penerapan model besar di bidang manufaktur.

Sebenarnya ada solusinya. Untuk industri vertikal seperti manufaktur atau keuangan dan ritel, antarmuka untuk model besar yang terstandarisasi dapat ditentukan. Antarmuka ini akan memperjelas kemampuan spesifik yang dapat disediakan oleh model besar, sehingga semua sistem dapat memanggil fungsi model besar melalui antarmuka ini. Keuntungannya adalah tidak peduli bagaimana lingkungan sistem berubah, selama mereka mengikuti spesifikasi antarmuka standar ini, mereka dapat terhubung secara lancar dengan model besar.

Oleh karena itu, dengan mendefinisikan antarmuka standar, pengembang perusahaan dapat mengurangi kesulitan dalam mencocokkan model besar dengan sistem yang berbeda, sehingga model besar dapat beradaptasi dengan lingkungan produksi yang berbeda dengan lebih cepat. Antarmuka standar membantu memastikan bahwa model besar dapat berjalan secara stabil di berbagai sistem dan mengurangi masalah kompatibilitas yang disebabkan oleh perbedaan sistem.

Secara umum, model besar banyak digunakan di berbagai industri vertikal, namun kasus implementasi aktualnya relatif sedikit. Ada dua alasan utama: Pertama, kemampuan matematika dan teknik yang tidak mencukupi menyulitkan model besar untuk mencapai akurasi dan stabilitas yang memadai dalam aplikasi praktis. Kedua, model besar itu sendiri adalah bagian dari kategori pembelajaran mesin, dan sifatnya berdasarkan metode statistik menentukan bahwa model tersebut tidak dapat 100% benar.

Faktanya, struktur otak manusia tidak 100% akurat, namun penilaian manusia sering kali cukup akurat untuk memenuhi kebutuhan sebagian besar skenario aktual. Sebaliknya, bahkan setelah pelatihan, akurasi model besar mungkin masih sekitar 95%, yang mungkin tidak cukup dalam beberapa skenario yang memerlukan akurasi sangat tinggi. Selain itu, kemampuan matematis model besar relatif buruk, sehingga membatasi penerapannya di bidang tertentu.

Jika ingin mengatasi keterbatasan tersebut, perlu menyadari pentingnya fasilitas pendukung model berukuran besar. Dengan menyediakan fasilitas dan alat pendukung yang diperlukan untuk model besar, model tersebut dapat menutupi kekurangan kemampuan matematika dan tekniknya, sehingga dapat lebih beradaptasi dengan kebutuhan skenario aplikasi aktual. Fasilitas pendukung tersebut dapat mencakup kumpulan data yang lebih akurat, algoritma yang lebih efisien, platform perangkat keras yang lebih stabil, dan lain-lain.

TMTpost AGI: Mengapa model besar menimbulkan halusinasi?

Qi Peng: Terkadang karena data aslinya hilang atau ada masalah, model bahasa besar tidak dapat mempelajari pengetahuan yang benar selama proses pelatihan, dan oleh karena itu tidak dapat membuat kesimpulan yang benar. Kesalahan ini bukan disebabkan oleh kelemahan dalam model bahasa besar itu sendiri, namun oleh ketidakakuratan dalam input data.

Jika model besar dilatih dalam lingkungan hipotetis di mana semua informasi mengarah pada kesimpulan yang salah, maka model besar juga akan membuat penilaian yang salah berdasarkan informasi yang salah tersebut. Hal ini menekankan pentingnya pengaruh data dan lingkungan terhadap kinerja agen dan model besar.

Terkadang model berukuran besar dapat menghasilkan respons yang tampak logis dan bijaksana, namun sebenarnya tidak benar atau akurat. Hal ini mirip dengan cara anak usia 5 tahun sering menggambarkan kenangan palsu dengan percaya diri.

Orang dewasa juga sering mengalami halusinasi atau kesalahan ingatan saat mengolah informasi dan ingatan. Misalnya, selama pencatatan sidang pengadilan dan analisis kasus, pihak-pihak yang terlibat dalam situasi yang sangat serius dan penting mungkin juga memiliki ingatan atau halusinasi yang salah karena berbagai tekanan, informasi yang menyesatkan, dll.

TMTpost AGI: Bagaimana perbedaan dalam lingkungan pasar model besar di dalam dan luar negeri tercermin?

Qi Peng: Saat ini, negara-negara asing masih memiliki kepercayaan yang kuat terhadap peningkatan teknologi dan belum sepenuhnya beralih ke pengembangan aplikasi. Hal ini mungkin terkait dengan fakta bahwa pasar luar negeri relatif matang dan stabil, sehingga memungkinkan perusahaan memiliki lebih banyak sumber daya dan ruang untuk fokus pada penelitian, pengembangan, dan inovasi teknologi. Sebaliknya, pasar domestik menghadapi lingkungan persaingan yang lebih ketat, dan sebagian besar perusahaan penelitian dan pengembangan berbasis model besar telah beralih ke aplikasi dalam skala besar.

Persaingan di pasar domestik tidak hanya tercermin pada jumlah perusahaan, namun juga pada perang harga. Karena beberapa perusahaan menawarkan layanan serupa pada saat yang sama, harga model besar turun dengan cepat, sehingga menyulitkan perusahaan untuk menutup biaya dengan menyediakan layanan. Di luar negeri, perusahaan yang diwakili oleh ChatGPT dapat terus memperoleh pendapatan dan menggunakannya untuk penelitian dan pengembangan lebih lanjut serta inovasi berdasarkan posisi terdepan mereka dalam teknologi dan pengakuan pasar.

Di pasar domestik, karena perang harga yang sengit dan kemauan membayar yang relatif lemah, perusahaan mungkin harus lebih fokus pada pengembangan aplikasi baru untuk mencari terobosan komersial. Meskipun strategi ini dapat meringankan tekanan ekonomi perusahaan sampai batas tertentu, hal ini juga dapat menyebabkan kurangnya investasi dalam penelitian dan pengembangan teknologi, sehingga mempengaruhi daya saing perusahaan dalam jangka panjang.

TMTpost AGI: Bagaimana arah pengembangan AGI ke depan?

Qi Peng: Saya percaya bahwa masyarakat manusia berada pada periode kritis menuju AGI. Meskipun industri saat ini meyakini bahwa teknologi atau model tertentu tidak berada pada jalur yang tepat menuju AGI, mereka yakin bahwa teknologi atau model tersebut bukan milik AGI.Namun suatu hari nanti, ketika kita melihat kembali periode sejarah ini, kita mungkin menyadari bahwa kita sedang berdiri di titik sejarah yang penting.

Ambil contoh teknologi penggerak otonom Tesla. Lima tahun lalu, orang mungkin mengira bahwa teknologi penggerak otonom tingkat L4 akan membutuhkan waktu sepuluh hingga dua puluh tahun untuk mencapainya, namun kini teknologi tersebut telah mengalami kemajuan yang signifikan. Kemajuan yang tidak disengaja ini membuat industri percaya bahwa AGI yang sebenarnya dapat terwujud secara tidak sengaja.

Zhuang Shaobin: Bagaimana keadaan ideal AGI? AGI tidak hanya harus memiliki kemampuan berpikir tingkat tinggi, namun yang lebih penting, mampu diterapkan dalam kehidupan nyata, khususnya di dunia industri.

Saat ini, masyarakat telah melihat banyak penerapan teknologi robotika dan AI pada perangkat fisik, yang menunjukkan bahwa masyarakat bekerja keras untuk membebaskan teknologi AI dari komputer dan mengubahnya menjadi entitas yang nyata dan aktif. Lompatan ini sangat penting bagi teknologi AI. Hanya dalam penerapan praktis AI dapat menciptakan nilai yang lebih besar.

TMTpost AGI: Selain jalur DiT, adakah kemungkinan jalur atau strategi lain untuk pengembangan AGI? Bagaimana jalur implementasi AGI?

Qi Peng: Dalam proses pengembangan AGI, manusia perlu memiliki sikap yang beragam dan inklusif. Jika AGI dibandingkan dengan pekerjaan rumah siswa yang nilainya berbeda-beda dalam suatu kelas, meskipun siswa tersebut mempunyai kemampuan yang berbeda-beda, namun semuanya dapat menyelesaikan beberapa hal dasar. Demikian pula, meskipun ada perbedaan kinerja antar arsitektur, mereka semua dapat menyelesaikan beberapa tugas dasar, namun mereka memiliki kemampuan berbeda dalam tugas yang lebih sulit.

Secara khusus, dengan dukungan data dan daya komputasi dalam jumlah besar, arsitektur yang berbeda dapat meningkatkan kemampuan dasarnya dengan meningkatkan jumlah parameter, sehingga semuanya dapat bekerja pada tingkat tertentu.Pada saat yang sama, ada juga beberapa tren baru di bidang model besar, seperti mekanisme perhatian linier dan metode optimasi lainnya yang dirancang untuk mengurangi jumlah perhitungan model Transformer tradisional dan meningkatkan efisiensi.

Adapun jalur implementasi akhir AGI sebenarnya tidak ada jalur tetap. Berbagai model dan teknologi saat ini memiliki kelebihan dan keterbatasannya masing-masing. Dalam proses pengembangan AGI, diperlukan eksplorasi dan integrasi berbagai arsitektur dan teknologi secara berkelanjutan. Arsitektur dan teknologi yang berbeda akan memberikan referensi dan referensi penting bagi AGI dalam proses ini, mendorong pengembangan berkelanjutannya. Pada saat yang sama, perhatian perlu diberikan pada kepraktisan dan kemampuan koreksi diri model.

TMTpost AGI: Bagaimana cara mencapai keseimbangan antara inovasi penelitian dan komersialisasi di bidang model besar dalam negeri?

Qi Peng: Dalam hal penelitian inovatif, karena keterbatasan dana, lembaga ini perlu memperjelas tujuan yang dapat dicapai, daripada secara membabi buta mengejar proyek yang membutuhkan sumber daya dalam jumlah besar, seperti model bahasa berukuran besar yang hanya dapat dilakukan. oleh perusahaan besar seperti Baidu.

Kedua, tim lembaga harus memilih proyek penelitian yang dapat diwujudkan dengan upaya tertentu dan mempunyai nilai praktis. Misalnya, model mirip Sora berdasarkan arsitektur perhatian kopling spasialtemporal Latte yang dikembangkan oleh tim mengambil generasi video definisi tinggi berdurasi 16 detik sebagai contoh. Ini adalah tujuan yang dapat dicapai oleh lembaga ini dengan sumber daya yang ada. Pada saat yang sama, lembaga juga perlu memilih beberapa arah penelitian yang mungkin memerlukan lebih sedikit sumber daya, seperti optimalisasi model atau aplikasi pendukung.

Dalam hal komersialisasi, lembaga ini harus fokus pada implementasi AIGC, khususnya isu “last mile”. Artinya, lembaga penelitian perlu fokus pada bagaimana mentransformasikan hasil penelitian menjadi produk atau layanan aktual untuk memenuhi permintaan pasar dan mencapai komersialisasi.

Meskipun IQ model besar dapat terus meningkat, dari usia lima menjadi sepuluh hingga delapan belas tahun, dan bahkan mencapai tingkat ahli terbaik, sistem seperti itu akan selalu membutuhkan fasilitas atau alat pendukung untuk mendukung pengoperasian dan penerapannya. Biaya penelitian dan pengembangan fasilitas pendukung ini mungkin relatif rendah, namun mereka memainkan peran penting dalam mempromosikan penerapan praktis dan nilai sosial dari model berukuran besar.

Oleh karena itu, tim lembaga penelitian dalam negeri di bidang AI sebaiknya fokus pada penelitian dan pengembangan fasilitas pendukung tersebut untuk mendukung pengoperasian dan implementasi model besar.

(Artikel ini pertama kali diterbitkan di Aplikasi Titanium Media, penulis|Dou Yueyi, Lin Zhijia, editor|Lin Zhijia)