Tempat GPT-4o berubah menjadi masa depan, yang menghambat OpenAI

Spot GPT-4o berubah menjadi masa depan, apa yang menghambat OpenAI?

2024-07-16

Teknologi RTC menjadi salah satu kunci popularitas AI real-time.

Penulis |. sinar
sunting|.Jingyu

Dia, berpindah dari film ke kenyataan.

Pada bulan Mei tahun ini, OpenAI merilis model besar multi-modal AI terbaru GPT-4o. Dibandingkan dengan GPT-4 Turbo sebelumnya, GPT-4o dua kali lebih cepat dan separuh biayanya. Rata-rata penundaan interaksi suara AI real-time adalah 2,8 detik (GPT-3,5) hingga 5,4 detik (GPT) dibandingkan versi sebelumnya. .-4), bahkan mencapai 320 milidetik – hampir sama dengan kecepatan respon dialog manusia sehari-hari.

Tidak hanya efisiensi yang ditingkatkan, analisis emosional dalam percakapan juga menjadi salah satu fitur pembaruan produk ini. Selama percakapan dengan pembawa acara, AI dapat mendengar "kegugupan" ketika dia berbicara dan memberikan saran yang ditargetkan untuk menarik napas dalam-dalam.

Buka AI, menjadi “pencipta” berbasis silikon di era model besar.

Namun konferensi persnya mengejutkan, namun kenyataannya sangat tipis. Setelah produk diluncurkan, OpenAI, penggagas revolusi teknologi model besar ini, secara bertahap menjadi seperti perusahaan "masa depan".

Setelah peluncuran GPT-4o yang serba bisa dan berlatensi rendah, peluncuran fungsi audio dan video real-time masih tertunda; produk multi-modal video Sora dirilis, tetapi juga tertunda.

Namun hal ini bukan hanya masalah bagi OpenAI sebagai sebuah perusahaan - setelah ChatGPT dirilis, jumlah ChatGPT versi domestik sama banyaknya dengan ikan mas crucian yang melintasi sungai. Namun, saat ini hanya ada satu SenseTime 5.5 yang benar-benar menjadi tolok ukur GPT-4o , dan kemajuannya sama. Tetap dalam versi beta terbuka dalam sebulan.

Mengapa pada konferensi pers, model besar multi-modal real-time hanya selangkah lagi untuk mengubah dunia, namun dalam proses menuju produksi, model tersebut selalu berubah dari “spot” menjadi “option”?

Sebuah suara baru muncul: di dunia multimodal, mungkin kekerasan (algoritmik) tidak menghasilkan keajaiban.

suara waktu nyata,Satu potong

Harus melewatidariJalur komersialisasi AI

Kematangan teknologi membantu terbentuknya industri samudra biru baru secara bertahap.

Data dari a16z, lembaga modal ventura ternama di Silicon Valley, menunjukkan bahwa di antara 50 aplikasi AI teratas dengan pengguna global, 9 di antaranya merupakan produk pendamping. Data daftar produk AI menunjukkan jumlah kunjungan AI Companion pada Mei tahun ini mencapai 432 juta, meningkat year-on-year sebesar 13,87%.

Permintaan yang tinggi, tingkat pertumbuhan yang tinggi, ruang pasar yang tinggi, dan dukungan AI akan membawa perubahan ganda dalam model bisnis dan interaksi manusia-komputer.

Kematangan bisnis juga memaksa kemajuan teknologi yang terus menerus terjadi secara terbalik.Mengambil paruh pertama tahun ini sebagai sebuah node, teknologi suara AI real-time telah mengalami tiga iterasi hanya dalam enam bulan.

Produk representatif dari teknologi gelombang pertama adalah Pi.

Pada bulan Maret tahun ini, startup Inflection AI memperbarui chatbot emosional Pi untuk pengguna individu.

Antarmuka produk Pi sangat sederhana. Kotak dialog Teks + adalah antarmuka interaktif inti, tetapi juga menambahkan fungsi suara AI seperti membaca suara dan panggilan telepon.

Untuk mencapai interaksi suara semacam ini, Pi mengandalkan teknologi suara tiga langkah tradisional STT (Speech Recognition, Speech-to-Text) - LLM (Large Model Semantic Analysis) - TTS (Text To Speech). Hal ini ditandai dengan teknologi yang matang, namun responsnya lambat, kurangnya pemahaman terhadap informasi penting seperti nada, dan ketidakmampuan untuk mencapai dialog suara real-time yang sebenarnya.

Produk unggulan lainnya dari periode yang sama adalah Call Annie. Dibandingkan dengan Pi, Call Annie memiliki desain pengalaman panggilan video yang lengkap. Selain desain menjawab dan menutup panggilan, fungsi patuh juga dapat diminimalkan dan dialihkan ke aplikasi lain, serta mendukung lebih dari 40 pengaturan peran percakapan.

Namun, semuanya memiliki masalah teknis yang sama - latensi tinggi dan kurangnya warna emosional. Dalam hal latensi, OpenAI tercanggih sekalipun di industri akan mengalami penundaan dari 2,8 detik (GPT-3.5) hingga 5.4 detik (GPT-4).Secara emosional, informasi seperti nada, nada, dan kecepatan berbicara akan hilang selama interaksi, dan tidak mungkin menghasilkan ekspresi ucapan tingkat lanjut seperti tawa dan nyanyian.

Setelah itu, perwakilan dari gelombang teknologi baru adalah produk bernama EVI.

Produk ini diluncurkan oleh Hume AI pada bulan April tahun ini dan menghasilkan pendanaan Seri B bagi Hume AI sebesar US$50 juta (sekitar 362 juta yuan).

Dalam hal desain produk, Hume AI telah meluncurkan fungsi taman bermain dalam algoritma yang mendasarinya. Pengguna dapat memilih konfigurasi mereka sendiri dan model besar, selain default resmi, mereka juga dapat memilih Claude, GPT-4 Turbo, dll.Namun bedanya, suaranya membawa emosi, sehingga terjadi pula perubahan ritme dan intonasi dalam ekspresinya.

Realisasi fungsi ini terutama bergantung pada penambahan algoritma SST (teori ruang semantik, teori ruang semantik) baru ke dalam proses tiga langkah STT-LLM-TTS tradisional. SST dapat secara akurat menggambarkan seluruh spektrum emosi manusia melalui pengumpulan data ekstensif dan model statistik tingkat lanjut, mengungkap kesinambungan antara keadaan emosi manusia, memberikan EVI banyak fitur antropomorfik.

Harga dari kemajuan emosional adalah pengorbanan lebih lanjut dari penundaan waktu, waktu tunggu pengguna untuk berbicara dengan EVI semakin meningkat dibandingkan dengan Pi dan Call Annie.

Pada pertengahan Mei, GPT-4o dirilis, dan integrasi teknologi multimoda menjadi arahan teknis pada periode ini.

Dibandingkan dengan produk interaksi suara tiga langkah sebelumnya, GPT-4o adalah model baru yang dilatih secara end-to-end di seluruh teks, visual, dan audio, yang berarti semua masukan dan keluaran diproses oleh jaringan saraf yang sama.

Masalah penundaan juga telah diperbaiki secara signifikan. OpenAI secara resmi mengumumkan bahwa interaksi suara real-time GPT-4o dapat merespons input audio dengan kecepatan tercepat 232 milidetik dan rata-rata 320 milidetik. Secara emosional, interaksi antara pengguna dan AI menjadi semakin cerdas, seiring dengan tercapainya perubahan kecepatan bicara dan pemahaman emosional.

Pada level produk, manusia bisa saja jatuh cinta pada AI dan AI bisa menggantikan orang buta dalam melihat dunia.

Character.ai, yang baru-baru ini meluncurkan fungsi panggilan suara dan menjadi bintang baru yang menarik perhatian di Silicon Valley pada tahun 2024, telah menjadi penerima manfaat terbesar dari gelombang teknologi ini.

Di Character.ai, pengguna memiliki kesempatan untuk mengirim pesan teks dengan replika karakter anime, tokoh TV, dan tokoh sejarah dalam permainan peran yang sangat realistis. Pengaturan baru ini telah menyebabkan lonjakan jumlah pengguna produk. Menurut data dari Sameweb, Character.ai dapat menangani 20.000 permintaan inferensi AI per detik, dan jumlah kunjungan di bulan Mei mencapai 277 juta.

Perbandingan lalu lintas antara Character.ai dan perplexity.ai｜Sumber gambar: Sameweb

Pada saat yang sama, Microsoft, Google, dan lainnya telah secara resmi mengumumkan bahwa model besar mereka akan meluncurkan fungsi panggilan suara waktu nyata.

Namun, desain produk kedap air, dalam penerapan sebenarnya, selalu menunjukkan efek penerapan debit banjir Tiga Ngarai - pada gelombang ketiga, produk pendamping yang hampir bergaya "dia" pada konferensi pers semuanya telah berubah dalam penerapan sebenarnya menjadi "rencana" untuk diluncurkan, akan segera diluncurkan, dan sedang dalam pengujian internal.

Kesimpulan yang tidak diragukan lagi adalah bahwa audio dan video real-time juga dapat menjadi bentuk utama interaksi manusia-komputerKecerdasan buatanSelain adegan pendamping, adegan seperti NPC yang cerdas dalam game, guru yang berbicara dengan AI, dan terjemahan waktu nyata semuanya diperkirakan akan meledak. Namun, sebelum itu, bagaimana menyelesaikan langkah terakhir dari "konferensi pers" hingga peluncuran produk adalah masalah tersulit dalam industri saat ini.

Suara AI waktu nyata,

Tidak ada keajaiban dengan kekuatan besar

Kecerdasan buatanSuara real-time "tidak ada keajaiban dengan upaya besar", sebuah pepatah pesimistis diam-diam menyebar di Silicon Valley.

Perlawanan datang dari seluruh aspek teknologi, regulasi dan bisnis.

Pemimpin spiritual dari oposisi teknis adalah Yann LeCun, "bapak jaringan konvolusional".

Dalam pandangannya: Dibandingkan dengan berbagai algoritma AI di masa lalu, fitur terbesar dari teknologi model besar adalah bahwa "usaha besar dapat menghasilkan keajaiban." Melalui pemberian data besar, serta dukungan perangkat keras dari cluster komputasi dengan ratusan juta parameter dan kinerja tinggi, algoritme dapat digunakan untuk menangani masalah yang lebih kompleks dan mencapai skalabilitas yang lebih tinggi. Namun, saat ini kami terlalu optimis terhadap model besar, terutama pandangan bahwa model multimoda besar mungkin merupakan model dunia, dan hal ini bahkan lebih tidak masuk akal.

Misalnya, manusia memiliki panca indera, yang membentuk pemahaman kita yang sebenarnya tentang dunia. LLM, yang dilatih berdasarkan sejumlah besar teks Internet, kurang observasi dan interaksi dengan dunia fisik, dan kurang akal sehat. Oleh karena itu, dalam proses pembuatan video atau suara, akan selalu ada konten, lintasan gerakan, atau emosi suara yang tampak mulus, namun kurang realisme. Selain itu, keterbatasan fisik yang berat juga menjadi masalah. Mengingat meningkatnya ukuran model dan dimensi interaksi, model besar saat ini kekurangan bandwidth untuk memproses informasi tersebut.

tingkat peraturan,Kecerdasan buatanPidato real-time, yaitu model pidato end-to-end yang besar, menghadapi permainan antara teknologi dan etika.

Di masa lalu, proses tiga langkah STT-LLM-TTS dalam industri suara AI tradisional pertama kali disebabkan oleh teknologi yang belum matang. Berkembang ke model suara besar yang menyeluruh memerlukan implementasi tambahan dalam hal arsitektur model dan metode pelatihan , dan interaksi multimodal. Pada saat yang sama, karena suara itu sendiri lebih sulit diawasi dibandingkan teks, suara AI dapat dengan mudah digunakan dalam skenario seperti penipuan telepon, pornografi, dan pemasaran spam. Untuk memfasilitasi peninjauan, tautan teks perantara juga diperlukan sampai batas tertentu.

Dan di tingkat bisnis, Pelatihan model besar audio dan video menyeluruh memerlukan data YouTube dan podcast dalam jumlah besar selama fase pelatihan. Biayanya puluhan kali lipat atau bahkan lebih tinggi daripada model pelatihan teks sebelumnya jutaan dolar.

Mengenai biaya seperti ini, bagi perusahaan AI biasa saat ini, tidak ada gunanya mengeluarkan uang dari langit. Mereka juga harus membayar untuk kartu komputasi AI kelas atas NVIDIA, penyimpanan gigabit, dan hak cipta audio dan video bebas risiko yang tiada habisnya. .

Tentu saja, apakah itu penilaian teknis Yang Likun, kemungkinan kesulitan peraturan, atau dilema biaya komersialisasi, ini bukanlah masalah inti Open AI.

Benar-benar menjadikan kelas GPT-4o secara real-timeKecerdasan buatanAlasan mendasar mengapa produk interaksi suara berubah dari waktu ke waktu adalah pada tingkat implementasi proyek.

GPT-4o untuk demonstrasi dengan kabel jaringan terpasang,

Masih kehilangan bantuan RTC yang berguna

Rahasia diam-diam dalam industri ini adalah, kelas GPT-4oKecerdasan buatanProduk suara real-time, pada tingkat teknik, hanyalah setengah dari perjuangan.

Saat peluncuran GPT-4o, meskipun diklaim memiliki latensi rendah, beberapa pengguna yang jeli menemukan bahwa ponsel dalam video demonstrasi masih tersambung dengan kabel jaringan.Ini juga berarti bahwa penundaan rata-rata 320ms yang diumumkan secara resmi oleh GPT-4o kemungkinan besar merupakan demo peralatan tetap, jaringan tetap, dan skenario tetap, dan merupakan indikator laboratorium yang dapat dicapai dalam kondisi ideal.

Konferensi peluncuran GPT-4o OpenAI dengan jelas menunjukkan bahwa ponsel terhubung ke |

dimana masalahnya?

Membongkarnya dari tingkat teknis, untuk mewujudkan panggilan suara real-time AI, tiga langkah di tingkat algoritme digabungkan menjadi satu, yang hanya merupakan salah satu tautan inti lainnya, tingkat komunikasi RTC, juga menghadapi satu rangkaian tantangan teknis. Apa yang disebut RTC secara sederhana dapat dipahami sebagai transmisi dan interaksi audio dan video dalam lingkungan jaringan waktu nyata, ini adalah teknologi yang mendukung suara waktu nyata, video waktu nyata, dan interaksi lainnya.

Chen Ruofei, kepala teknologi audio di Agora, mengatakan kepada Geek Park bahwa dalam skenario aplikasi sebenarnya, pengguna biasanya tidak selalu berada dalam peralatan tetap, jaringan tetap, dan lingkungan fisik tetap. Dalam skenario panggilan video harian kami, ketika jaringan salah satu pihak buruk, kelambatan dan penundaan bicara akan meningkat. Situasi ini juga akan terjadi pada panggilan suara real-time AI, jadi transmisi latensi rendah dan pengoptimalan Jaringan yang sangat baik sangat penting untuk transmisi RTC.

Selain itu, adaptasi multi-perangkat, pemrosesan sinyal audio, dll juga merupakan aspek teknis yang tidak dapat diabaikan dalam penerapan suara AI real-time.

Bagaimana cara mengatasi masalah-masalah ini?

Jawabannya terletak pada persyaratan rekrutmen terbaru OpenAI. OpenAI secara khusus menyebutkan bahwa mereka ingin merekrut talenta teknik untuk membantu mereka menerapkan model paling canggih ke dalam lingkungan RTC.

Dalam hal pemilihan solusi spesifik, teknologi RTC yang digunakan oleh GPT-4o merupakan solusi open source berbasis WebRTC, yang dapat mengatasi penundaan tertentu di tingkat teknis, serta kehilangan paket, keamanan konten komunikasi, dan lintas platform yang disebabkan oleh masalah kompatibilitas jaringan yang berbeda.

Namun, sisi B dari open source adalah kelemahan produksi.

Sebagai contoh sederhana, mengenai masalah adaptasi multi-perangkat, skenario penggunaan RTC sebagian besar diwakili oleh ponsel, namun kemampuan komunikasi dan pengumpulan suara dari berbagai model ponsel sangat bervariasi: saat ini, ponsel Apple dapat mencapai penundaan yang stabil sebesar sekitar puluhan milidetik. Namun, ekosistem Android yang relatif kompleks tidak hanya memiliki banyak model, tetapi kesenjangan kinerja antara produk kelas atas dan kelas bawah juga cukup jelas untuk beberapa perangkat model kelas bawah, latensi bisa mencapai ratusan milidetik pada tingkat pengumpulan dan komunikasi.

Contoh lainnya, dalam skenario penerapan ucapan real-time AI, sinyal ucapan manusia mungkin tercampur dengan kebisingan latar belakang. Pemrosesan sinyal yang kompleks diperlukan untuk menghilangkan kebisingan dan gema guna memastikan masukan ucapan yang bersih dan berkualitas tinggi, sehingga AI dapat lebih memahami manusia .kata-kata itu diucapkan.

Kompatibilitas multi-perangkat dan kemampuan pengurangan kebisingan audio tingkat lanjut juga merupakan kekurangan WebRTC open source.

Pengalaman industri merupakan hambatan dalam penerapan produk open source. Oleh karena itu, dibandingkan dengan solusi sumber terbuka, produsen model besar dan penyedia solusi RTC profesional bekerja sama untuk menyempurnakan dan mengoptimalkannya, yang sampai batas tertentu dapat mewakili tren industri masa depan dengan lebih baik.

Di bidang RTC, Agora adalah produsen paling representatif. Ia terkenal menyediakan teknologi audio ke Clubhouse. Menurut situs resmi Agora, lebih dari 60% aplikasi pan-hiburan di dunia memilih layanan RTC Agora Selain perusahaan ternama dalam negeri Selain aplikasi seperti Xiaomi, Bilibili, Momo, dan Xiaohongshu, ada juga Yalla, platform sosial dan hiburan suara terbesar di Timur Tengah dan Afrika Utara, Kumu, “Raja Kehidupan Sosial Platform Penyiaran” di Asia Tenggara, HTC VIVE, The Meet Group, Bunch, dll. di seluruh dunia. Perusahaan-perusahaan terkenal telah mengadopsi teknologi RTC Agora.

Akumulasi pengalaman industri dan peningkatan pelanggan global merupakan bukti lebih lanjut dari kepemimpinan teknologi. Menurut Chen Ruofei, jaringan transmisi real-time SD-RTN™ yang dikembangkan sendiri oleh Shengwang mencakup lebih dari 200 negara dan wilayah di seluruh dunia, dan penundaan audio dan video end-to-end global mencapai rata-rata 200ms. Menanggapi fluktuasi lingkungan jaringan, teknologi perutean cerdas SoundNet dan algoritma jaringan anti-lemah dapat memastikan stabilitas dan kelancaran panggilan. Mengingat perbedaan peralatan terminal, Shengwang telah mengumpulkan ratusan juta aplikasi pra-instal di seluruh dunia dan mengumpulkan pengetahuan dalam beradaptasi dengan lingkungan yang kompleks.

Selain kepemimpinan teknologi, pengalaman industri merupakan penghalang yang tidak terlihat.

Faktanya, inilah alasan lanskap bisnis industri RTC relatif stabil selama bertahun-tahun:Untuk melakukan pekerjaan dengan baik di RTC, mereka tidak pernah mengandalkan model skala besar yang menyatakan bahwa "usaha besar dapat menghasilkan keajaiban".

Satu-satunya cara untuk mencapai optimalisasi akhir penundaan suara dan penggunaan interaksi suara real-time secara komersial secara universal adalah melalui kerja yang terakumulasi dan intensif dari waktu ke waktu.

Dan dari perspektif ini,Kecerdasan buatanInteraksi suara real-time adalah pertarungan yang tidak boleh dianggap remeh dalam hal imajinasi dan kesulitan.

Masa depannya - algoritma, audit, dan RTC harus melewati setiap level. Untuk menyelesaikan jalan panjang ini, kita tidak hanya harus memandang ke langit yang penuh bintang dalam bidang teknologi, namun juga harus berpijak pada bidang teknik.

*Sumber gambar header: Visual China

Artikel ini adalah artikel asli oleh Geek Park. Untuk pencetakan ulang, silakan hubungi Geek Jun di WeChat geekparkGO

Geek bertanya

Aplikasi pendamping AI manakah yang pernah Anda gunakan?？

Rahasia sukses Zuckerberg: Jangan biarkan film membodohi Anda, tidak ada yang tahu bagaimana melakukannya.

Sukai dan ikutiAkun Video Geek Park，

berita

Spot GPT-4o berubah menjadi masa depan, apa yang menghambat OpenAI?

Perkenalan

informasi kontak saya