“Her” OpenAI sulit untuk disampaikan.

2024-07-27

Mengchen berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Dua bulan dan dua minggu telah berlalu, dan kami masih belum melihat versi OpenAI "Her" yang dirilis ke publik.

Pada 14 Mei, OpenAI merilis GPT-4o danMode percakapan audio dan video real-time ujung ke ujung, demonstrasi langsung dialog AI semulus manusia.

Ia dapat merasakan ritme pernapasan Anda dan dapat membalas secara real time dengan nada yang lebih kaya dari sebelumnya. Ia bahkan dapat mengganggu AI kapan saja, dan efeknya luar biasa.

Tapi seperti yang dinantikan semua orang, dari waktu ke waktuletakkanberita keluar.

Apa yang menghambat OpenAI? Menurut informasi yang diketahui:

memilikiPerselisihan hukum, untuk memastikan timbre suaranya tidak menimbulkan kontroversi seperti "saudara perempuan janda" Scarlett Johansson lagi.

ada jugapertanyaan keamanan, perlu diselaraskan dengan benar, dan percakapan audio dan video real-time akan membuka skenario penggunaan baru, dan digunakan sebagai alat penipuan juga akan menjadi salah satunya.

Namun selain hal di atas, adakah kendala dan kesulitan teknis yang perlu diatasi?

Setelah kegembiraan awal, para ahli mulai melihat ke pintu.

Netizen yang bermata tajam mungkin telah memperhatikan,Saat demonstrasi di konferensi pers, telepon seluler dicolokkan dengan kabel jaringan.。

Di mata orang dalam industri, demonstrasi konferensi GPT-4o berjalan sangat lancar, namun masih terdapat beberapa keterbatasan:

membutuhkan"Jaringan tetap, peralatan tetap, lingkungan fisik tetap"。

Setelah benar-benar dirilis ke publik, masih belum diketahui apakah pengguna global bisa mendapatkan pengalaman yang tidak dikompromikan dibandingkan konferensi pers.

Ada detail menarik lainnya dalam konferensi pers tersebut, peneliti tampan Barret Zoph.ChatGPT digunakan sebagai tabel saat mendemonstrasikan panggilan video。

Keterlambatan pada bagian panggilan video terlihat jelas.Bagian suara pertanyaan sudah diproses, dan bagian visual masih memproses shot sebelumnya., yaitu meja kayu yang ditangkap kamera saat telepon baru saja diangkat.

Bayangkan berapa banyak orang yang akan menggunakannya setelah akhirnya dirilis?

Salah satu kasus yang paling banyak dibicarakan dalam video promosi tersebut, dimana seorang tunanetra melambai ke arah taksi dengan bantuan suara AI, langsung menjadi perbincangan netizen.

Namun, perlu juga dicatat bahwa ini akan menjadi aSkenario yang sangat bergantung pada fitur latensi rendah, jika panduan AI datang sedikit lebih lambat, taksi akan lewat.

Sinyal jaringan pada pemandangan luar ruangan mungkin belum tentu stabil, apalagi pemandangan seperti bandara, stasiun kereta api, dan tempat wisata yang banyak orang dan perangkatnya menghabiskan bandwidth, sehingga kesulitannya akan semakin bertambah.

Juga,Juga akan ada masalah kebisingan di pemandangan luar ruangan。

Model besar pada dasarnya bermasalah dengan masalah "ilusi". Jika kebisingan memengaruhi pengenalan suara pengguna dan muncul beberapa kata yang tidak terkait dengan instruksi, maka jawabannya akan menjadi tidak jelas.

Terakhir, ada masalah lain yang mudah diabaikan,Adaptasi multi-perangkat。

Terlihat konferensi OpenAI dan video promosi saat ini semuanya menggunakan iPhone Pro baru.

Apakah pengalaman yang sama dapat diperoleh pada model kelas bawah harus menunggu hingga rilis resmi.

OpenAI mempromosikan bahwa GPT-4o dapat digunakanSesingkat 232 milidetik, rata-rata 320 milidetikuntuk merespons masukan audio dalam waktu yang konsisten dengan seberapa cepat manusia merespons dalam percakapan.

Namun ini hanya waktu dari masukan hingga keluaran model besar, bukan keseluruhan sistem.

Secara keseluruhan, hanya dengan melakukan pekerjaan dengan baik di AI, masih belum mungkin untuk menciptakan pengalaman yang mulus seperti "Her". Ini juga memerlukan serangkaian kemampuan seperti latensi rendah, adaptasi multi-perangkat, dan kemampuan untuk mengatasinya berbagai kondisi jaringan dan lingkungan yang bising.

AI saja tidak bisa membuat “Dia”

Untuk mencapai latensi rendah, adaptasi multi-perangkat, dll., kami mengandalkanRTC(Komunikasi Waktu Nyata, Komunikasi Waktu Nyata).

Sebelum era AI, teknologi RTC telah banyak digunakan dalam siaran langsung, konferensi video, dan skenario lainnya, dan perkembangannya relatif matang.

Dari perspektif RTC, kata-kata perintah suara pengguna harus melalui serangkaian proses yang rumit sebelum dimasukkan ke dalam model besar.

Akuisisi sinyal dan pra-pemrosesan:Pada perangkat sisi akhir seperti ponsel, suara pengguna dikumpulkan menjadi sinyal asli, dan diproses seperti pengurangan kebisingan dan penghapusan gema untuk mempersiapkan pengenalan selanjutnya.

Pengkodean dan kompresi ucapan: Untuk menghemat bandwidth transmisi sebanyak mungkin, sinyal suara harus dikodekan dan dikompresi. Pada saat yang sama, beberapa mekanisme redundansi dan koreksi kesalahan harus ditambahkan secara adaptif sesuai dengan kondisi jaringan aktual untuk menahan kehilangan paket jaringan.

transmisi jaringan: Data suara terkompresi dibagi menjadi paket data dan dikirim ke cloud melalui Internet. Jika jarak fisik dari server jauh, transmisi sering kali harus melewati beberapa node, dan setiap hop dapat menimbulkan penundaan dan kehilangan paket.

Penguraian dan pemulihan suara:Setelah paket data mencapai server, sistem menerjemahkannya dan mengembalikan sinyal suara asli.

Akhirnya giliran AI yang mengambil tindakan.Hanya dengan terlebih dahulu mengubah sinyal ucapan menjadi token melalui model Penyematan barulah model besar multi-modal ujung ke ujung dapat memahami dan menghasilkan balasan.

Tentu saja, setelah model besar menghasilkan balasan, model tersebut harus melalui serangkaian proses terbalik, dan kemudian sinyal audio balasan akhirnya dikirimkan kembali ke pengguna.

Setiap langkah dari keseluruhan proses memerlukan pengoptimalan ekstrem untuk benar-benar mencapai dialog audio dan video AI real-time.

Diantaranya, kompresi, kuantisasi, dan metode lain dari model besar itu sendiri akan memengaruhi kemampuan AI, jadi pengoptimalan gabungan yang dikombinasikan dengan faktor-faktor seperti pemrosesan sinyal audio dan kehilangan paket jaringan sangatlah penting.

Dapat dipahami bahwa OpenAI tidak menyelesaikan masalah ini secara mandiri, namun memilih untuk bekerja sama dengan pihak ketiga.

Mitra adalahVendor RTC sumber terbuka LiveKit, saat ini menjadi fokus industri dengan dukungan mode suara ChatGPT.

Selain OpenAI, LiveKit juga telah menjalin kerja sama dengan perusahaan AI terkait seperti Character.ai dan ElevenLabs.

Mungkin kecuali beberapa raksasa seperti Google yang memiliki teknologi RTC yang dikembangkan sendiri secara relatif matang,Bekerja sama dengan produsen RTC yang berspesialisasi dalam industri ini adalah pilihan utama saat ini untuk pemutar dialog audio dan video real-time AI.。

Tentu saja, gelombang ini juga melibatkan partisipasi pemain dalam negeri. Banyak perusahaan AI dalam negeri telah meningkatkan pengembangan model besar multimodal end-to-end serta aplikasi dialog audio dan video real-time AI.

Bisakah aplikasi AI dalam negeri menyamai hasil OpenAI, dan kapan semua orang bisa benar-benar merasakannya sendiri?

Karena proyek-proyek ini pada dasarnya masih dalam tahap awal, tidak banyak informasi yang diungkapkan kepada publik, namun mitra RTC merekajaringan suaraIni menjadi sebuah terobosan.

Qubit bertanya dari Sound Network,Dengan tingkat teknologi dalam negeri saat ini, penundaan putaran dialog dapat dikurangi menjadi sekitar 1 detik., ditambah dengan lebih banyak teknik pengoptimalan, tidak lagi menjadi masalah untuk mencapai percakapan lancar yang dapat merespons secara tepat waktu.

Untuk melakukan RTC dengan baik, AI bukan hanya "Dia"

Siapa SoundNet?

Perusahaan yang mewakili industri RTC, menjadi penyedia layanan cloud interaktif real-time global pertama pada tahun 2020.

SoundNet pertama kali keluar dari industri ini karena menyediakan dukungan teknis untuk Clubhouse, sebuah aplikasi sosial audio yang sukses besar.

Faktanya, banyak aplikasi terkenal seperti Bilibili, Xiaomi, dan Xiaohongshu telah memilih solusi RTC Agora, dan bisnis di luar negeri juga berkembang pesat dalam beberapa tahun terakhir.

Jadi untuk aplikasi dialog audio dan video real-time AI, bagaimana secara spesifik mengatasi kesulitan latensi rendah dan adaptasi multi-perangkat, dan efek apa yang dapat dicapai?

Kami telah mengundangZhong Sheng, kepala ilmuwan dan CTO Shengwanguntuk menjawab pertanyaan ini.

Menurut Zhong Sheng, inferensi model besar tidak dihitung;Anggap saja waktu yang dibutuhkan sinyal untuk bolak-balik di jalur jaringan sudah bisa 70-300 milidetik.。

Secara khusus, kami terutama fokus pada pengoptimalan dari tiga aspek.

Pertama,Shengwang telah membangun lebih dari 200 pusat data di seluruh dunia, dan lokasi yang dipilih saat menjalin koneksi selalu paling dekat dengan pengguna akhir.

Dikombinasikan dengan teknologi perutean cerdas, ketika jalur tertentu padat, sistem dapat secara otomatis memilih jalur lain dengan penundaan dan bandwidth yang lebih baik untuk memastikan kualitas komunikasi.

Jika transmisi lintas wilayah tidak terlibat, transmisi end-to-end bisa kurang dari 100ms. Jika mencakup lintas wilayah, seperti dari Tiongkok ke Amerika Serikat, kemungkinan besar akan memerlukan waktu 200-300 md.

Kedua, Shengwang, yang didirikan pada tahun 2014, menganalisis berbagai skenario jaringan lemah melalui penambangan data berdasarkan sejumlah besar data pemandangan nyata yang terakumulasi selama bertahun-tahun, dan kemudian mereproduksinya di laboratorium. Hal ini memberikan "jarak tembak" untuk mengoptimalkan algoritme transmisi sehingga dapat mengatasi lingkungan jaringan yang kompleks dan dapat berubah; hal ini juga dapat membuat penyesuaian tepat waktu terhadap strategi transmisi ketika mode jaringan lemah terkait terjadi selama transmisi waktu nyata untuk melakukan transmisi lebih halus.

ketiga, Untuk industri vertikal dan tugas tertentu, Shengwang juga mencoba menyesuaikan model dengan parameter yang lebih kecil untuk mempersingkat waktu respons model besar. Kemampuan ekstrim dari model bahasa besar dan model ucapan dengan ukuran tertentu adalah arah yang perlu ditelusuri, yang merupakan kunci untuk mengoptimalkan efektivitas biaya dan pengalaman latensi rendah dari AI percakapan atau chatbots.

akhirnya, RTC SDK yang dikembangkan oleh Shengwang juga diadaptasi dan dioptimalkan untuk perangkat terminal yang berbeda, terutama untuk beberapa model kelas bawah, yang dapat mencapai konsumsi daya rendah, penggunaan memori rendah, ukuran paket sangat kecil, dll. Secara khusus, kemampuan perangkat untuk mengurangi kebisingan suara, pembatalan gema, dan peningkatan kualitas video berdasarkan algoritme AI dapat secara langsung memengaruhi cakupan dan efek chatbot AI.

Zhongsheng juga memperkenalkan bahwa dalam proses penjajakan kombinasi teknologi RTC dan model besar, cakupan teknologi RTC itu sendiri juga berubah.

Ia mencontohkan beberapa arah pemikirannya, seperti mengubah dari transmisi sinyal audio menjadi transmisi token yang dapat langsung dipahami oleh model besar, bahkan menerapkan pengenalan ucapan-ke-teks (STT) dan emosi pada akhirnya, sehingga hanya teks dan informasi terkait dapat ditransmisikan.

Dengan cara ini, lebih banyak proses pemrosesan sinyal dapat ditempatkan di sisi akhir, dan model Penyematan yang memerlukan lebih sedikit daya komputasi dapat ditempatkan lebih dekat dengan pengguna, sehingga mengurangi kebutuhan bandwidth seluruh proses dan biaya model cloud.

Mulai dari titik ini, Zhong Sheng percaya bahwa kombinasi akhir teknologi AI dan RTC akan mengarah pada integrasi perangkat dan cloud.

Artinya, Anda tidak dapat sepenuhnya mengandalkan model besar di cloud. Ini bukan pilihan terbaik dalam hal biaya, konsumsi energi, dan pengalaman latensi.

Dari perspektif integrasi end-cloud, seluruh infrastruktur perlu diubah. Kekuatan komputasi tidak hanya di cloud, tetapi juga kekuatan komputasi ponsel akan digunakan. Node transmisi di edge juga akan mendistribusikan daya komputasi, dan protokol transmisi data juga akan berubah...

Saat ini, Agora dan produsen aplikasi model besar telah menemukan caranyaTiga model kerjasama, yaitu metode pasokan yang berbeda dari tiga bagian keseluruhan sistem: model besar, RTC, dan server cloud:

Penerapan pribadi:Shengwang hanya menyediakan RTC SDK, yang diterapkan bersama dengan model besar di pusat data milik mitra. Sangat cocok untuk perusahaan dengan model besar yang dikembangkan sendiri atau infrastruktur inferensi model besar.
Platform Awan Shengwang: Shengwang menyediakan RTC SDK dan sumber daya server cloud, dan pengembang dapat secara fleksibel memilih model, lokasi penerapan, dan sumber daya komputasi sesuai dengan kebutuhan mereka. Tidak perlu membangun infrastruktur sendiri dan Anda dapat dengan cepat membangun aplikasi suara AI.
Solusi menyeluruh Agora: Shengwang menyediakan model besar yang dikembangkan sendiri, RTC SDK, dan sumber daya server cloud. Model vertikal dapat disesuaikan untuk industri tersegmentasi seperti pendidikan, e-commerce, hiburan sosial, layanan pelanggan, dll., dan sangat terintegrasi dengan kemampuan RTC untuk menyediakan solusi interaksi suara terintegrasi.

Selain itu, dalam proyek kerja sama yang ada, penerapan tercepat tidak jauh dari dapat memenuhi semua orang.

Dalam komunikasi dengan Acoustic Network, ada tren baru lainnya dalam penemuan qubit yang patut diperhatikan:

Penerapan AI dalam negeri secara bertahap melampaui cakupan tanya jawab asisten AI dan pendampingan emosional AI.

Misalnya industri seperti hiburan sosial, streaming langsung e-commerce, dan pendidikan online. Yang paling diperhatikan semua orang adalah pembawa berita selebriti Internet dan guru terkenal. Orang-orang digital yang didorong oleh dialog audio dan video real-time AI dapat menjadi "klon digital" mereka dan selanjutnya berinteraksi satu lawan satu dengan setiap penggemar atau siswa. Pada saat yang sama, waktu dan energi pengguna juga terbatas, dan mereka tidak memiliki keterampilan untuk membagi diri menjadi beberapa tugas, dan mereka juga membutuhkan klon AI mereka sendiri. Dengan perkembangan teknologi, peningkatan pengalaman teknologi avatar AI, dan pengurangan biaya, cakupan penerapannya akan semakin meluas.

Ambil contoh kata-kata Zhong Sheng, "Hal yang paling langka bagi manusia adalah waktu":

Kita semua pasti mempunyai pengalaman ini. Bagaimana jika ada dua pertemuan yang bertentangan dan kita hanya dapat menghadiri satu pertemuan?

Anda sendiri dapat berpartisipasi dan mengirim asisten AI ke acara lain untuk memberikan informasi menarik. Nantinya, asisten ini bahkan bisa menjadi avatar AI Anda sendiri. Selama aktivitas, Anda dapat melakukan komunikasi yang dipersonalisasi, bertanya atau menjawab berbagai pertanyaan berdasarkan minat dan kekhawatiran Anda sendiri, serta berinteraksi dengan orang lain atau avatar orang lain.

Oleh karena itu, dialog audio dan video real-time AI dapat melakukan lebih dari sekadar "Dia".

berita

“Her” OpenAI sulit untuk disampaikan.

Perkenalan

informasi kontak saya