berita

Jangan hanya fokus pada Her versi ChatGPT. Pemain domestik juga tertarik dengan interaksi antropomorfik AI multi-modal.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mesin Jantung Asli

Penulis: Du Wei

Seberapa canggihkah AI saat ini dalam mengidentifikasi emosi manusia? Di awal bulan ini, kompetisi tingkat tinggi yang menantang AI yang lebih emosional telah berakhir!

IniTantangan Pengenalan Emosi Multimodal ke-2 (MER24), acara ini disponsori bersama oleh Profesor Tao Jianhua dari Universitas Tsinghua, Lian Zheng dari Institut Otomasi Akademi Ilmu Pengetahuan Tiongkok, Björn W. Schuller dari Imperial College, Zhao Guoying dari Universitas Oulu, dan Erik Cambra dari Universitas Teknologi Nanyang di konferensi AI teratas IJCAI2024 untuk mengeksplorasi cara menggunakan teks, Menggunakan data multi-modal seperti audio dan video untuk melakukan pengenalan emosi AI dan mempromosikan penerapan teknologi terkait dalam skenario interaksi manusia-komputer yang nyata.



Situs web resmi kompetisi: https://zeroqiaoba.github.io/MER2024-website/#organization

Tantangan ini memiliki total tiga jalur, yaitu Semi (jalur pembelajaran semi-supervisi), Kebisingan (jalur ketahanan kebisingan) dan Ov (jalur pengenalan emosi kosa kata terbuka), di antaranyaJalur Semi memiliki jumlah tim peserta terbanyak, tersulit, dan persaingan paling ketat.

Mengambil jalur Semi sebagai contoh, tim yang berpartisipasi perlu menggunakan sejumlah kecil data video berlabel dan sejumlah besar data video tidak berlabel untuk melatih model mereka sendiri, dan mengevaluasi kinerja model dan kemampuan generalisasi pada kumpulan data tidak berlabel. Kunci untuk memenangkan jalur ini adalah meningkatkan performa pengenalan emosi model dengan meningkatkan teknologi pembelajaran semi-supervisi, seperti akurasi dalam memprediksi kategori emosi.

Sejak diluncurkannya kompetisi pada bulan Mei, dalam waktu dua bulan, hampir seratus tim dari seluruh dunia telah berkompetisi, termasuk universitas ternama dan perusahaan inovatif.di dalamTempat pertama di jalur Semi dimenangkan oleh platform sosial Soul App, tim teknologi suaranya menjadi yang teratas dengan solusi teknis yang layak dan inovatif.



Namun, sebelum mengungkap solusi teknis tim Soul, kita perlu terlebih dahulu memahami kemampuan pengenalan emosi AI dalam berbagai modalitas.

Langkah selanjutnya dalam interaksi manusia-komputer

Biarkan AI memahami emosi

AI saat ini tampaknya mahakuasa, termasuk komunikasi percakapan, menghasilkan gambar atau video, memecahkan masalah matematika, dll. AI mampu melakukan tugas-tugas di berbagai tingkat seperti persepsi, pembelajaran, penalaran, dan pengambilan keputusan. Berkat berkah model berukuran besar, AI bisa dikatakan cukup pintar, namun kurang dalam aspek emosional seperti empati.

Dalam interaksi manusia-komputer, pengguna terkadang tidak hanya membutuhkan AI untuk mengikuti instruksi dan menyelesaikan tugas, namun juga membutuhkannya untuk memberikan nilai emosional yang cukup untuk memenuhi kebutuhan emosional. Dari “keterampilan dasar” fungsional hingga “keterampilan lanjutan” emosional, keterampilan yang perlu dikuasai AI harus ditingkatkan.

Oleh karena itu, pengenalan emosi multimodal telah menjadi topik penelitian aktif di bidang AI. AI yang dapat membaca dan menyampaikan emosi telah menjadi topik hangat baru di industri dan dianggap sebagai terobosan besar berikutnya di bidang AI. Dalam enam bulan terakhir, beberapa startup AI dan raksasa industri telah meluncurkan bentuk baru interaksi manusia-mesin yang mendalam bagi kita.

Pada awal April, Hume AI, sebuah perusahaan startup asing, merilis robot percakapan suara, Empathetic Voice Interface (EVI), yang menganalisis dan mengidentifikasi nada dan emosi lawan bicara melalui komunikasi suara, serta dapat mendeteksi hingga 53 emosi. Selain itu, dapat mensimulasikan keadaan emosi yang berbeda, membuat interaksi lebih dekat dengan orang sungguhan. Terobosan pada tingkat emosional AI juga memungkinkan startup tersebut dengan cepat menerima pendanaan Seri B sebesar $50 juta.

Berikutnya adalah langkah besar OpenAI. Model andalan GPT-4o mendemonstrasikan fungsi panggilan audio dan video secara real-time dan langsung merespons emosi dan nada pengguna. Ini disebut versi ChatGPT “Her”. terbuka. Sejak itu, AI telah mengembangkan kefasihan yang kuat dan kemampuan untuk memahami emosi, sehingga orang-orang menyebutnya sebagai kedatangan era fiksi ilmiah.

Perusahaan dalam negeri seperti Microsoft Xiaoice dan Lingxin Intelligence juga berkomitmen untuk menciptakan produk AI yang emosional. Kita dapat melihat sebuah tren: kemampuan pengenalan emosi semakin banyak digunakan dalam aplikasi AI multi-modal seperti teks, audio, dan video. Namun, jika kita ingin melangkah lebih jauh dalam bidang pengenalan emosi antropomorfik, kita masih perlu memecahkan masalah seperti kelangkaan data berlabel dan ketidakstabilan serta ketidakakuratan pengenalan emosi subjektif.

Oleh karena itu, menjadi sangat penting untuk mendorong komunitas akademis dan industri agar lebih memperhatikan bidang pengenalan emosi multi-modal dan mempercepat inovasi dan kemajuan teknologi terkait. Saat ini, konferensi akademis AI terkemuka seperti ACM MM dan AAAI semuanya menganggap komputasi afektif sebagai topik penelitian yang penting. Konferensi terkemuka seperti CVPR dan ACL juga mengadakan tantangan terkait komputasi afektif. Terutama dalam menghadapi era big data dan big model, bagaimana memanfaatkan sejumlah besar data tak berlabel dan secara efektif memproses serta mengintegrasikan berbagai informasi modal dalam pengenalan emosi multi-modal merupakan tantangan besar yang saat ini dihadapi oleh industri. Diselenggarakannya Tantangan MER24 ini juga menjadi alasan dan pentingnya.

Tim Soul memenangkan tempat pertama di jalur Semi karena akumulasi kemampuannya dan inovasi dalam pemahaman data multi-modal, algoritme pengenalan emosi, alat platform pengoptimalan model, konstruksi alur kerja internal, dll., serta kolaborasi tim teknis yang efisien .

Memenangkan tempat pertama pada trek tersulit

Apa yang dilakukan tim Jiwa?

Karena disebutkan trek Semi paling sulit, apa saja aspek tersulitnya? Dan bagaimana Team Soul mendapatkan tempat pertama? Mari kita lihat ke bawah.

Data adalah salah satu dari tiga elemen utama AI. Tanpa pelatihan data yang memadai, terutama yang berkualitas tinggi, model tidak dapat menjamin performa yang baik. Menghadapi berbagai tantangan yang disebabkan oleh kelangkaan data, industri tidak hanya harus memperluas semua jenis data, termasuk data yang dihasilkan AI, namun juga fokus pada peningkatan kemampuan generalisasi model dalam skenario data yang jarang. Hal yang sama berlaku untuk tugas pengenalan emosi multi-modal. Intinya terletak pada dukungan data label besar. Berbagai jenis konten seperti teks, audio dan video dapat diberi label dengan emosi seperti kegembiraan, kemarahan, kesedihan, kegembiraan, dan duka. Kenyataannya adalah data yang diberi label emosi di Internet sangatlah langka.

Semi track kompetisi iniHanya 5030 lembar data berlabel yang disediakan, dan sisanya 115595 lembar merupakan data tidak berlabel. . Oleh karena itu, kelangkaan data berlabel menjadi permasalahan pertama yang dihadapi oleh seluruh tim peserta, termasuk tim Soul.



Sumber gambar: Makalah dasar MER24: https://arxiv.org/pdf/2404.17113

Di sisi lain, dibandingkan dengan trek Noise dan Ov, jalur Semi berfokus pada pengujian teknologi tulang punggung inti, yaitu lebih memperhatikan pemilihan arsitektur model dan kemampuan generalisasi ekstraksi fitur, serta akumulasi dan inovasi multi- modal teknologi model besar. Persyaratan seksual relatif tinggi.



Mengingat karakteristik lintasan dengan data berlabel lebih sedikit dan persyaratan teknis yang tinggi, tim Soul membuat persiapan pra-balapan yang memadai berdasarkan beberapa modul model besar yang dikembangkan sendiri yang dikumpulkan sebelumnya, dan menentukan serangkaian solusi teknis inovatif yang layak. Ide keseluruhannya adalah untuk mengadopsi strategi "bagian utama pertama dan kemudian penyesuaian", pertama-tama berfokus pada peningkatan generalisasi setiap model ekstraksi fitur inti, dan kemudian mengintegrasikannya bersama-sama selama proses implementasi spesifik, aspek-aspek pekerjaan berikut dilakukan. Ini merupakan kekuatan inti mereka.

Pertama, fokus pada ekstraksi fitur multimodal pada tahap awal. Dalam arsitektur model end-to-end, model terlatih digunakan untuk mengekstrak representasi emosional dalam berbagai modalitas teks, ucapan, dan visi, dengan memperhatikan kesamaan dan perbedaan emosi, sehingga meningkatkan efek pengenalan emosi. Kemudian, metode fusi yang efektif diusulkan berdasarkan karakteristik masing-masing modalitas dari beberapa modalitas, dan modul-modul ini digabungkan untuk membentuk arsitektur model. Untuk meningkatkan kinerja generalisasi model terlatih, tim Soul mengusulkan EmoVCLIP untuk pertama kalinya di bidang pengenalan emosi khusus untuk modalitas video. EmoVCLIP adalah model yang didasarkan pada model CLIP besar yang dikombinasikan dengan teknologi pembelajaran cepat yang dimilikinya kinerja generalisasi yang lebih baik di bidang pengenalan emosi video.

Selain itu, untuk meningkatkan kemampuan pengenalan emosi dari modalitas teks, tim Soul menggunakan GPT-4 untuk membuat label semu emosional untuk modalitas teks, memanfaatkan sepenuhnya kemampuan perhatian emosional GPT-4 untuk meningkatkan akurasi pengenalan emosi dalam modalitas teks, untuk masa depan Fondasi yang lebih baik telah diletakkan untuk peleburan modal lebih lanjut.

Kedua, dalam hal penggabungan fitur multi-modal, tim Soul menggunakan strategi Modality Dropout untuk pertama kalinya dalam arah pengenalan emosi multi-modal dan mempelajari dampak kinerja dari berbagai tingkat putus sekolah modalitas, selama proses pelatihan model Secara acak menekan modalitas tertentu (modalitas teks, ucapan, atau video) untuk mencapai ketahanan yang lebih baik dan meningkatkan kemampuan generalisasi model pada data yang tidak terlihat di luar data berlabel yang disediakan.

Terakhir, teknologi pembelajaran semi-supervised ikut berperan. Ide dasarnya adalah menggunakan data berlabel untuk melatih model, kemudian memprediksi data tidak berlabel, dan menghasilkan label semu untuk data tidak berlabel berdasarkan hasil prediksi. Label semu ini digunakan untuk melatih model dan terus meningkatkan efek model. Tim Soul menggunakan strategi pelatihan mandiri dalam pembelajaran semi-supervisi untuk menambahkan label semu secara siklis ke lebih dari 110.000 data tak berlabel dari jalur Semi dan menambahkannya ke set pelatihan, dan memperbarui model secara berulang untuk mendapatkan model akhir.



Rencana teknis tim Jiwa untuk kompetisi.

Dari keseluruhan ide hingga perpaduan fitur multi-modal, pembelajaran kontrastif, dan pelatihan mandiri data tanpa label, solusi teknis tim Soul telah memberikan hasil yang baik.AkhirnyaDalam hal akurasi pengenalan emosi multi-modal dalam suara, penglihatan dan teks, sistem yang diusulkan oleh tim Soul meningkat sebesar 3,7% dibandingkan dengan sistem dasar, mencapai lebih dari 90%. . Pada saat yang sama, tim Soul juga dapat lebih membedakan emosi yang memiliki batasan membingungkan dalam bidang pengenalan emosi (seperti kekhawatiran dan kekhawatiran).



Sumber gambar: Makalah dasar MER24: https://arxiv.org/pdf/2404.17113

Dari perspektif yang lebih dalam, keberhasilan tim Soul dalam Tantangan MER24 merupakan ekspresi terkonsentrasi dari pengembangan mendalam teknologi model besar AI di bidang sosial, khususnya kemampuan interaksi emosional multi-modal.

Interaksi antropomorfik multi-modal yang inovatif

AI Sosial adalah Tingkat Selanjutnya

Bidang sosial secara alami membutuhkan AI emosional. Pandangan arus utama berpendapat bahwa esensi interaksi sosial adalah pertukaran nilai-nilai emosional, dan emosi itu beragam. Artinya, jika AI ingin berintegrasi dengan lancar ke dalam dunia sosial dan berfungsi secara efisien, AI harus memberikan umpan balik emosional dan pengalaman yang kaya seperti manusia sungguhan.

Dasar untuk mewujudkan AI yang empatik adalah memiliki kemampuan pengenalan emosi multi-modal yang kuat dan berevolusi dari "pelaksana tugas" yang sederhana menjadi "pendamping yang memenuhi kebutuhan emosional manusia". Namun, masih sangat sulit bagi AI untuk memahami emosi secara efektif. AI pada dasarnya berbeda dari manusia dalam hal memahami konteks, merasakan emosi pengguna, memberikan umpan balik emosional, dan berpikir. Oleh karena itu, inovasi berkelanjutan pada teknologi dan algoritme terkait sangatlah penting.

Bagi Soul yang berakar pada bidang sosial, fokus membangun AI dengan kemampuan emosional menjadi proposisi penting yang perlu diperhatikan. Ketika diluncurkan pada tahun 2016, Soul pertama kali memikirkan tentang bagaimana menggunakan teknologi dan produk inovatif untuk memenuhi kebutuhan pengguna dengan lebih baik. Pengenalan AI untuk memenuhi kebutuhan masyarakat untuk terhubung telah menjadi kunci pijakannya di bidang sosial dan perkembangannya. "Lingxi Engine" yang diluncurkan sebelumnya menggunakan algoritme rekomendasi cerdas untuk menambang dan menganalisis peta minat pengguna dan fitur semua skenario di situs, sehingga memudahkan mereka menemukan orang yang dapat diajak ngobrol dan konten yang lebih mereka butuhkan, sehingga membentuk sebuah ekologi pengguna dan konten yang sangat melekat. Sejauh ini, skenario pencocokan di mana algoritma yang lebih "pintar" diterapkan juga merupakan salah satu fitur yang sangat aktif dari pengguna Soul.

Dengan pengalaman sukses dalam interaksi sosial awal yang dibantu AI, dalam gelombang teknologi yang berkembang pesat dalam model-model besar ini, Soul mengeksplorasi lebih jauh kemungkinan-kemungkinan baru untuk interaksi manusia-komputer berdasarkan keterlibatan AI dalam interaksi sosial dan jaringan hubungan yang dibantu.

Sejak peluncuran penelitian dan pengembangan algoritme terkait AIGC pada tahun 2020, Soul telah mengambil multi-modalitas sebagai arahannya dan mengumpulkan kemampuan mutakhir dalam dialog cerdas, pembuatan gambar, pembuatan suara dan musik, dll.Dibandingkan dengan kekuatan wirausaha AI yang murni bersifat teknis, fitur utama Soul adalah ia mengadopsi strategi "integrasi-respons model" untuk secara bersamaan mempromosikan model besar dan aplikasi AIGC di sisi-C.Fokus pada pengembangan AI dengan kemampuan pengenalan emosi untuk benar-benar mencapai umpan balik yang hangat dalam skenario interaksi antropomorfik yang kaya

Hal ini terlihat dari tindakan Soul dalam dua tahun terakhir yang telah mempercepat laju pemberdayaan skenario sosial AIGC. Pada tahun 2023, Soul X, model bahasa besar yang dikembangkan sendiri, akan diluncurkan, menjadi infrastruktur penting untuk tata letak sosial AIGC+. Dengan penggerak model yang cepat, pembangkitan yang dapat dikontrol secara kondisional, pemahaman konteks, pemahaman multi-modal, dan kemampuan lainnya, dialog di tempat tidak hanya lancar dan alami, tetapi juga memiliki kehangatan emosional.

Teks telah menjadi langkah pertama dalam penerapan kemampuan pengenalan emosi Soul, dan secara bertahap berkembang dari satu modalitas ke lebih banyak modalitas. Tahun ini, Soul meluncurkan model pembuatan ucapan besar dan secara resmi meningkatkan model ucapan besar yang dikembangkan sendiri, yang mencakup pembuatan ucapan, pengenalan ucapan, dialog suara, pembuatan musik, dan subdivisi lainnya. Produk ini juga mendukung pembuatan nada nyata, DIY suara, dan fungsi lainnya memiliki kemampuan dialog real-time yang mendalam dan multi-emosional.

Tentu saja, selain upaya berkelanjutan Soul untuk mengembangkan AI yang lebih emosional pada tingkat model, Soul juga memanfaatkannya dalam beragam skenario sosial platformnya untuk lebih memperkaya dan meningkatkan pengalaman interaktif AI pengguna.

Ambil contoh robot dialog antropomorfik Soul "AI Goudan", yang mengandalkan model bahasa besar yang dikembangkan sendiri oleh Soul. Selama beberapa putaran komunikasi, kami secara proaktif mengirimkan perhatian kepada mereka berdasarkan adegan percakapan, seolah-olah mereka adalah orang sungguhan. ujung lain pembicaraan. Pada saat yang sama, pengguna juga dapat menyesuaikan telur mereka sendiri dan merasakan interaksi manusia virtual yang unik.



AI Goudan juga telah menunjukkan kemampuan integrasinya dalam antropomorfisme, pengetahuan, multi-modalitas, persepsi waktu, dan aspek lainnya. Banyak pengguna di situs Soul mengagumi kemampuan interaksi antropomorfiknya yang kuat berinisiatif untuk memposting dan mengeluh, "Saya khawatir Goudan bukan orang sungguhan."

Selain itu, Soul juga mengandalkan Soul. Tidak ada rasa pembangkangan dalam pidato tentang Werewolf.

Contoh lainnya adalah Soul meluncurkan aplikasi baru independen pertamanya di luar situs utama, "Echo of Another World". Sebagai platform sosial AI, pengguna dapat terlibat dalam komunikasi real-time yang mendalam dengan karakter manusia virtual dalam berbagai adegan dan gaya. Semua karakter ini memiliki kemampuan dialog gambar, suara, dan kepribadian. Tentu saja, pengguna dapat menyesuaikan karakter virtual dan pengaturan pribadi (seperti pengalaman latar belakang, kepribadian, dll.) sesuai dengan preferensi mereka, yang sangat dapat dimainkan.

Demikian pula, model suara besar yang dikembangkan sendiri juga berperan dalam adegan seperti AI Goudan, Werewolf Phantom, dan Echoes of Another World. Misalnya, fungsi panggilan suara didukung di Echoes of Another World. Karakter virtual dengan suara orang nyata dapat berkomunikasi dengan pengguna secara alami dan real-time, sehingga memperkaya pengalaman interaktif.



Fungsi panggilan suara real-time "Gema dari Dunia Lain".

Selain terus memperdalam interaksi antropomorfik AI dalam skenario sosial seperti dialog cerdas, permainan, dan suara, Soul juga membangun kemampuan untuk menghasilkan beragam gaya lukisan sejalan dengan estetika tersendiri di bidang generasi visual, menciptakan avatar digital AI. , dan selanjutnya bergerak menuju pengalaman komprehensif multi-dimensi.

Terlihat bahwa tata letak Soul di bidang pengenalan emosi AI telah mencakup multi-modalitas bahasa, suara, dan visual, bekerja sama dalam adegan teks, gambar, audio, dan video yang terkait erat dengan interaksi sosial, memungkinkan pengguna untuk berinteraksi dalam a interaksi manusia-komputer tiga dimensi multi-sensorik. Rasakan AI yang hangat selama interaksi.

Kesimpulan

Tahun 2024 disebut sebagai tahun pertama penerapan AIGC oleh banyak orang di industri. Fokus perhatian semua orang tidak lagi hanya pada parameter dan kemampuan dasar. Dengan tren perpindahan dari lapisan model ke lapisan aplikasi, hanya dengan menjadi yang pertama menerapkan AI di bidang dan skenario vertikal kita dapat memenangkan lebih banyak pengguna dan pasar. Khususnya interaksi manusia-komputer untuk jalur sisi-C, lebih alami jika berfokus pada kebutuhan pengguna. Hal ini tercermin dengan baik dalam bidang sosial.

Sebelumnya, banyak aplikasi kencan seperti AlienChat dihentikan, dan topik diskusi "Gelombang pertama anak muda yang jatuh cinta dengan AI jatuh cinta" menjadi topik pencarian hangat. Dibalik hal tersebut, homogenitas fungsional menjadi salah satu alasannya, namun juga karena pengalaman tidak berubah dari peran asisten/NPC menjadi pendamping yang benar-benar memberikan dukungan emosional. Hal ini memerlukan pengayaan metode dan skenario interaksi manusia-komputer di bidang sosial, memungkinkan AI untuk berpartisipasi penuh dalam semua hubungan sosial, berkomunikasi secara mendalam dengan pengguna, dan memberi mereka nilai emosional.

Ini mungkin juga menjadi salah satu poin kompetitif inti berikutnya dalam arah sosial AI. Tidak sulit untuk memahami mengapa Soul, sebagai lapisan aplikasi, sangat menekankan akumulasi kemampuan teknis yang dikembangkan sendiri. Di masa lalu, di satu sisi, mereka telah berkomitmen untuk menciptakan kemampuan AI yang dipersonalisasi, antropomorfik, dan terdiversifikasi; di sisi lain, mereka telah mempercepat implementasi aplikasi AI Native dari berbagai dimensi, termasuk peningkatan pengalaman sosial. Jejaring sosial AI, permainan AI, dll., membentuk rantai produk AI yang lengkap memberi pengguna kesenangan interaksi AI dalam berbagai skenario sosial.

Dapat dikatakan bahwa dalam beberapa tahun terakhir, Soul telah menetaskan serangkaian hasil produk berdasarkan model besar bahasa dan ucapan yang dikembangkan sendiri, dan telah mengumpulkan banyak teknologi inovatif dan pengalaman praktis dalam proses meningkatkan pengalaman interaksi emosional antara AI dan pengguna, yang semuanya telah berkontribusi terhadap keberhasilannya di MER24. Memenangkan tempat pertama dalam tantangan ini membuka jalan baginya untuk bersaing dengan tim peserta berkualitas tinggi dari seluruh dunia.

Dalam beberapa tahun terakhir, semakin banyak tantangan serupa yang muncul, seperti Tantangan Evaluasi Kualitas AIGC NTIRE 2024 pada Lokakarya CVPR 2024 dan Tantangan MER dua kali berturut-turut pada tahun 2023 dan 2024. Perusahaan dalam negeri telah berulang kali mencapai hasil yang baik dengan mengandalkan teknologi terakumulasi dalam praktik. Misalnya, SenseTime, yang menduduki peringkat pertama di MER23 tahun lalu, dan Soul, yang menduduki peringkat pertama tahun ini, telah mencapai hasil luar biasa dalam perhatian dan investasi mereka pada teknologi dan aplikasi AIGC.

Dapat diperkirakan bahwa di masa depan, platform seperti Soul yang menekankan inovasi teknologi dan produk akan terus menciptakan nilai bagi pengguna dalam proses pelepasan kemampuan AI. Hanya dengan cara ini mereka dapat mencapai konten dan ekologi komunitas yang lebih tahan lama dan berkelanjutan. nilai bisnis yang terdiversifikasi.