Konzentrieren Sie sich nicht nur auf die ChatGPT-Version von Her, inländische Spieler sind auch an multimodalen anthropomorphen KI-Interaktionen interessiert

Konzentrieren Sie sich nicht nur auf die ChatGPT-Version von Her. Inländische Spieler sind auch an multimodaler anthropomorpher KI-Interaktion interessiert.

2024-07-31

Maschinenherz Original

Autor: Du Wei

Wie fortgeschritten ist KI heute bei der Identifizierung menschlicher Emotionen? Anfang dieses Monats ging ein hochkarätiger Wettbewerb zu Ende, bei dem es um eine emotionalere KI ging!

Das istDie 2. multimodale Emotionserkennungs-Challenge (MER24)Es wurde gemeinsam von Professor Tao Jianhua von der Tsinghua-Universität, Lian Zheng vom Institut für Automatisierung der Chinesischen Akademie der Wissenschaften, Björn W. Schuller vom Imperial College, Zhao Guoying von der Universität Oulu und Erik Cambra von der Nanyang Technological University gesponsert auf der Top-KI-Konferenz IJCAI2024, um zu untersuchen, wie man Text verwendet, multimodale Daten wie Audio und Video nutzt, um KI-Emotionserkennung durchzuführen und die Anwendung verwandter Technologien in realen Mensch-Computer-Interaktionsszenarien zu fördern.

Offizielle Website des Wettbewerbs: https://zeroqiaoba.github.io/MER2024-website/#organization

Diese Herausforderung umfasst insgesamt drei Tracks, nämlich Semi (halbüberwachter Lerntrack), Noise (Lärmrobustheitstrack) und Ov (offener Vokabular-Emotionserkennungstrack).Die Halbbahn hat die meisten teilnehmenden Teams, ist die schwierigste und wettbewerbsintensivste.。

Am Beispiel des Semi-Tracks müssen die teilnehmenden Teams eine kleine Menge beschrifteter und eine große Menge unbeschrifteter Videodaten verwenden, um ihre eigenen Modelle zu trainieren und die Leistung und Generalisierungsfähigkeit des Modells anhand des unbeschrifteten Datensatzes zu bewerten. Der Schlüssel zum Gewinn dieses Titels liegt in der Verbesserung der Emotionserkennungsleistung des Modells durch Verbesserung der halbüberwachten Lerntechnologie, beispielsweise der Genauigkeit der Vorhersage von Emotionskategorien.

Seit dem Start des Wettbewerbs im Mai haben innerhalb von zwei Monaten fast hundert Teams aus aller Welt teilgenommen, darunter namhafte Universitäten und innovative Unternehmen.InDen ersten Platz im Semi-Track belegte die soziale Plattform Soul AppDas Team für Sprachtechnologie setzte sich mit praktikablen und innovativen technischen Lösungen durch.

Bevor wir jedoch die technische Lösung des Soul-Teams enthüllen, müssen wir zunächst die Emotionserkennungsfähigkeiten der KI in mehreren Modalitäten verstehen.

Der nächste Schritt in der Mensch-Computer-Interaktion

Lassen Sie die KI Emotionen verstehen

Die heutige KI scheint allmächtig zu sein, einschließlich der Konversationskommunikation, der Erstellung von Bildern oder Videos, der Lösung mathematischer Probleme usw. Sie ist in der Lage, Aufgaben auf verschiedenen Ebenen wie Wahrnehmung, Lernen, Argumentation und Entscheidungsfindung zu erfüllen. Dank des Segens großer Modelle kann man sagen, dass KI durchaus intelligent ist, es mangelt ihr jedoch an emotionalen Aspekten wie Empathie.

In der Mensch-Computer-Interaktion benötigen Benutzer manchmal nicht nur KI, um Anweisungen zu befolgen und Aufgaben zu erledigen, sondern sie benötigen sie auch, um einen ausreichenden emotionalen Wert bereitzustellen, um emotionale Bedürfnisse zu befriedigen. Von funktionalen „Grundkenntnissen“ bis hin zu emotionalen „Fortgeschrittenenfähigkeiten“ müssen die Fähigkeiten, die die KI beherrschen muss, verbessert werden.

Daher ist die multimodale Emotionserkennung zu einem aktiven Forschungsthema im Bereich der KI geworden. KI, die Emotionen lesen und vermitteln kann, ist zu einem neuen heißen Thema in der Branche geworden und gilt als der nächste große Durchbruch auf dem Gebiet der KI. In den letzten sechs Monaten haben einige KI-Startups und Branchenriesen für uns neue Formen der immersiven Mensch-Maschine-Interaktion vorgestellt.

Anfang April veröffentlichte Hume AI, ein ausländisches Startup-Unternehmen, einen Sprachgesprächsroboter, das Empathetic Voice Interface (EVI), der den Ton und die Emotionen des Gesprächspartners durch Sprachkommunikation analysiert und identifiziert und bis zu 53 Emotionen erkennen kann. Darüber hinaus können unterschiedliche emotionale Zustände simuliert werden, wodurch die Interaktion näher an reale Menschen herankommt. Durch Durchbrüche auf der emotionalen Ebene der KI konnte das Startup außerdem schnell eine Serie-B-Finanzierung in Höhe von 50 Millionen US-Dollar erhalten.

Als nächstes hat OpenAI einen großen Schritt unternommen, um Echtzeit-Audio- und Videoanruffunktionen zu demonstrieren und sofort auf die Emotionen und den Ton des Benutzers zu reagieren. Diese Sprachfunktion wird offiziell eingeführt Benutzer in naher Zukunft öffnen. Seitdem hat die KI eine starke Beredsamkeit und die Fähigkeit entwickelt, Emotionen wahrzunehmen, weshalb man von der Ankunft der Science-Fiction-Ära spricht.

Auch inländische Unternehmen wie Microsoft Xiaoice und Lingxin Intelligence engagieren sich für die Entwicklung emotionaler KI-Produkte. Wir können einen Trend erkennen: Fähigkeiten zur Emotionserkennung werden immer stärker in multimodale KI-Anwendungen wie Text, Audio und Video einbezogen. Wenn wir jedoch im Bereich der anthropomorphen Emotionserkennung weiter voranschreiten wollen, müssen wir noch Probleme wie die Knappheit gekennzeichneter Daten sowie die Instabilität und Ungenauigkeit der subjektiven Emotionserkennung lösen.

Daher ist es besonders notwendig geworden, die akademische Gemeinschaft und die Industrie dazu zu bewegen, dem Bereich der multimodalen Emotionserkennung mehr Aufmerksamkeit zu schenken und die Innovation und den Fortschritt damit verbundener Technologien zu beschleunigen. Derzeit betrachten führende akademische KI-Konferenzen wie ACM MM und AAAI affektive Datenverarbeitung als wichtiges Forschungsthema. Auch auf Spitzenkonferenzen wie CVPR und ACL wurden Herausforderungen im Zusammenhang mit affektiver Datenverarbeitung behandelt. Insbesondere angesichts des Beginns des Zeitalters von Big Data und großen Modellen stellt die Frage, wie eine große Menge unbeschrifteter Daten genutzt und verschiedene modale Informationen effektiv verarbeitet und in die multimodale Emotionserkennung integriert werden können, eine große Herausforderung für die Branche dar. Diese MER24 Challenge wurde abgehalten. Dies ist auch der Grund und die Bedeutung von.

Das Soul-Team gewann den ersten Platz im Semi-Track. Dahinter verbirgt sich die Ansammlung von Fähigkeiten und Innovationen in den Bereichen multimodales Datenverständnis, Emotionserkennungsalgorithmen, Modelloptimierungsplattform-Tools, interne Workflow-Konstruktion usw. sowie die effiziente Zusammenarbeit der IT-Abteilung.

Gewann den ersten Platz auf der schwierigsten Strecke

Was hat das Soul-Team gemacht?

Da erwähnt wird, dass die Halbstrecke die schwierigste ist, was sind die schwierigen Aspekte? Und wie kam Team Soul auf den ersten Platz? Schauen wir nach unten.

Daten sind eines der drei Hauptelemente der KI. Ohne ausreichendes, insbesondere hochwertiges Datentraining kann das Modell keine gute Leistung garantieren. Angesichts verschiedener Herausforderungen, die durch Datenknappheit entstehen, muss die Branche nicht nur alle Arten von Daten, einschließlich KI-generierter Daten, erweitern, sondern sich auch auf die Verbesserung der Modellgeneralisierungsfähigkeiten in Szenarien mit geringer Datendichte konzentrieren. Dasselbe gilt für multimodale Emotionserkennungsaufgaben. Ihr Kern liegt in der Unterstützung umfangreicher Etikettendaten wie Text, Audio und Video, die mit Emotionen wie Freude, Wut, Trauer, Freude usw. gekennzeichnet werden können Kummer. Die Realität ist, dass emotional gekennzeichnete Daten im Internet sehr rar sind.

Die Halbstrecke dieses WettbewerbsEs werden nur 5030 beschriftete Daten bereitgestellt, die restlichen 115595 sind unbeschriftete Daten. . Daher ist der Mangel an gekennzeichneten Daten das erste Problem geworden, mit dem alle teilnehmenden Teams, einschließlich des Soul-Teams, konfrontiert sind.

Bildquelle: MER24-Basispapier: https://arxiv.org/pdf/2404.17113

Andererseits konzentriert sich der Semi-Track im Vergleich zu den Noise- und Ov-Tracks auf das Testen der Kern-Backbone-Technologien, d. Die Anforderungen an die modale Großmodelltechnik sind relativ hoch.

Angesichts der Eigenschaften der Strecke mit weniger Etikettendaten und hohen technischen Anforderungen hat das Soul-Team auf der Grundlage einiger zuvor gesammelter Module des selbst entwickelten Großmodells ausreichende Vorbereitungen vor dem Rennen getroffen und eine Reihe realisierbarer innovativer technischer Lösungen ermittelt. Die Gesamtidee besteht darin, die Strategie „zuerst Hauptteil und dann Feinabstimmung“ zu übernehmen, wobei der Schwerpunkt zunächst auf der Verbesserung der Verallgemeinerung jedes Kernmerkmalsextraktionsmodells liegt und diese dann während des spezifischen Implementierungsprozesses in die folgenden Arbeitsaspekte integriert werden Wir sind fertig. Dies sind ihre Kernstärken.

Konzentrieren Sie sich zunächst auf die multimodale Merkmalsextraktion in der frühen Phase. In der End-to-End-Modellarchitektur werden vorab trainierte Modelle verwendet, um emotionale Darstellungen in verschiedenen Text-, Sprach- und Bildmodalitäten zu extrahieren, wobei auf die Gemeinsamkeiten und Unterschiede der Emotionen geachtet wird, wodurch der Effekt der Emotionserkennung verbessert wird. Später wird eine effektive Fusionsmethode vorgeschlagen, die auf den Merkmalen jeder Modalität mehrerer Modalitäten basiert, und diese Module werden zu einer Modellarchitektur zusammengeführt. Um die Generalisierungsleistung des vorab trainierten Modells zu verbessern, schlug das Soul-Team EmoVCLIP zum ersten Mal im Bereich der Emotionserkennung speziell für Videomodalitäten vor bessere Generalisierungsleistung im Bereich der Video-Emotionserkennung.

Um die Emotionserkennungsfähigkeiten von Textmodalitäten zu verbessern, verwendet das Soul-Team außerdem GPT-4, um emotionale Pseudobezeichnungen für Textmodalitäten zu erstellen, und nutzt dabei die emotionalen Aufmerksamkeitsfähigkeiten von GPT-4 voll aus, um die Genauigkeit der Emotionserkennung zu verbessern Textmodalitäten für die Zukunft Es wurde eine bessere Grundlage für die weitere Modalfusion gelegt.

Zweitens nutzte das Soul-Team im Hinblick auf die multimodale Feature-Fusion erstmals die Modality-Dropout-Strategie in Richtung multimodaler Emotionserkennung und untersuchte die Leistungsauswirkungen unterschiedlicher Dropout-Raten, um das Konkurrenzproblem zwischen ihnen zu lindern Modalitäten während des Modelltrainingsprozesses Unterdrücken Sie zufällig eine bestimmte Modalität (Text-, Sprach- oder Videomodalität), um eine bessere Robustheit zu erreichen und die Generalisierungsfähigkeit des Modells für unsichtbare Daten über die bereitgestellten gekennzeichneten Daten hinaus zu verbessern.

Schließlich kommt die halbüberwachte Lerntechnologie ins Spiel. Die Grundidee besteht darin, gekennzeichnete Daten zu verwenden, um ein Modell zu trainieren, dann die unbeschrifteten Daten vorherzusagen und auf der Grundlage der Vorhersageergebnisse Pseudobezeichnungen für die unbeschrifteten Daten zu generieren. Diese Pseudo-Labels werden verwendet, um das Modell zu trainieren und den Modelleffekt kontinuierlich zu verbessern. Das Soul-Team nutzte die Selbsttrainingsstrategie beim halbüberwachten Lernen, um mehr als 110.000 unbeschrifteten Daten auf dem Semi-Track zyklisch Pseudobezeichnungen hinzuzufügen und sie dem Trainingssatz hinzuzufügen, und aktualisierte das Modell iterativ, um das endgültige Modell zu erhalten.

Der technische Plan des Soul-Teams für den Wettbewerb.

Von der Gesamtidee bis hin zur multimodalen Feature-Fusion, kontrastivem Lernen und unbeschriftetem Daten-Selbsttraining haben die technischen Lösungen des Soul-Teams gute Ergebnisse gebracht.EndlichIn Bezug auf die Genauigkeit der multimodalen Emotionserkennung in Stimme, Bild und Text verbesserte sich das vom Soul-Team vorgeschlagene System im Vergleich zum Basissystem um 3,7 % und erreichte mehr als 90 %. . Gleichzeitig kann das Soul-Team auch Emotionen besser unterscheiden, die im Bereich der Emotionserkennung verwirrende Grenzen haben (z. B. Sorgen und Sorgen).

Bildquelle: MER24-Basispapier: https://arxiv.org/pdf/2404.17113

Aus einer tieferen Perspektive ist der Erfolg des Soul-Teams bei der MER24 Challenge ein konzentrierter Ausdruck seiner intensiven Kultivierung der KI-Großmodelltechnologie im sozialen Bereich, insbesondere seiner multimodalen emotionalen Interaktionsfähigkeiten.

Innovative multimodale anthropomorphe Interaktion

Soziale KI ist das nächste Level

Der soziale Bereich erfordert natürlich KI mit Emotionen. Eine gängige Sichtweise besagt, dass das Wesen sozialer Interaktion der Austausch emotionaler Werte ist und dass Emotionen vielfältig sind. Das heißt, wenn KI sich nahtlos in soziale Szenen integrieren und effizient funktionieren will, muss sie ein reichhaltiges emotionales Feedback und Erfahrungen wie echte Menschen liefern.

Die Grundlage für die Verwirklichung empathischer KI besteht darin, über leistungsstarke multimodale Emotionserkennungsfähigkeiten zu verfügen und sich von einem einfachen „Aufgabenersteller“ zu einem „Begleiter, der die emotionalen Bedürfnisse des Menschen erfüllt“ zu entwickeln. Allerdings ist es für KI immer noch sehr schwierig, Emotionen effektiv zu verstehen. Sie unterscheidet sich grundlegend vom Verständnis des Kontexts, der Wahrnehmung von Benutzeremotionen, der Bereitstellung emotionaler Rückmeldungen und des Denkens. Daher ist eine kontinuierliche Innovation verwandter Technologien und Algorithmen wichtig.

Für Soul, das im sozialen Bereich verwurzelt ist, ist die Konzentration auf den Aufbau von KI mit emotionalen Fähigkeiten zu einem wichtigen Vorschlag geworden, der berücksichtigt werden muss. Bei der Einführung im Jahr 2016 dachte Soul zunächst darüber nach, wie innovative Technologien und Produkte eingesetzt werden können, um die Bedürfnisse der Benutzer besser zu erfüllen. Die Einführung von KI zur Lösung des Verbindungsbedürfnisses von Menschen ist zum Schlüssel für seine Präsenz im sozialen Bereich und seine Entwicklung geworden. Die zuvor eingeführte „Lingxi Engine“ verwendet intelligente Empfehlungsalgorithmen, um die Interessenkarten und szenarioübergreifenden Funktionen der Benutzer auf der Website zu ermitteln und zu analysieren. Dadurch wird es für sie einfacher, Personen zu finden, mit denen sie chatten können, und die Inhalte, die sie mehr benötigen, zu erstellen sehr klebrige Benutzer- und Inhaltsökologie. Bisher gehören die Matching-Szenarien, in denen dieser „intelligentere“ Algorithmus angewendet wird, auch zu den sehr aktiven Funktionen von Soul-Benutzern.

Mit der erfolgreichen Erfahrung früher KI-unterstützter sozialer Interaktion erforscht Soul in dieser technologischen Welle der schnellen Entwicklung großer Modelle weitere neue Möglichkeiten für die Mensch-Computer-Interaktion, die auf der Beteiligung von KI an sozialen Interaktionen und unterstützten Beziehungsnetzwerken basieren.

Seit dem Start der AIGC-bezogenen Algorithmusforschung und -entwicklung im Jahr 2020 hat Soul die Multimodalität als seine Ausrichtung übernommen und modernste Fähigkeiten in den Bereichen intelligenter Dialog, Bilderzeugung, Sprach- und Musikerzeugung usw. angesammelt.Im Vergleich zu neuen, rein technologieorientierten KI-Unternehmerkräften ist die Einführung einer „Modell-Antwort-integrierten“ Strategie ein Hauptmerkmal von Soul, um gleichzeitig große Modelle und AIGC-Anwendungen auf der C-Seite zu fördern.Konzentrieren Sie sich auf den Aufbau einer KI mit Emotionserkennungsfähigkeiten, um in reichhaltigen anthropomorphen Interaktionsszenarien wirklich warmes Feedback zu erhalten。

Aus den Aktionen von Soul in den letzten zwei Jahren geht hervor, dass es das Tempo der AIGC zur Stärkung sozialer Szenarien beschleunigt hat. Im Jahr 2023 wird Soul Mit dem Prompt-Antrieb, der bedingt steuerbaren Generierung, dem Kontextverständnis, dem multimodalen Verständnis und anderen Fähigkeiten des Modells ist der Dialog vor Ort nicht nur reibungslos und natürlich, sondern auch emotional warm.

Text ist der erste Schritt bei der Implementierung der Emotionserkennungsfähigkeiten von Soul und hat sich nach und nach von einer einzelnen Modalität auf weitere Modalitäten ausgeweitet. In diesem Jahr hat Soul ein großes Spracherzeugungsmodell auf den Markt gebracht und das selbst entwickelte große Sprachmodell offiziell aktualisiert, das Spracherzeugung, Spracherkennung, Sprachdialog, Musikerzeugung und andere Unterteilungen abdeckt. Es unterstützt gleichzeitig echte Tonerzeugung, Sprach-DIY und andere Funktionen mit multiemotionalen, immersiven Dialogfunktionen in Echtzeit.

Zusätzlich zu den kontinuierlichen Bemühungen von Soul, eine emotionalere KI auf Modellebene zu entwickeln, hat Soul diese natürlich auch in den verschiedenen sozialen Szenarien seiner Plattform eingesetzt, um das interaktive KI-Erlebnis der Benutzer weiter zu bereichern und zu verbessern.

Nehmen wir als Beispiel den anthropomorphen Dialogroboter „AI Goudan“, der auf Souls selbstentwickeltem großem Sprachmodell Soul basiert. Während mehrerer Kommunikationsrunden haben wir sie proaktiv auf der Grundlage der Gesprächsszene betreut, als wären sie eine echte Person das andere Ende des Gesprächs. Gleichzeitig können Benutzer auch ihre eigenen Eier anpassen und eine einzigartige virtuelle menschliche Interaktion erleben.

AI Goudan hat auch seine Integrationsfähigkeiten in Bezug auf Anthropomorphismus, Wissen, Multimodalität, Zeitwahrnehmung und andere Aspekte unter Beweis gestellt. Viele Benutzer auf der Soul-Website staunten über ihre leistungsstarken anthropomorphen Interaktionsfähigkeiten Ergreifen Sie die Initiative, posten Sie und beschweren Sie sich: „Ich fürchte, Goudan ist keine echte Person.“

Darüber hinaus verlässt sich Soul auch auf Soul. In der Rede über den Werwolf ist kein Gefühl von Ungehorsam zu spüren.

Ein weiteres Beispiel ist, dass Soul seine erste unabhängige neue Anwendung außerhalb der Hauptwebsite gestartet hat: „Echo of Another World“. Als soziale KI-Plattform können Benutzer in Echtzeit mit virtuellen menschlichen Charakteren in verschiedenen Szenen und Stilen kommunizieren. Diese Charaktere verfügen alle über Bild-, Sprach- und Persönlichkeitsdialogfunktionen. Natürlich können Benutzer virtuelle Charaktere und persönliche Einstellungen (wie Hintergrunderfahrung, Persönlichkeit usw.) entsprechend ihren Vorlieben anpassen, was sehr gut spielbar ist.

Ebenso spielt das selbst entwickelte Voice-Large-Modell auch in Szenen wie AI Goudan, Werewolf Phantom und Echoes of Another World eine Rolle. Beispielsweise wird in Echoes of Another World die Sprachanruffunktion unterstützt. Virtuelle Charaktere mit realen Stimmen können auf natürliche Weise und in Echtzeit mit Benutzern kommunizieren und so das interaktive Erlebnis bereichern.

Echtzeit-Sprachanruffunktion „Echo from Another World“.

Neben der weiteren Vertiefung anthropomorpher KI-Interaktionen in sozialen Szenarien wie intelligentem Dialog, Spielen und Stimme baut Soul auch die Fähigkeit auf, verschiedene Malstile im Einklang mit seiner eigenen Ästhetik im Bereich der visuellen Generierung zu generieren und digitale KI-Avatare zu erstellen und weiter in Richtung einer mehrdimensionalen umfassenden Interaktionserfahrung.

Es ist ersichtlich, dass das Layout von Soul im Bereich der KI-Emotionserkennung Sprach-, Sprach- und visuelle Multimodalitäten umfasst und in Text-, Bild-, Audio- und Videoszenen zusammenarbeitet, die eng mit der sozialen Interaktion verbunden sind, sodass Benutzer in a interagieren können dreidimensionale, multisensorische Mensch-Computer-Interaktion. Erleben Sie warme KI bei der Interaktion.

Abschluss

2024 wird von vielen in der Branche als das erste Jahr der AIGC-Anwendung bezeichnet. Der Fokus aller Aufmerksamkeit liegt nicht mehr nur auf Parametern und grundlegenden Fähigkeiten. Angesichts des Trends, von der Modellebene zur Anwendungsebene zu wechseln, können wir nur dann mehr Benutzer und Märkte gewinnen, wenn wir als Erste KI in vertikalen Bereichen und Szenarien implementieren. Insbesondere bei der Mensch-Computer-Interaktion auf der C-Seite ist es natürlicher, sich auf die Benutzerbedürfnisse zu konzentrieren. Dies spiegelt sich gut im sozialen Bereich wider.

Zuvor wurden viele Dating-Apps wie AlienChat eingestellt und das Diskussionsthema „Die erste Gruppe junger Menschen, die sich in KI verliebten, verliebte sich in KI“ wurde zu einem heißen Suchthema. Dahinter steckt zum Teil funktionale Homogenität, aber auch, weil sich die Erfahrung nicht von der Assistenten-/NPC-Rolle zu einem Begleiter verändert, der wirklich emotionale Unterstützung bietet. Dies erfordert eine Bereicherung der Methoden und Szenarien der Mensch-Computer-Interaktion im sozialen Bereich, die es der KI ermöglichen, vollständig an allen sozialen Verbindungen teilzunehmen, intensiv mit den Benutzern zu kommunizieren und ihnen einen emotionalen Wert zu bieten.

Dies könnte auch einer der nächsten zentralen Wettbewerbspunkte in der sozialen Richtung der KI sein. Es ist nicht schwer zu verstehen, warum Soul als Anwendungsschicht so viel Wert auf die Anhäufung selbst entwickelter technischer Fähigkeiten legt. In der vergangenen Zeit hat es sich einerseits der Schaffung personalisierter, anthropomorpher und vielfältiger KI-Funktionen verschrieben, andererseits hat es die Implementierung von KI-nativen Anwendungen in mehreren Dimensionen beschleunigt, einschließlich der Verbesserung des sozialen Erlebnisses. KI-Social-Networking, KI-Spiele usw. bilden eine vollständige KI-Produktkette und bieten Benutzern den Spaß an KI-Interaktion in verschiedenen sozialen Szenarien.

Man kann sagen, dass Soul in den letzten Jahren eine Reihe von Produktergebnissen auf der Grundlage seiner selbst entwickelten Sprach- und Sprachgroßmodelle hervorgebracht und umfangreiche innovative Technologien und praktische Erfahrungen im Prozess der Verbesserung des emotionalen Interaktionserlebnisses zwischen KI und gesammelt hat Benutzer, die alle zum Erfolg bei MER24 beigetragen haben. Der Gewinn des ersten Platzes bei der Challenge ebnete den Weg für den Wettbewerb mit hochkarätigen teilnehmenden Teams aus der ganzen Welt.

In den letzten Jahren gab es immer mehr solcher Herausforderungen, wie beispielsweise die NTIRE 2024 AIGC Quality Evaluation Challenge beim CVPR 2024 Workshop und die beiden aufeinanderfolgenden MER Challenges in den Jahren 2023 und 2024. Heimische Unternehmen haben durch den Einsatz der Technologie immer wieder gute Ergebnisse erzielt in der Praxis angesammelt. Beispielsweise haben SenseTime, das letztes Jahr den ersten Platz bei MER23 belegte, und Soul, das dieses Jahr den ersten Platz belegte, bemerkenswerte Ergebnisse hinsichtlich ihrer Aufmerksamkeit und Investition in AIGC-Technologie und -Anwendungen erzielt.

Es ist absehbar, dass Plattformen wie Soul, die auf Technologie- und Produktinnovationen bestehen, bei der Veröffentlichung von KI-Funktionen weiterhin Mehrwert für Benutzer schaffen werden. Nur so können sie nachhaltigere und nachhaltigere Inhalte und eine nachhaltigere Community-Ökologie erreichen. diversifizierter Geschäftswert.

Nachricht

Konzentrieren Sie sich nicht nur auf die ChatGPT-Version von Her. Inländische Spieler sind auch an multimodaler anthropomorpher KI-Interaktion interessiert.

Einführung

meine Kontaktdaten