Le « Her » d’OpenAI est difficile à réaliser. Qu’est-ce qui le retient ?

2024-07-27

Mengchen vient du temple Aofei
Qubits | Compte public QbitAI

Deux mois et deux semaines se sont écoulés et nous n'avons toujours pas vu la version rendue publique d'OpenAI "Her".

Le 14 mai, OpenAI a publié GPT-4o etMode de conversation audio et vidéo en temps réel de bout en bout, démonstration en direct d'un dialogue d'IA aussi fluide que les êtres humains.

Il peut détecter votre rythme respiratoire et répondre en temps réel avec un ton plus riche qu'auparavant. Il peut même interrompre l'IA à tout moment, et l'effet est incroyable.

Mais comme tout le monde l'attend avec impatience, de temps en tempsrepousserla nouvelle est tombée.

Qu’est-ce qui retient OpenAI ? Selon les informations connues :

avoirLitiges juridiques, pour s'assurer que le timbre de la voix ne suscitera pas à nouveau la polémique comme la "soeur veuve" Scarlett Johansson.

Il y a aussiquestion de sécurité, doivent être correctement alignés, et les conversations audio et vidéo en temps réel ouvriront de nouveaux scénarios d'utilisation, et l'utilisation comme outil de fraude en fera également partie.

Cependant, outre ce qui précède, y a-t-il des problèmes et des difficultés techniques à surmonter ?

Après l’excitation initiale, les experts ont commencé à regarder vers la porte.

Les internautes aux yeux perçants l'ont peut-être remarqué,Lors de la démonstration lors de la conférence de presse, le téléphone portable était branché avec un câble réseau.。

Aux yeux des initiés de l'industrie, la démonstration de la conférence GPT-4o s'est déroulée sans problème, mais il existe encore plusieurs limites :

besoin"Réseau fixe, équipements fixes, environnement physique fixe"。

Après sa diffusion au public, on ne sait toujours pas si les utilisateurs du monde entier pourront vivre une expérience qui ne sera pas compromise par rapport à la conférence de presse.

Il y avait un autre détail intéressant lors de la conférence de presse, celui du beau chercheur Barret Zoph.ChatGPT a été utilisé comme tableau lors de la démonstration d'un appel vidéo。

Le retard dans la partie appel vidéo est évident.La partie vocale de la question a été traitée et la partie visuelle est toujours en train de traiter le plan précédent., qui est la table en bois capturée par la caméra lorsque le téléphone vient d'être décroché.

Imaginez combien de personnes l’utiliseront après sa sortie finale ?

L'un des cas les plus évoqués dans la vidéo promotionnelle, où un aveugle a fait signe à un taxi avec l'aide de la voix de l'IA, a été immédiatement évoqué par les internautes.

Cependant, il convient également de noter qu'il s'agira d'unScénarios qui reposent fortement sur des fonctionnalités à faible latence, si le guidage de l'IA arrive un peu plus lentement, le taxi passera.

La stabilité du signal réseau dans les scènes extérieures peut ne pas être garantie, sans parler des scènes telles que les aéroports, les gares et les attractions touristiques où de nombreuses personnes et appareils occupent la bande passante, la difficulté augmentera donc considérablement.

aussi,Il y aura également des problèmes de bruit dans les scènes extérieures。

Les grands modèles sont intrinsèquement troublés par le problème de « l'illusion ». Si le bruit affecte la reconnaissance de la voix de l'utilisateur et que des mots sans rapport avec les instructions apparaissent, alors la réponse ne sera pas claire.

Enfin, il existe un autre problème qui passe facilement inaperçu.Adaptation multi-appareils。

On peut voir que la conférence OpenAI actuelle et les vidéos promotionnelles utilisent toutes le nouvel iPhone Pro.

Il faudra attendre la sortie officielle pour savoir si la même expérience peut être obtenue sur les modèles bas de gamme.

OpenAI promeut que GPT-4o peut être utilisé dansAussi court que 232 millisecondes, en moyenne 320 millisecondespour répondre à une entrée audio dans un délai cohérent avec la rapidité avec laquelle les humains réagissent dans une conversation.

Mais il ne s’agit que du temps écoulé entre l’entrée et la sortie du grand modèle, et non de l’ensemble du système.

Dans l'ensemble, en faisant simplement du bon travail en matière d'IA, il n'est toujours pas possible de créer une expérience fluide comme "Elle". Cela nécessite également une série de capacités telles qu'une faible latence, une adaptation multi-appareils et une capacité à gérer. diverses conditions de réseau et environnements bruyants.

L’IA seule ne peut pas créer « Elle »

Pour obtenir une faible latence, une adaptation multi-appareils, etc., nous nous appuyons surRTC(Communications en temps réel, communications en temps réel).

Avant l'ère de l'IA, la technologie RTC était largement utilisée dans les diffusions en direct, les vidéoconférences et d'autres scénarios, et son développement était relativement mature.

Du point de vue de RTC, les mots d'invite vocale de l'utilisateur doivent passer par un ensemble de processus complexes avant d'être saisis dans le grand modèle.

Acquisition et prétraitement du signal :Sur les appareils finaux tels que les téléphones mobiles, la voix de l'utilisateur est collectée dans des signaux originaux et traitée comme la réduction du bruit et l'élimination de l'écho pour préparer la reconnaissance ultérieure.

Codage et compression de la parole : Afin d'économiser autant que possible la bande passante de transmission, le signal vocal doit être codé et compressé. Dans le même temps, certains mécanismes de redondance et de correction d'erreurs doivent être ajoutés de manière adaptative en fonction des conditions réelles du réseau pour résister à la perte de paquets réseau.

transmission réseau : Les données vocales compressées sont divisées en paquets de données et envoyées vers le cloud via Internet. Si la distance physique entre le serveur et le serveur est longue, la transmission doit souvent passer par plusieurs nœuds, et chaque saut peut introduire des retards et des pertes de paquets.

Décodage et restauration vocale :Une fois que le paquet de données atteint le serveur, le système le décode et restaure le signal vocal d'origine.

Finalement, ce fut au tour de l’IA d’agir.Ce n'est qu'en convertissant d'abord le signal vocal en jetons via le modèle d'intégration que le grand modèle multimodal de bout en bout pourra comprendre et générer des réponses.

Bien entendu, une fois que le grand modèle a généré une réponse, il doit passer par un ensemble de processus inverses, puis le signal audio de la réponse est finalement retransmis à l'utilisateur.

Chaque étape de l’ensemble du processus nécessite une optimisation extrême pour parvenir réellement à un dialogue audio et vidéo IA en temps réel.

Parmi eux, la compression, la quantification et d'autres méthodes du grand modèle lui-même affecteront après tout les capacités de l'IA, donc une optimisation conjointe combinée à des facteurs tels que le traitement du signal audio et la perte de paquets réseau est particulièrement importante.

Il est entendu qu'OpenAI n'a pas résolu ce problème de manière indépendante, mais a choisi de coopérer avec un tiers.

Les partenaires sontLiveKit, fournisseur RTC open source, qui devient actuellement le centre d'intérêt de l'industrie avec sa prise en charge du mode vocal ChatGPT.

En plus d'OpenAI, LiveKit a également coopéré avec des sociétés d'IA liées telles que Character.ai et ElevenLabs.

Peut-être qu'à l'exception de quelques géants tels que Google qui disposent d'une technologie RTC auto-développée relativement mature,La coopération avec des fabricants RTC spécialisés dans l’industrie est actuellement le choix courant pour les lecteurs de dialogue audio et vidéo en temps réel IA.。

Bien entendu, cette vague implique également la participation d'acteurs nationaux. De nombreuses entreprises nationales d'IA accélèrent déjà le développement de grands modèles multimodaux de bout en bout et d'applications de dialogue audio et vidéo en temps réel.

Les applications nationales d’IA peuvent-elles rattraper les résultats d’OpenAI, et quand chacun pourra-t-il réellement en faire l’expérience par lui-même ?

Étant donné que ces projets n’en sont qu’à leurs débuts, peu d’informations ont été divulguées publiquement, mais leurs partenaires du RTCréseau sonoreC’est devenu une percée.

Qubit a demandé à Sound Network,Avec le niveau technologique national actuel, le délai d'un cycle de dialogue peut être réduit à environ 1 seconde., associé à davantage de techniques d'optimisation, ce n'est plus un problème d'obtenir des conversations fluides pouvant répondre en temps opportun.

Pour bien faire du RTC, l'IA n'est pas seulement "Elle"

Qui est SoundNet ?

Une entreprise représentative du secteur RTC, devenant le premier fournisseur mondial de services cloud interactifs en temps réel en 2020.

La première fois que SoundNet s'est retiré de l'industrie, c'est parce qu'il fournissait un support technique à Clubhouse, une application sociale audio à succès.

En fait, de nombreuses applications bien connues telles que Bilibili, Xiaomi et Xiaohongshu ont choisi la solution RTC d’Agora, et les activités à l’étranger se sont également développées rapidement ces dernières années.

Alors, pour les applications de dialogue audio et vidéo en temps réel de l'IA, comment résoudre spécifiquement les difficultés de faible latence et d'adaptation multi-appareils, et quels effets peuvent être obtenus ?

Nous avons invitéZhong Sheng, scientifique en chef et directeur technique de Shengwangpour répondre à cette question.

Selon Zhong Sheng, l’inférence de grand modèle n’est pas calculée ;Dites simplement que le temps nécessaire à un signal pour aller et venir sur une ligne réseau peut déjà être de 70 à 300 millisecondes.。

Plus précisément, nous nous concentrons principalement sur l’optimisation sous trois aspects.

d'abord,Shengwang a construit plus de 200 centres de données dans le monde et les emplacements choisis lors de l'établissement des connexions sont toujours les plus proches des utilisateurs finaux.

Combiné à une technologie de routage intelligente, lorsqu'une certaine ligne est encombrée, le système peut sélectionner automatiquement d'autres chemins avec un meilleur délai et une meilleure bande passante pour garantir la qualité de la communication.

Si la transmission entre régions n’est pas impliquée, la durée de bout en bout peut être inférieure à 100 ms. Si cela inclut plusieurs régions, comme de la Chine aux États-Unis, cela prendra probablement 200 à 300 ms.

deuxième, Shengwang, fondée en 2014, analyse divers scénarios de réseau faible grâce à l'exploration de données basée sur la quantité massive de données de scènes réelles accumulées au fil des ans, puis les reproduit en laboratoire. Cela fournit une « plage de tir » pour optimiser l'algorithme de transmission afin qu'il puisse faire face à des environnements de réseau complexes et changeants ; il peut également apporter des ajustements en temps opportun à la stratégie de transmission lorsqu'un mode de réseau faible correspondant se produit pendant la transmission en temps réel pour effectuer la transmission. plus lisse.

troisième, Pour les industries verticales et les tâches spécifiques, Shengwang tente également de personnaliser des modèles avec des paramètres plus petits afin de compresser le temps de réponse des grands modèles. Les capacités extrêmes des grands modèles linguistiques et des modèles vocaux d’une taille spécifique sont des directions à explorer, qui sont essentielles pour optimiser la rentabilité et l’expérience à faible latence de l’IA conversationnelle ou des chatbots.

enfin, Le SDK RTC développé par Shengwang est également adapté et optimisé pour différents terminaux, en particulier pour certains modèles bas de gamme, qui peuvent atteindre une faible consommation d'énergie, une faible utilisation de la mémoire, une taille de boîtier extrêmement petite, etc. En particulier, les capacités côté appareil de réduction du bruit vocal, d’annulation d’écho et d’amélioration de la qualité vidéo basées sur des algorithmes d’IA peuvent affecter directement la portée et l’effet du chatbot IA.

Zhongsheng a également introduit que dans le processus d'exploration de la combinaison de la technologie RTC et de la technologie des grands modèles, la portée de la technologie RTC elle-même évolue également.

Il a cité certaines de ses orientations de réflexion, telles que le passage de la transmission de signaux audio à la transmission de jetons pouvant être directement compris par de grands modèles, et même la mise en œuvre de la parole en texte (STT) et de la reconnaissance des émotions à la fin, de sorte que seuls le texte et des informations associées peuvent être transmises.

De cette manière, davantage de processus de traitement du signal peuvent être placés du côté final et le modèle d'intégration qui nécessite moins de puissance de calcul peut être placé plus près de l'utilisateur, réduisant ainsi les besoins en bande passante de l'ensemble du processus et le coût du modèle cloud.

À partir de là, Zhong Sheng estime que la combinaison finale de la technologie IA et RTC évoluera vers l'intégration des appareils et des nuages.

Autrement dit, vous ne pouvez pas vous fier entièrement aux grands modèles dans le cloud. Ce n’est pas le meilleur choix en termes de coût, de consommation d’énergie et de latence.

Du point de vue de l'intégration finale du cloud, l'ensemble de l'infrastructure doit évoluer en conséquence. La puissance de calcul n'est pas seulement dans le cloud, mais la puissance de calcul des téléphones mobiles sera également utilisée. Les nœuds de transmission en périphérie distribueront également la puissance de calcul, et le protocole de transmission des données changera également en conséquence...

À l'heure actuelle, Agora et les fabricants d'applications de grands modèles ont compris commentTrois modèles de coopération, c'est-à-dire les différents modes d'alimentation des trois parties de l'ensemble du système : grand modèle, RTC et serveur cloud :

Déploiement privé :Shengwang fournit uniquement le SDK RTC, qui est déployé avec de grands modèles dans les propres centres de données des partenaires. Il convient aux entreprises disposant de grands modèles auto-développés ou d'une infrastructure d'inférence de grands modèles.
Plateforme cloud Shengwang : Shengwang fournit des ressources de SDK RTC et de serveur cloud, et les développeurs peuvent sélectionner de manière flexible des modèles, des emplacements de déploiement et des ressources informatiques en fonction de leurs besoins. Il n'est pas nécessaire de créer votre propre infrastructure et vous pouvez rapidement créer des applications vocales IA.
Solution de bout en bout Agora : Shengwang fournit de grands modèles auto-développés, un SDK RTC et des ressources de serveur cloud. Les modèles verticaux peuvent être personnalisés pour des secteurs segmentés tels que l'éducation, le commerce électronique, le divertissement social, le service client, etc., et sont profondément intégrés aux capacités RTC pour fournir des solutions d'interaction vocale intégrées.

De plus, dans les projets de coopération existants, la candidature la plus rapide n'est pas loin de rencontrer tout le monde.

Dans la communication avec Acoustic Network, il existe une autre nouvelle tendance dans la découverte de qubits digne d'attention :

Les applications nationales de l'IA dépassent progressivement la portée des questions et réponses des assistants IA et de la compagnie émotionnelle de l'IA.

Prenez des secteurs tels que le divertissement social, la diffusion en direct du commerce électronique et l’éducation en ligne. Ce à quoi tout le monde prête le plus d’attention, ce sont les présentateurs célèbres d’Internet et les enseignants célèbres. Les personnes numériques pilotées par le dialogue audio et vidéo en temps réel de l'IA peuvent devenir leurs « clones numériques » et interagir davantage en tête-à-tête avec chaque fan ou étudiant. Dans le même temps, le temps et l'énergie de l'utilisateur sont également limités, et ils n'ont aucune compétence pour se diviser en plusieurs tâches, et ils ont également besoin de leurs propres clones d'IA. Avec le développement de la technologie, l'amélioration de l'expérience technologique des avatars IA et la réduction des coûts, leur champ d'application s'élargira de plus en plus.

Prenez les mots de Zhong Sheng : « La chose la plus rare pour les êtres humains est le temps » :

Nous devons tous vivre cette expérience. Et si deux réunions entrent en conflit et que nous ne pouvons assister qu'à une seule ?

Vous pouvez participer vous-même à l’un d’entre eux et envoyer un assistant IA à un autre événement pour rapporter des informations intéressantes. À l'avenir, cet assistant pourra même être votre propre avatar IA. Pendant l'activité, vous pourrez effectuer des communications personnalisées, poser ou répondre à diverses questions en fonction de vos propres intérêts et préoccupations, et interagir avec d'autres personnes ou avec les avatars d'autres personnes.

Par conséquent, le dialogue audio et vidéo en temps réel de l'IA peut faire bien plus que simplement « Elle ».

nouvelles

Le « Her » d’OpenAI est difficile à réaliser. Qu’est-ce qui le retient ?

Introduction

mes coordonnées