GPT-4o repère les changements dans les contrats à terme, ce qui retient OpenAI

GPT-4o modifie les contrats à terme, qu'est-ce qui retient OpenAI ?

2024-07-17

La technologie RTC est l’une des clés de la popularité de l’IA en temps réel.

Auteur |
modifierJingyu |

Elle, passe du cinéma à la réalité.

En mai de cette année, OpenAI a publié le dernier grand modèle multimodal d'IA, GPT-4o. Par rapport au précédent GPT-4 Turbo, GPT-4o est deux fois plus rapide et deux fois moins cher. Le délai moyen d'interaction vocale IA en temps réel est de 2,8 secondes (GPT-3,5) à 5,4 secondes (GPT) par rapport à la version précédente. . -4), atteignant même 320 millisecondes - presque la même que la vitesse de réponse du dialogue humain quotidien.

Non seulement l'efficacité est améliorée, mais l'analyse émotionnelle dans les conversations est également devenue l'une des fonctionnalités de cette mise à jour du produit. Lors de la conversation avec l'hôte, l'IA peut entendre la « nervosité » lorsqu'il parle et fait des suggestions ciblées pour prendre une profonde respiration.

OpenAI, devient le « créateur » du silicium à l’ère des grands modèles.

Cependant, la conférence de presse a été choquante, mais la réalité était bien maigre. Après le lancement du produit, OpenAI, l'initiateur de cette révolution technologique à grande échelle, s'apparente progressivement à une entreprise « à terme ».

Après la sortie du GPT-4o polyvalent à faible latence, le lancement de la fonction audio et vidéo en temps réel est encore retardé ; le produit vidéo multimodal Sora est sorti, mais il a également été retardé.

Mais ce n'est pas seulement un problème pour OpenAI. Après la sortie de ChatGPT, il y a eu autant de versions nationales de ChatGPT que de carassins traversant la rivière. Cependant, il n'existe actuellement qu'un seul SenseTime 5.5 qui se compare réellement à GPT-4o, et. la progression est la même. Restez en version bêta ouverte dans le mois.

Pourquoi, lors de la conférence de presse, le grand modèle multimodal en temps réel n'est-il qu'à un pas de changer le monde, mais dans le processus de progression vers la productisation, il passe toujours du « spot » à l'« option » ?

Une nouvelle voix fait surface : dans un monde multimodal, la violence (algorithmique) n’a peut-être pas de miracles.

voix en temps réel,une pièce

Doit passer pardeVoie de commercialisation de l’IA

La maturité de la technologie permet à une nouvelle industrie de l’océan bleu de prendre progressivement forme.

Les données d'a16z, une institution de capital-risque bien connue de la Silicon Valley, montrent que parmi les 50 principales applications d'IA auprès d'utilisateurs mondiaux, 9 sont des produits complémentaires. Les données de la liste des produits AI montrent que le nombre de visites sur AI Companion en mai de cette année a atteint 432 millions, soit une augmentation d'une année sur l'autre de 13,87 %.

Une demande élevée, un taux de croissance élevé, un espace de marché important et le compagnonnage de l’IA entraîneront un double changement dans les modèles commerciaux et dans l’interaction homme-machine.

La maturité des entreprises oblige également à inverser le progrès technologique continu.En prenant uniquement le premier semestre de cette année comme nœud, la technologie vocale IA en temps réel a déjà subi trois itérations en seulement six mois.

Le produit représentatif de la première vague technologique est Pi.

En mars de cette année, la start-up Inflection AI a mis à jour son chatbot émotionnel Pi pour les utilisateurs individuels.

L'interface du produit Pi est très simple. La boîte de dialogue Texte + est l'interface interactive principale, mais elle ajoute également des fonctions vocales AI telles que la lecture vocale et les appels téléphoniques.

Pour réaliser ce type d'interaction vocale, Pi s'appuie sur la technologie vocale traditionnelle en trois étapes STT (Speech Recognition, Speech-to-Text) - LLM (Large Model Semantic Analysis) - TTS (Text To Speech). Il se caractérise par une technologie mature, mais une réponse lente, un manque de compréhension des informations clés telles que la tonalité et l'incapacité d'établir un véritable dialogue vocal en temps réel.

Un autre produit phare de la même période est Call Annie. Par rapport à Pi, Call Annie a une conception complète d'expérience d'appel vidéo. En plus de la conception de réponse et de raccrocher des appels, la fonction d'obéissance peut également être minimisée et basculée vers d'autres applications, et prend en charge plus de 40 paramètres de rôle de conversation.

Cependant, ils partagent tous des problèmes techniques communs : une latence élevée et un manque de couleur émotionnelle. En termes de latence, même l'OpenAI la plus avancée du secteur connaîtra un retard de 2,8 secondes (GPT-3,5) à 5,4 secondes (GPT-4).Sur le plan émotionnel, des informations telles que le ton, la hauteur et la vitesse de parole seront perdues au cours de l'interaction, et il sera impossible de produire des expressions vocales avancées telles que le rire et le chant.

Après cela, le représentant de la nouvelle vague technologique est un produit appelé EVI.

Ce produit a été lancé par Hume AI en avril de cette année et a rapporté à Hume AI 50 millions de dollars américains (environ 362 millions de yuans) en financement de série B.

En termes de conception de produits, Hume AI a lancé une fonction de terrain de jeu dans l'algorithme sous-jacent. Les utilisateurs peuvent choisir leurs propres configurations et grands modèles. En plus de la valeur par défaut officielle, ils peuvent également choisir Claude, GPT-4 Turbo, etc.Mais la différence est que la voix est porteuse d’émotion, il y a donc aussi des changements de rythme et d’intonation dans l’expression.

La réalisation de cette fonction repose principalement sur l'ajout du nouvel algorithme SST (théorie de l'espace sémantique, théorie de l'espace sémantique) au processus traditionnel en trois étapes STT-LLM-TTS. SST peut dessiner avec précision le spectre complet des émotions humaines grâce à une collecte de données approfondie et à des modèles statistiques avancés, révélant la continuité entre les états émotionnels humains, conférant à EVI de nombreuses caractéristiques anthropomorphiques.

Le prix du progrès émotionnel est le sacrifice supplémentaire du retard, le temps que l'utilisateur doit attendre pour parler à EVI est encore augmenté par rapport à Pi et Call Annie.

À la mi-mai, GPT-4o a été lancé et l'intégration de la technologie multimodale est devenue l'orientation technique de cette période.

Par rapport aux anciens produits d'interaction vocale en trois étapes, GPT-4o est un nouveau modèle formé de bout en bout sur le texte, les visuels et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal.

Le problème des retards a également été grandement amélioré. OpenAI a officiellement annoncé que l'interaction vocale en temps réel de GPT-4o peut répondre aux entrées audio avec une vitesse la plus rapide de 232 millisecondes et une moyenne de 320 millisecondes. Sur le plan émotionnel, l'interaction entre les utilisateurs et l'IA est devenue de plus en plus intelligente, avec des changements dans la vitesse de parole et la compréhension émotionnelle.

Au niveau du produit, il devient possible pour les humains de tomber amoureux de l’IA et pour l’IA de remplacer les aveugles dans leur vision du monde.

Character.ai, qui a récemment lancé la fonction d'appel vocal et est une nouvelle star accrocheuse dans la Silicon Valley en 2024, est devenu le plus grand bénéficiaire de cette vague technologique.

Sur Character.ai, les utilisateurs ont la possibilité d'envoyer des SMS avec des répliques de personnages d'anime, de personnalités de la télévision et de personnages historiques dans un jeu de rôle ultra-réaliste. Ce nouveau paramètre a entraîné une augmentation du nombre d'utilisateurs du produit. Selon les données de Similarweb, Character.ai peut gérer 20 000 requêtes d'inférence d'IA par seconde, et le nombre de visites en mai a atteint 277 millions.

Comparaison du trafic entre Character.ai et perplexity.ai｜Source de l'image : Similarweb

Dans le même temps, Microsoft, Google et d'autres ont officiellement annoncé que leurs grands modèles lanceraient des fonctions d'appel vocal en temps réel.

Cependant, la conception étanche des produits, dans la mise en œuvre réelle, montre toujours l'effet de mise en œuvre du déversement des crues des Trois Gorges - lors de la troisième vague, les produits compagnons de style presque "elle" lors de la conférence de presse ont tous changé dans la mise en œuvre réelle. est devenu un « plan » à lancer, sera lancé prochainement et est en cours de test interne.

Une conclusion incontestable est que l’audio et la vidéo en temps réel pourraient devenir la forme ultime d’interaction homme-machine.IAEn plus de la scène compagnon, des scènes telles que les PNJ intelligents, les enseignants parlés par l'IA et la traduction en temps réel devraient toutes exploser. Cependant, avant cela, comment résoudre le dernier kilomètre entre la « conférence de presse » et le lancement du produit. C'est le problème le plus difficile de l'industrie aujourd'hui.

Voix AI en temps réel,

Pas de miracle avec une grande force

IAVoix en temps réel « pas de miracles avec de grands efforts », un dicton pessimiste se répand tranquillement dans la Silicon Valley.

La résistance vient de tous les aspects de la technologie, de la réglementation et des affaires.

Le chef spirituel de l'opposition technique est Yann LeCun, le « père des réseaux convolutifs ».

Selon lui : par rapport aux divers algorithmes d'IA du passé, la plus grande caractéristique de la technologie des grands modèles est que « de grands efforts peuvent produire des miracles ». Grâce à l’alimentation du Big Data, ainsi qu’à la prise en charge matérielle de clusters informatiques dotés de centaines de millions de paramètres et de hautes performances, les algorithmes peuvent être utilisés pour traiter des problèmes plus complexes et atteindre une plus grande évolutivité. Cependant, nous sommes actuellement trop optimistes à l’égard des grands modèles, en particulier à l’idée que les grands modèles multimodaux pourraient être des modèles mondiaux, ce qui est encore plus absurde.

Par exemple, les gens ont cinq sens, qui constituent notre véritable compréhension du monde. LLM, qui est formé sur la base d'une grande quantité de textes Internet, manque d'observation et d'interaction avec le monde physique et manque de bon sens. Par conséquent, dans le processus de génération de vidéo ou de voix, il y aura toujours un contenu, des trajectoires de mouvement ou des émotions vocales apparemment fluides, mais un manque de réalisme. En outre, les limitations physiques strictes constituent également un problème. Face à l’augmentation de la taille des modèles et des dimensions d’interaction, les grands modèles actuels ne disposent pas d’une bande passante suffisante pour traiter ces informations.

niveau réglementaire,IALa parole en temps réel, c'est-à-dire le grand modèle de parole de bout en bout, est confrontée à un jeu entre technologie et éthique.

Dans le passé, le processus en trois étapes STT-LLM-TTS dans l'industrie vocale traditionnelle de l'IA était d'abord dû à une technologie immature. L'évolution vers un grand modèle vocal de bout en bout nécessite une mise en œuvre supplémentaire en termes d'architecture de modèle et de méthodes de formation. , et l'interaction multimodale. Dans le même temps, comme la voix elle-même est plus difficile à superviser que le texte, la voix de l’IA peut facilement être utilisée dans des scénarios tels que la fraude téléphonique, la pornographie et le spam marketing. Afin de faciliter la révision, le lien texte intermédiaire est également devenu nécessaire dans une certaine mesure.

Et au niveau des entreprises, La formation de gros modèles audio et vidéo de bout en bout nécessite une grande quantité de données YouTube et podcast pendant la phase de formation. Le coût est des dizaines de fois, voire plus élevé, que celui des modèles de formation de texte précédents. des millions de dollars.

Quant à ce type de coût, pour les entreprises d'IA ordinaires à l'heure actuelle, il est inutile de laisser tomber de l'argent du ciel. Elles doivent également payer pour les cartes informatiques d'IA haut de gamme de NVIDIA, le stockage gigabit et les droits d'auteur audio et vidéo inépuisables et sans risque. .

Bien entendu, qu'il s'agisse du jugement technique de Yang Likun, d'éventuelles difficultés réglementaires ou du dilemme des coûts de commercialisation, ce ne sont pas les problèmes fondamentaux de l'Open AI.

Rendre vraiment la classe GPT-4o en temps réelIALa raison fondamentale pour laquelle les produits d'interaction vocale ont évolué du spot au futur se situe au niveau de la mise en œuvre du projet.

GPT-4o pour démonstration avec câble réseau branché,

Il manque toujours une assistance RTC utile

Un secret tacite dans l'industrie est, classe GPT-4oIALes produits vocaux en temps réel, au niveau technique, ne représentent que la moitié de la bataille.

Lors du lancement de GPT-4o, alors qu'une faible latence était revendiquée, certains utilisateurs aux yeux perçants ont découvert que le téléphone mobile de la vidéo de démonstration était toujours branché avec un câble réseau.Cela signifie que la latence moyenne de 320 ms officiellement annoncée par GPT-4o est susceptible d'être une démonstration d'équipements fixes, de réseaux fixes et de scénarios fixes, et constitue un indicateur de laboratoire qui peut être atteint dans des conditions idéales.

La conférence de lancement GPT-4o d'OpenAI montre clairement que les téléphones mobiles sont branchés Source de l'image : OpenAI

où est le problème?

En le démontant du niveau technique, pour réaliser des appels vocaux IA en temps réel, les trois étapes au niveau de l'algorithme sont combinées en une seule, qui n'est qu'un des liens principaux. L'autre lien principal, le niveau de communication RTC, fait également face à une série. de défis techniques. Le soi-disant RTC peut être simplement compris comme la transmission et l'interaction de l'audio et de la vidéo dans un environnement réseau en temps réel. Il s'agit d'une technologie qui prend en charge la voix en temps réel, la vidéo en temps réel et d'autres interactions.

Chen Ruofei, responsable de la technologie audio chez Agora, a déclaré à Geek Park que dans les scénarios d'application réels, les utilisateurs ne peuvent généralement pas toujours se trouver dans des équipements fixes, des réseaux fixes et des environnements physiques fixes. Dans nos scénarios d'appels vidéo quotidiens, lorsque le réseau d'une partie est médiocre, les décalages et les délais de parole augmentent. Cette situation se produira également dans les appels vocaux en temps réel de l'IA, donc une transmission à faible latence et une excellente optimisation du réseau sont cruciales pour la transmission RTC.

De plus, l'adaptation multi-appareils, le traitement du signal audio, etc. sont également des aspects techniques qui ne peuvent être ignorés dans la mise en œuvre de la voix en temps réel de l'IA.

Comment résoudre ces problèmes ?

La réponse réside dans les dernières exigences de recrutement d'OpenAI, qui mentionne spécifiquement qu'elle souhaite recruter des ingénieurs talentueux pour les aider à déployer les modèles les plus avancés dans l'environnement RTC.

En termes de sélection de solutions spécifiques, la technologie RTC utilisée par GPT-4o est une solution open source basée sur WebRTC, qui peut résoudre certains retards au niveau technique, ainsi que la perte de paquets causée par différents environnements réseau, la sécurité du contenu de communication et problèmes de compatibilité multiplateforme.

Cependant, le côté B de l’open source est la faiblesse de la productisation.

Pour donner un exemple simple, concernant les problèmes d'adaptation multi-appareils, les scénarios d'utilisation RTC sont principalement représentés par les téléphones mobiles, mais les capacités de communication et de collecte sonore des différents modèles de téléphones mobiles varient considérablement : actuellement, les téléphones mobiles Apple peuvent atteindre un délai stable de environ des dizaines de millisecondes. Cependant, l'écosystème Android, qui est relativement complexe, compte non seulement de nombreux modèles, mais l'écart de performances entre les produits haut de gamme et bas de gamme est également assez évident pour certains modèles d'appareils bas de gamme. peut atteindre des centaines de millisecondes aux niveaux de la collecte et de la communication.

Pour un autre exemple, dans les scénarios d'application vocale en temps réel de l'IA, les signaux vocaux humains peuvent être mélangés avec du bruit de fond. Un traitement complexe du signal est nécessaire pour éliminer le bruit et l'écho afin de garantir une entrée vocale propre et de haute qualité, afin que l'IA puisse mieux comprendre les gens. .les mots prononcés.

La compatibilité multi-appareils et les capacités avancées de réduction du bruit audio sont également ce qui manque au WebRTC open source.

L'expérience de l'industrie constitue un goulot d'étranglement dans l'application de produits open source. Par conséquent, par rapport aux solutions open source, les grands fabricants de modèles et les fournisseurs professionnels de solutions RTC travaillent ensemble pour les peaufiner et les optimiser, ce qui, dans une certaine mesure, peut mieux représenter les tendances futures du secteur.

Dans le domaine du RTC, Agora est le fabricant le plus représentatif. Il était connu pour fournir la technologie audio à Clubhouse. Selon le site officiel d'Agora, plus de 60 % des applications de divertissement dans le monde choisissent le service RTC d'Agora. en plus d'entreprises nationales bien connues Outre des applications telles que Xiaomi, Bilibili, Momo et Xiaohongshu, il existe également Yalla, la plus grande plate-forme vocale sociale et de divertissement au Moyen-Orient et en Afrique du Nord, Kumu, le « roi du social live » Plateformes de diffusion » en Asie du Sud-Est, HTC VIVE, The Meet Group, Bunch, etc. partout dans le monde, des entreprises de renom ont adopté la technologie RTC d'Agora.

L’accumulation d’expériences industrielles et le développement de clients mondiaux sont une preuve supplémentaire de notre leadership technologique. Selon Chen Ruofei, le réseau de transmission en temps réel SD-RTN™ développé par SoundNet couvre plus de 200 pays et régions à travers le monde, et le délai mondial de bout en bout de l'audio et de la vidéo atteint en moyenne 200 ms. En réponse aux fluctuations de l'environnement réseau, la technologie de routage intelligent et l'algorithme de réseau anti-faiblesse de SoundNet peuvent garantir la stabilité et la fluidité des appels. Compte tenu des différences dans les équipements des terminaux, Shengwang a accumulé des centaines de millions d'applications préinstallées dans le monde et accumulé un savoir-faire pour s'adapter à des environnements complexes.

Outre le leadership technologique, l’expérience industrielle constitue une barrière invisible.

En fait, c’est la raison pour laquelle le paysage commercial du secteur des RTC est resté relativement stable au fil des années :Pour faire du bon travail au RTC, nous ne nous sommes jamais appuyés sur le modèle à grande échelle selon lequel « de grands efforts peuvent produire des miracles ».

La seule façon de parvenir à une optimisation ultime du délai vocal et à une commercialisation universelle de l’interaction vocale en temps réel passe par un travail accumulé et intensif au fil du temps.

Et de ce point de vue,IAL'interaction vocale en temps réel est une bataille qui ne doit pas être sous-estimée en termes d'imagination et de difficulté.

Son avenir : les algorithmes, les audits et le RTC doivent franchir tous les niveaux. Pour achever ce long chemin, nous devons non seulement lever les yeux vers le ciel étoilé de la technologie, mais aussi avoir les pieds sur terre en matière d’ingénierie.

*Source de l'image d'en-tête : Visual China

Cet article est un article original de Geek Park Pour une réimpression, veuillez contacter Geek Jun sur WeChat geekparkGO.

Geek a demandé

Quelles applications compagnons d’IA avez-vous utilisées ?？

Le secret du succès de Zuckerberg : ne vous laissez pas tromper par les films, personne ne sait comment le faire en premier lieu.

Aimez et suivezCompte vidéo Geek Park，

nouvelles

GPT-4o modifie les contrats à terme, qu'est-ce qui retient OpenAI ?

Introduction

mes coordonnées