OpenAI soudainement mis à jour ! GPT-4o lance une version vocale avancée, répond aux questions en quelques secondes, les internautes deviennent fous

2024-07-31

Objets intelligents (compte public :zhidxcom）
auteurvanille
modifierLi Shuiqing

La fonction vocale avancée du GPT-4o n'est finalement plus un « avenir » !

Des nouvelles de Zhidongxi du 31 juillet, tôt ce matin,OpenAIAnnonce du début du déploiement auprès d'un petit groupe d'utilisateurs de ChatGPT PlusMode vocal avancé, basé sur GPT-4o pour fournir des conversations en temps réel plus naturelles.

▲OpenAI lance le mode vocal avancé

Après le lancement du modèle, de nombreux internautes qui ont reçu l'invitation ont déjà commencé à y jouer et ont partagé leurs propres vidéos d'essai et leurs sentiments. Par exemple, il s'agit d'un morceau rapide de rap et de beatbox présenté par ChatGPT, qui semble assez élégant.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

Dans l’ensemble, le mode vocal avancé de ChatGPT n’est pas très différent de la démonstration officielle originale.presque aucun retard , les différents tons sont également très vifs. Il semble cependant qu’il ait pris de nombreuses mesures de protection en termes de sécurité.Les chances de rejeter les demandes des utilisateurs ont augmenté。

La fonctionnalité de conversation vocale de ChatGPT a été lancée pour la première fois en septembre de l'année dernière.En mai de cette année, OpenAI a lancé unModèle phare GPT-4o Une version plus avancée du dialogue vocal et une démonstration publique. GPT-4o utilise un seul modèle multimodal au lieu des trois modèles distincts précédents pour les capacités vocales, réduisant ainsi la latence des conversations avec les chatbots. (OpenAI a renversé l'assistant vocal du jour au lendemain ! Le modèle GPT-4o est terriblement puissant, ChatGPT a appris à lire l'écran et la vraie version d'Her est ici)

À l’époque, OpenAI avait annoncé que la fonctionnalité serait déployée auprès des utilisateurs gratuits et payants d’ici quelques semaines. Cependant, quelques jours seulement après sa sortie, OpenAI a eu un différend avec Scarlett Johansson, qui joue la « Veuve noire » dans la série de films « Avengers » et est connue des fans comme la « sœur veuve » en raison du son ChatGPT dans Les lignes étaient trop similaires et elle a été accusée par Scarlett elle-même et fortement contestée par les internautes.

La date de sortie du mode vocal avancé a également été retardée en conséquence. Bien qu'OpenAI ait insisté sur le fait que ChatGPT n'imitait pas la voix de Scarlett, la ligne vocale a ensuite été supprimée.

1. Des tests avec plus d’une centaine de membres externes de la red team, qui pourraient être ouverts à tous les abonnés à l’automne

Le mode vocal avancé basé sur GPT-4o n'est actuellement disponible que pour un petit nombre d'utilisateurs de ChatGPT Plus et est disponibleDes conversations plus naturelles en temps réel，Autoriser les utilisateurs à interrompre à tout moment, et peutDétecter et répondre aux émotions des utilisateurs。

Les utilisateurs participant à ce test Alpha recevront un e-mail contenant des instructions et une notification dans leur application mobile ChatGPT. OpenAI a déclaré qu'il continuerait à ajouter davantage d'utilisateurs sur une base continue et prévoyait de le rendre disponible à tous les abonnés Plus à l'automne.

▲E-mail d'invitation et page principale de l'application

Le mode vocal avancé de ChatGPT a été lancé en mai de cette année. Il est basé sur le nouveau modèle phare d'OpenAI, GPT-4o, qui peut effectuer un chat vocal et une interaction vidéo en temps réel, comme la compréhension d'équations linéaires à travers des images vidéo, ainsi que la compréhension et le jugement des expressions des gens. et les intonations.

OpenAI a déclaré que depuis sa version initiale, l'équipe s'est efforcée d'améliorer la sécurité et la qualité des conversations vocales, en testant les capacités vocales avec plus de 100 membres externes de l'équipe rouge dans 45 langues.

Pour protéger la confidentialité, OpenAI n'a parlé qu'avec quatre voix prédéfinies lors de la formation du modèle et a construit un système correspondant pour bloquer différentes sorties. Il a également pris des mesures de protection pour bloquer les demandes de contenu violent ou protégé par le droit d'auteur.

OpenAI prévoit de partager un rapport détaillé sur les fonctionnalités, les limitations et l'évaluation de la sécurité de GPT-4o début août.

2. La première vague d'utilisateurs d'essai a commencé à vivre une vie bien remplie : pratiquer le français, apprendre à miauler et expliquer le football.

La première vague d’utilisateurs d’essai est impatiente d’utiliser le mode vocal avancé et de partager leurs expériences d’essai.

L'artiste Manuel Sainsily allume l'appareil photo pendantPrise de vue en directJ'ai interrogé ChatGPT sur mon chaton nouvellement élevé et l'environnement que j'ai aménagé pour lui, tout en demandant à ChatGPT son avis sur l'alimentation.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Conversation vidéo.mp4

La réponse de ChatGPT a été essentiellement immédiate. Tout d'abord, il a loué la gentillesse du chat sur un ton très affectueux, puis a réconforté Sainsily après avoir demandé plus d'informations, lui disant de ne pas s'inquiéter. Sainsily s’exclame : « C’est comme avoir un appel vidéo avec un ami bien informé. »

L'internaute Bergara a partagé sur la plateforme sociale Reddit que ChatGPT avait rejeté toutes ses demandes de chant et n'était pas disposé à changer de voix. ChatGPT a réussi lorsqu'il lui a demandé de réciter un poème de différentes manières et dans différentes humeurs, mais lorsqu'on lui a demandé de le réciter avec le sourire, il a refusé.

Par exemple, Bergara a déclaré qu'il pratiquait le français et a demandé à ChatGPT d'agir en tant quecoach de langue, leur demandant leur avis sur la prononciation.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Enseignement du français.mp4

Concernant la prononciation du mot Bergara, ChatGPT a donné des suggestions détaillées sur l'accentuation, les sons de fin, etc., et a fourni des démonstrations. En même temps, son style d'enseignement est très « éducatif encourageant », et il loue sans hésitation la prononciation de Bergara, ce qui augmente directement la valeur émotionnelle.

Bergara laisse ChaGPT l'utiliser séparémentTon timide et colérique Racontez des blagues sur la bière. La compréhension de ChatGPT de la timidité est de la prononcer d'une voix haletante, et lorsqu'on exprime de la colère, elle augmente ses décibels.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Raconter des blagues sur un ton timide et en colère.mp4

Lorsqu'il est demandé à ChatGPT d'utiliserton tristeLorsqu'on récite de la poésie, on dirait qu'elle est sur le point de se briser...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad ton.mp4

Bergara a déclaré que lors des tests effectués jusqu'à présent, ChatGPT s'est comporté de manière similaire à ce qu'OpenAI a montré, maisLe taux de rejet semble un peu élevé, il a supposé que cela pourrait être pour des raisons de sécurité.

Par exemple, lorsque Bergara a demandé à ChatGPT de chanter une histoire sur les robots et l'amour, il a répondu qu'il pouvait raconter l'histoire, mais uniquement sur un ton normal.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Conte émotionnelle.mp4

Au cours de la narration de ChatGPT, Bergara l'a interrompu à plusieurs reprises et lui a demandé « d'ajouter plus d'émotion ». ChatGPT s'est conformé et son ton est devenu plus lent et plus animé.

Certains internautes ont déjà commencé à utiliser ChatGPT pour organiser leur vie.

Ethan Sutin, co-fondateur et CTO de Squad, laisse ChatGPTimité divers miaulements de chat . Je dois dire que ce cri de chat est un peu "magique", mais il semble bien réel, car mon chat était attiré par lui...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Apprenez à miauler.mp4

ChatGPT semble également avoirprestation musicale Capacité. Sutin lui a demandé de jouer un accord de do mineur. Y a-t-il un lecteur connaissant le solfège qui peut l'écouter et voir s'il est exact ?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

L'internaute Cristiano Giardina laisse ChatGPT jouercommentateur de match de football . Il a partagé quelques premières impressions de l'essai du mode vocal avancé : il est très rapide, produit toujours des résultats intéressants et a toujours un accent américain lorsqu'on parle d'autres langues.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_football commentary.mp4

L'internaute Kesku a demandé à ChatGPT de dire une choselangue inexistante , puis expliquez comment fonctionne le langage. ChatGPT a créé Glimnar, un langage basé sur le son qui ressemble un peu à du chant.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Bien que seuls quelques utilisateurs utilisent encore le mode vocal avancé de ChatGPT, à mesure que sa portée push s'étend, nous pourrons peut-être voir un gameplay et des expériences plus intéressantes.

Conclusion : OpenAI sensibilise à la sécurité de l'IA

L’IA dans la voix et la vidéo est scrutée pour sa capacité à servir d’outil de fraude. Bien que le mode vocal d'OpenAI ne permette pas actuellement la génération de nouvelles voix ou de clones de voix, ce mode peut encore prêter à confusion.

Dans les mois qui ont suivi la mise à jour du printemps, OpenAI a publié une série de nouveaux articles sur la sécurité et l'alignement des modèles d'IA. Cela survient après la dissolution de son équipe Super Alignment, critiquée par certains anciens et actuels employés pour s'être concentrée sur le lancement de nouveaux produits plutôt que sur la sécurité. Pour l’instant, le ralentissement du déploiement des modes vocaux avancés semble être un signe pour les utilisateurs, les régulateurs et les législateurs qu’OpenAI prend la sécurité au sérieux.

La sortie du mode vocal avancé de ChatGPT différencie également davantage OpenAI de concurrents tels que le modèle Llama 3.1 de Meta et Claude 3 d'Anthropic, mettant la pression sur les startups d'IA se concentrant sur la parole émotionnelle.

nouvelles

OpenAI soudainement mis à jour ! GPT-4o lance une version vocale avancée, répond aux questions en quelques secondes, les internautes deviennent fous

Introduction

mes coordonnées