La version GPT-4o « Her » est enfin là ! Raconter des blagues et miauler comme un chat, à quel point une petite amie IA peut-elle être sexy ?

2024-07-31

Nouveau rapport de sagesse

Editeur : Taozi a tellement sommeil

[Introduction à la nouvelle sagesse] La fonction vocale GPT-4o arrive enfin comme prévu, et la version science-fiction de Her devient réalité ! Certains internautes qui ont testé Grayscale sont devenus fous. Cependant, OpenAI ne propose actuellement que 4 voix prédéfinies. De plus, le jeton de sortie du nouveau modèle GPT-4o a également augmenté 16 fois pour atteindre 64K.

La promesse d'Ultraman s'est enfin tenue.

Avant la fin juillet, le mode vocal GPT-4o a finalement lancé les tests en niveaux de gris, et un petit nombre d'utilisateurs de ChatGPT Plus ont déjà obtenu des tickets d'adoption précoce.

Si vous voyez l'interface suivante après avoir ouvert l'application ChatGPT, félicitations pour être devenu l'un des premiers chanceux.

Selon OpenAI, le mode vocal avancé offre une conversation en temps réel plus naturelle, peut être interrompue à volonté et peut même détecter et répondre à vos émotions.

Il est prévu que tous les utilisateurs de ChatGPT Plus puissent utiliser cette fonctionnalité cet automne.

De plus, des fonctionnalités de partage de vidéo et d’écran plus puissantes seront lancées ultérieurement. Autrement dit, en allumant la caméra, vous pouvez discuter « face à face » avec ChatGPT.

Certains internautes concernés par les niveaux de gris ont commencé à tester les uns après les autres et ont découvert de nombreux cas d'utilisation du mode vocal GPT-4o.

Non, certaines personnes le laissent agir comme un « deuxième coach de langue étrangère » pour apprendre par eux-mêmes à pratiquer l'expression orale.

Dans l'enseignement suivant, ChatGPT a aidé les internautes à corriger la prononciation de Croissant (croissant) et Baguette (baguette française).

Dans le même temps, les jetons de sortie de GPT-4o ont augmenté 16 fois, passant des 4 000 jetons initiaux à 64 000 jetons.

Il s'agit du nouveau modèle bêta gpt-4o-64k-output-alpha qu'OpenAI a récemment lancé discrètement sur son site officiel.

Un jeton de sortie plus long signifie qu'environ 4 scénarios complets de longs métrages peuvent être obtenus en même temps.

Elle est venue

La raison pour laquelle la fonction vocale GPT-4o est disponible maintenant est qu'OpenAI a effectué des tests de sécurité et de qualité au cours des derniers mois.

Ils ont testé les capacités vocales de GPT-4o dans 45 langues avec plus de 100 membres de l'équipe rouge.

Pour protéger la vie privée des personnes, l'équipe a entraîné le modèle à parler en utilisant seulement 4 « voix par défaut ».

Ils ont également créé un système pour bloquer la sortie de sons autres que ces quatre-là.

De plus, le filtrage des contenus est également essentiel, et l'équipe a également pris des mesures pour empêcher la génération de contenus violents et liés au droit d'auteur.

OpenAI a annoncé son intention de publier début août un rapport détaillé sur les capacités, les limites et l’évaluation de la sécurité de GPT-4o.

Mesure réelle sur l'ensemble du réseau

Vous trouverez ci-dessous quelques cas de mode vocal GPT-4o partagés par les internautes.

ChatGPT peut effectuer du beatboxing.

ChatGPT a également raconté des blagues sur la bière sur des tons timides, en colère et encore plus en colère.

Certains internautes ont raconté une blague spécifiquement pour ChatGPT : "Pourquoi les scientifiques ne croient-ils pas en Adam-Atom, parce qu'ils inventent tout."

ChatGPT rit maladroitement.

Ce qui est encore plus drôle, c’est que ChatGPT a encore une façon d’apprendre à miauler.

Après quelques tests, quelqu'un a découvert que le mode vocal avancé de ChatGPT est très rapide et qu'il n'y a presque aucun délai de réponse.

Lorsqu'on lui demande d'imiter certains sons, il reproduit toujours les sons de manière réaliste. Et différents accents peuvent également être imités.

La vidéo ci-dessous montre la scène où l'IA agit en tant que commentateur d'un match de football.

ChatGPT raconte des histoires en chinois, qui sont également très vivantes.

Bien qu'OpenAI affirme que les fonctions de partage de vidéo et d'écran seront lancées plus tard, certains internautes l'ont déjà utilisé en premier.

Un internaute a un nouveau chat de compagnie. Il lui a construit un nid et lui a préparé de la nourriture, mais il ne savait pas quoi faire, alors il a demandé à ChatGPT.

Au cours de la conversation dans la vidéo, l’internaute lui a montré la maison du chat. Après l’avoir vu, ChatGPT a commenté : « Cela doit être très confortable » et s’est inquiété de l’état du chat.

Les internautes ont dit qu'il n'avait pas encore mangé et qu'il avait l'air un peu inquiet. ChatGPT a réconforté : "C'est normal. Il faut du temps aux chats pour s'adapter."

On peut voir que l'ensemble du processus de questions et réponses est très fluide, donnant aux gens le sentiment de communiquer avec de vraies personnes.

Les internautes ont également découvert la version japonaise de la console de jeu, mais ils ne parlent pas japonais.

À ce moment-là, il a montré l'interface du jeu à ChatGPT et lui a demandé de la traduire pour lui. Finalement, Hu a terminé le jeu ensemble.

Je dois dire qu'avec la bénédiction du mode visuel + vocal, ChatGPT est beaucoup plus puissant.

GPT-4o Long Output est silencieusement en ligne, avec une sortie jusqu'à 64K

De plus, GPT-4o, qui prend en charge une production de jetons plus importante, suivra.

Hier encore, OpenAI a officiellement annoncé qu'il fournirait aux testeurs la version GPT-4o Alpha, qui prend en charge la sortie jusqu'à 64 000 jetons par requête, ce qui équivaut à un roman de 200 pages.

Cependant, le prix du nouveau modèle a encore une fois fixé un nouveau plafond. Cela coûte 6 $ par million de jetons d'entrée et 18 $ par million de jetons de sortie.

Bien que le jeton de sortie soit 16 fois supérieur à celui du GPT-4o, le prix a également augmenté de 3 $.

Après une telle comparaison, le gpt-4o-mini est effectivement plus abordable !

Le chercheur Simon Willison a déclaré que les sorties longues sont principalement utilisées pour les cas d'utilisation de transformation de données.

Par exemple, pour traduire des documents d'une langue à une autre ou pour extraire des données structurées de documents, presque tous les jetons d'entrée doivent être utilisés dans le JSON de sortie.

Avant cela, le modèle de sortie le plus long qu'il connaissait était le GPT-4o mini, qui comptait 16 000 jetons.

Pourquoi lancer un modèle avec une sortie plus longue ?

De toute évidence, une sortie plus longue permet à GPT-4o de fournir une réponse plus complète et détaillée, ce qui est très utile dans certains scénarios.

Par exemple, écrire du code et améliorer l'écriture.

Il s'agit également d'un ajustement effectué par OpenAI sur la base des commentaires des utilisateurs selon lesquels un contenu de sortie plus long est nécessaire pour répondre au cas d'utilisation.

Différence entre contexte et sortie

Depuis son lancement, GPT-4o offre une fenêtre contextuelle maximale de 128 Ko. Pour GPT-4o Long Output, la fenêtre contextuelle maximale est toujours de 128 Ko.

Alors, comment OpenAI augmente-t-il le nombre de jetons de sortie de 4 000 à 64 000 tout en conservant la fenêtre de contexte globale de 128 Ko ?

En effet, OpenAI limitait initialement le nombre de jetons de sortie à un maximum de 4 000 jetons.

Cela signifie que les utilisateurs peuvent utiliser jusqu'à 124 000 jetons en entrée dans une seule interaction et ne peuvent obtenir que jusqu'à 4 000 jetons en sortie.

Bien entendu, vous pouvez également saisir plus de jetons, ce qui signifie que moins de jetons sont générés.

Après tout, la longueur du contexte long (128 Ko) y est fixée. Quelle que soit la façon dont l'entrée change, le jeton de sortie ne dépassera pas 4000.

Désormais, OpenAI limite la longueur du jeton de sortie à 64 000 jetons, ce qui signifie que vous pouvez générer 16 fois plus de jetons qu'auparavant.

Après tout, la production nécessite davantage de calculs et l’augmentation des prix est plus importante.

De même, pour le dernier GPT-4o mini, le contexte est également de 128 Ko, mais la sortie maximale a été augmentée à 16 000 jetons.

Ensuite, les utilisateurs peuvent fournir jusqu'à 112 000 jetons en entrée et finalement obtenir jusqu'à 16 000 jetons en sortie.

En général, OpenAI fournit ici une solution pour limiter le jeton d'entrée afin d'obtenir une réponse plus longue de LLM, plutôt que d'étendre directement la longueur du contexte.

Quant aux autres modèles du marché, le long a dépassé le million (Gemini), et le légèrement plus court a 200K (Claude) ; certains ont même des sorties de modèles qui ont atteint 200K, et OpenAI est toujours là.

Cela pose également un problème difficile aux développeurs : si vous souhaitez saisir plus, vous devez accepter moins de sortie ; si vous voulez plus de sortie, vous devez en saisir moins.

La façon de le mesurer dépend de celui que vous êtes prêt à sacrifier...

Les références:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

nouvelles