nouvelles

Le mode vocal avancé de ChatGPT est en ligne : dès que vous parlez chinois, votre identité est révélée

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Sauce aux œufs, Xiaozhou

Le « Her » d’OpenAI est enfin ouvert à certaines personnes.



En mai de cette année, OpenAI a lancé son modèle phare de nouvelle génération GPT-4o et son application de bureau lors du « lancement d'un nouveau produit de printemps » et a démontré une série de nouvelles capacités.

Désormais, OpenAI a annoncé qu'il ouvrirait le mode vocal avancé de ChatGPT à un petit groupe d'utilisateurs de ChatGPT Plus, permettant aux utilisateurs d'obtenir pour la première fois la réponse audio ultra-réaliste de GPT-4o. Ces utilisateurs recevront une alerte dans l'application ChatGPT et recevront un e-mail contenant des instructions sur la façon d'utiliser l'application.

"Depuis notre première démonstration du mode vocal avancé, nous avons travaillé dur pour améliorer la sécurité et la qualité des conversations vocales et nous nous préparons à proposer cette technologie de pointe à des millions de personnes." OpenAI a déclaré que cette fonctionnalité serait progressivement disponible dans le système. automne 2024. Présenté à tous les utilisateurs de Plus.

Certains utilisateurs ont déjà publié les effets de l'utilisation du mode vocal avancé :

Source : https://x.com/tsarnick/status/1818402307115241608

Lorsque vous racontez des blagues avec ChatGPT, ChatGPT peut vous faire rire :

Source : https://x.com/yoimnotkesku/status/1818406786077970663

Grâce au mode vocal avancé de ChatGPT, « Her » peut créer une musique de fond tout en racontant des histoires et est disponible en plusieurs langues.

Source : https://x.com/yoimnotkesku/status/1818415019349901354

Le français, l'espagnol et l'ourdou sont également disponibles :

Source : https://x.com/yoimnotkesku/status/1818424494106853438

Mais l'expression chinoise n'est pas très authentique, comme un « cinglé tordu » qui apprend le chinois :

Source : https://x.com/yoimnotkesku/status/1818446895083139170

Tous ceux qui écoutaient étaient stupéfaits :



Le problème de l’accent ne se produit pas seulement en chinois, mais aussi en allemand :



Source : https://x.com/yoimnotkesku/status/1818445235606671670

Enfin, parlons d’un virelangue :

Source : https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI indique que le mode vocal avancé est différent de ce que propose actuellement ChatGPT.

L'ancienne solution de mode vocal de ChatGPT utilisait trois modèles distincts : un modèle convertissait la parole en texte, GPT-4 était responsable de la gestion des invites (invites) et un troisième modèle était responsable de la conversion du texte en parole de ChatGPT. GPT-4o est multimodal et peut gérer ces tâches sans l'aide de modèles auxiliaires, réduisant ainsi considérablement la latence des dialogues. OpenAI a également déclaré que GPT-4o peut détecter l'intonation émotionnelle de la voix de l'utilisateur, notamment la tristesse, l'excitation, etc.

En mai de cette année, OpenAI a démontré pour la première fois la fonction vocale de GPT-4o. « Sa » vitesse de réaction et l’étonnante similitude avec la voix d’une personne réelle ont choqué le public – et voici le problème.



La voix nommée "Sky" ressemble à Scarlett Johansson, qui joue l'assistante artificielle dans le film "Her".

Peu de temps après la démo d'OpenAI, Johnson a déclaré qu'elle avait résisté à plusieurs demandes du PDG d'OpenAI, Sam Altman, d'utiliser sa voix et qu'elle avait engagé un conseiller juridique pour défendre sa voix après avoir vu la démo de GPT-4o. OpenAI a nié avoir utilisé la voix de Scarlett Johansson, mais a également supprimé la voix de la démo.

En juin, OpenAI a annoncé qu'elle retarderait la sortie d'un mode vocal avancé afin d'améliorer ses mesures de sécurité.

Après une longue attente, « Elle » a finalement rencontré tout le monde. OpenAI a déclaré que le mode vocal avancé lancé cette fois sera limité à ChatGPT, qui a collaboré avec des acteurs vocaux payants pour produire quatre voix prédéfinies : Juniper, Breeze, Cove et Ember.

Il convient de noter qu'il n'existe que ces quatre types de sons de sortie : la voix Sky présentée dans la démonstration d'OpenAI en mai n'est plus disponible pour ChatGPT. "ChatGPT ne peut pas usurper l'identité des voix d'autrui, y compris celles d'individus et de personnalités publiques, et bloquera les sorties qui diffèrent de l'une de ces voix prédéfinies", a déclaré Lindsay McCallum, porte-parole d'OpenAI.

L’intention initiale de cette configuration est d’éviter la controverse Deepfake. En janvier de cette année, la technologie de clonage vocal de la start-up d’intelligence artificielle ElevenLabs a été utilisée pour usurper l’identité du président américain Biden et tromper les électeurs des primaires du New Hampshire, provoquant une controverse considérable.

OpenAI a également déclaré avoir introduit de nouveaux filtres pour bloquer certaines demandes de génération de musique ou d'autres fichiers audio protégés par le droit d'auteur.

L'année dernière, de nombreuses sociétés d'IA de génération d'images et de génération de musique ont été confrontées à des litiges juridiques en raison de violations de droits d'auteur. En particulier, les maisons de disques qui aiment intenter des poursuites ont poursuivi les générateurs audio d'intelligence artificielle Suno et Udio. Et les modèles audio comme le GPT-4o ajoutent une toute nouvelle catégorie d’entreprises pouvant déposer des plaintes.

OpenAI aurait testé les capacités vocales de GPT-4o avec plus de 100 membres externes de « l'équipe rouge » dans 45 langues. Ces informations clés seront annoncées plus en détail dans un rapport sur les fonctions, les limites et l'évaluation de la sécurité de GPT-4o en août.

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-rated-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant