nouvelles

OpenAI déploie le mode vocal avancé pour certains utilisateurs de ChatGPT Plus

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

· De nouvelles fonctionnalités audio permettent aux utilisateurs de parler à ChatGPT et de recevoir immédiatement des réponses en temps réel, ou d'interrompre pendant que ChatGPT parle. Des fonctionnalités plus avancées telles que la vidéo et le partage d’écran seront introduites ultérieurement.

Le 31 juillet, OpenAI a annoncé le lancement du mode vocal avancé pour certains utilisateurs de ChatGPT Plus et prévoit de l'ouvrir à tous les utilisateurs de ChatGPT Plus à l'automne.

OpenAI pilote le développement d’une nouvelle génération d’assistants vocaux d’intelligence artificielle. La nouvelle fonctionnalité audio permettra aux utilisateurs de parler à ChatGPT et de recevoir immédiatement des réponses en temps réel, ainsi que d'interrompre ChatGPT pendant qu'il parle. Les modèles de parole distinguent les informations véhiculées par différentes intonations de parole. Cela semble plus naturel et utilise le son pour transmettre une variété d’émotions.

Le nouveau mode vocal est alimenté par le modèle GPT-4o d’OpenAI, qui combine les capacités vocales, textuelles et visuelles. Pour recueillir des commentaires, OpenAI déploie initialement des fonctionnalités vocales premium à un « petit groupe d'utilisateurs » de ChatGPT Plus, mais OpenAI indique qu'elles seront disponibles pour tous les utilisateurs de ChatGPT Plus cet automne.

OpenAI a retardé le lancement de l'expérience d'appel vocal de fin juin à juillet, affirmant qu'il faudrait du temps pour répondre aux normes de publication. OpenAI a déclaré avoir testé les capacités vocales de GPT-4o avec plus de 100 équipes rouges externes, couvrant 45 langues. La société a déclaré avoir intégré plusieurs mécanismes de sécurité, tels que la protection de la vie privée et empêcher que le modèle soit utilisé pour créer de fausses voix. Elle a travaillé avec des acteurs vocaux pour créer quatre voix prédéfinies qui n'imitent ni ne génèrent les voix d'autres personnes. . le son de.

Lorsque OpenAI a lancé GPT-4o pour la première fois, il a été confronté à des réactions négatives en raison de l'utilisation d'une voix appelée "Sky", qui ressemblait beaucoup à celle de l'actrice Scarlett Johansson. Scarlett Johansson a publié une déclaration disant qu'elle avait été contactée par OpenAI pour permettre au modèle d'utiliser sa voix, mais elle a refusé. OpenAI a nié qu'il s'agissait de la voix de Johnson, mais a suspendu l'utilisation de Sky.

OpenAI a également déclaré avoir adopté des filtres pour identifier et bloquer les demandes de génération de musique ou d'autres fichiers audio protégés par le droit d'auteur, et avoir appliqué les mêmes mécanismes de sécurité que ceux utilisés dans les modèles de texte à GPT-4o pour les empêcher de violer les lois et de générer du contenu préjudiciable. "Nous avons mis en place des garde-fous pour bloquer les demandes de contenu violent ou protégé par le droit d'auteur. De plus, des fonctionnalités plus avancées telles que la vidéo et le partage d'écran seront déployées à une date ultérieure."