nouvelles

Version PC Doubao "unboxed", du volume de la voix au dialecte

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Le 22 août, le Volcano Engine AI Innovation Tour s'est ouvert à Shanghai. L'événement a démontré l'amélioration du modèle de pouf en termes de notation complète, de reconnaissance vocale et d'autres aspects.Les capacités vocales sont au centre de cette version.

L'équipe du grand modèle se concentre sur l'interaction et la sortie en temps réel de l'IA conversationnelle Seed-ASR, cette réalisation peut être comparable au nouveau mode vocal avancé de ChatGPT publié par OpenAI le 31 juillet.

Les employés d'OpenAI ont pu interrompre le chatbot et lui demander de raconter l'histoire d'une manière différente, et le chatbot a pris leurs interruptions avec aisance et a ajusté ses réponses, selon des vidéos publiées sur les réseaux sociaux à l'époque.

Pour faire simple, il soutient « penser et parler »,Avoir une plus grande conscience du contexte, avoir ainsi une meilleure capacité de raisonnement et des résultats de réponse plus précis.

Ce qui est frappant, c'est quesac de haricotsRevendications de ses capacités d'élocutionPrend en charge une reconnaissance de modèlemandarinet le cantonais, le shanghaïen, le sichuan, le xi'an, le hokkien et d'autres dialectes chinois.

Cela me donne envie d'en parler à Hong Kong et au Sichuan.

Ensuite je vais le baser sur la version 1.19.5_macVersion PC Doubao AI,testLecture de texte AI et reconnaissance de capture d'écranAinsi que le récemment populaireVisualisation vidéo AI, reconnaissance du dialecte AIet d'autres fonctions,Voyez comment les poufs se comparent àDivers grands modèles d'IA en version WebQuelles nouveautés sont proposées.

Comme c’est l’ancienne règle, les amis anxieux peuvent faire défiler directement jusqu’au lien récapitulatif.

Compagnon de lecture de texte IA

Le premier est la lecture complémentaire du texte de l’IA.

J'ai ouvert une nouvelle, fait défiler jusqu'à la section résumé, sélectionné le paragraphe que je voulais aider et le pouf est automatiquement apparu.Rechercher, traduire, interpréter, copieret d'autres fonctions.

existerDécouvrez plus de compétencesParmi eux, se trouve la barre d'outils de délimitation des mots AI, qui dispose de 6 fonctions telles que l'abréviation, la correction et le polissage du texte, 3 fonctions telles que la rédaction de médias sociaux ou de scripts vidéo, et 4 fonctions telles que la génération de rapports hebdomadaires, d'OKR et de code. Correction d'erreurs. 6 items comprenant résumé des avantages et inconvénients, extraction des items de tâches, brainstorming, etc., plus ceux difficiles à classer,Il existe un total de 22 fonctions de module avec des paramètres supérieurs personnalisables.

J'ai choisi la demande la plus basique d'explication de Doubao. Après avoir attendu environ 25 secondes, j'ai obtenu le contenu suivant.

On peut voir que Doubao résume d'abord l'idée générale, suivie d'une explication populaire plus conversationnelle.Ce qui est frappant, c'est qu'il identifie et explique activement les noms propres du paragraphe de texte sélectionné, comme la « règle de Pareto » ci-dessus.

À ce stade, reste à voir si les 22 fonctions proposées par le module Doubao peuvent démontrer une compréhension plus approfondie en termes d'intelligence et de personnalisation.Mais ce qui est clair, c'est que lorsque le PC fonctionne en arrière-plan, je n'ai pas besoin de le copier et de le coller dans une autre fenêtre pour effectuer une recherche, ni même de choisir des noms propres à rechercher ou à poser des questions séparément.

Reconnaissance d'image IA

Lorsque j'ai pris une capture d'écran avec Beanbao, elle est apparueQuestions et réponses, traduction, pouf QQIl y a 3 éléments fonctionnels, j'ai donc choisi un problème de mathématiques au lycée et j'ai demandé à Doubao de le résoudre et de répondre aux questions.

Doubao fournit non seulement le processus de solution et la réponse à une question dans la zone de capture d'écran, mais propose également plusieurs questions similaires et leurs solutions.

Mais lorsque j'utilise Translate et Ask Doubao, non seulement je ne parviens pas à segmenter les phrases intelligemment, mais je fais aussi des erreurs fréquentes.

Compte tenu de la difficulté de reconnaissance d’image, je suis passé au texte en paragraphe, mais il n’y a eu aucune amélioration.

J'ai réessayéRenseignez-vous sur les poufs, subordonné àOrganisez le contenu principal dans l'imageetExtraire le texteJ'ai essayé les deux modules séparément.

Dans l’ensemble, les performances de la fonction principale d’organisation du contenu sont excellentes.Mais l'extraction du texte n'a même pas reconnu l'image complète, et il s'agissait toujours d'une police de caractères soigneusement agencée.

L'IA regarde des vidéos

La fonction de regarder des vidéos avec l'IA est actuellement limitée aux vidéos du site b et nécessiteOuvrir dans l'interface DoubaoEt connectez-vous au compte de la station B.

J'ai donc sélectionné au hasard le contenu de la troisième saison et de l'épisode 7 de "The Genre of Late Drinking", et après avoir attendu environ 20 secondes, j'ai obtenu le contenu suivant.

On peut voir que dans la chronologie des segments vidéo, la correspondance des images et du texte de l'IA n'est pas précise, maisFondamentalement, la segmentation du contenu peut être réalisée.

La vidéo est doublée en japonais avec des sous-titres chinois traditionnels, ce qui est probablement un peu gênant.

Il y a un résumé clair de l’idée principale au début de la vidéo, mais cela n’est pas clairement reflété dans le résumé textuel à droite. De plus, dans la section « Gratitude envers les autres », le personnage de la vidéo a remercié Mme Ozo au lieu de M. Ushida, ce qui est une erreur dans le résumé du pouf.

Reconnaissance du dialecte de l'IA

Selon l'annonce officielle, Doubao prend en charge le cantonais, le shanghaïen, le Sichuan, le Xi'an et le hokkien. Voyons ensuite si Doubao peut reconnaître mon cantonais cassé (il n'y a pas de dialecte natif, seulement le cantonais cassé provoqué par six mois de langue). vivant à Hong Kong), dans l'attente de partager davantage d'expériences autochtones ~).

Il n'y a aucun problème avec la reconnaissance linguistique. Doubao comprend « Je veux manger une fondue à base de porridge » et propose même une option de recherche « Où puis-je trouver une délicieuse fondue à base de porridge à Pékin ?, mais une fois le message envoyé, il est passé à l'interface de conversation de la recherche AI ​​et la réponse m'a été envoyée par texte au lieu de voix.

De plus, la saisie en dialecte n'est disponible que sur la page d'accueil, et je ne peux pas continuer à saisir en dialecte sur l'interface de conversation. Par conséquent, je dois revenir encore et encore à la page d'accueil, et chaque fois qu'un message est envoyé, une nouvelle fenêtre de page de navigation s'ouvrira. . .

Cependant, la possibilité de saisir des dialectes reste une avancée majeure et les performances globales ne sont pas satisfaisantes. Il est entendu que l'application Doubao prend en charge les réponses vocales.

J'ai essayé d'utiliser l'application mobileprononciation dialectaleLa même phrase a été saisie, Doubao a terminé parVoix mandarinM'a répondu et a fourni le terme de recherche sélectionné "Où puis-je trouver de délicieuses fondues de porridge à Pékin ?"

En d’autres termes, Doubao prend en charge la saisie dialectale, mais ne prend actuellement pas en charge l’interaction dialectale.Cette fonction est principalement utilisée dans des situations amusantes et professionnelles, telles que l'organisation de procès-verbaux de réunion pour les participants dans différentes langues.

Séance de synthèse

Dans mon imagination, il y a une poupée électronique IA sur le bureau, qui m'apporte une valeur émotionnelle comme mon chat et m'aide véritablement à gérer tout ce qui me concerne. Il est aussi simple de se réveiller que Siri, mais plus puissant que Siri.

La lecture de texte IA de Doubao peut être utilisée dans toutes les applications côté PC. Elle fournit 22 fonctions de module en plus du polissage de texte de base, elle a également un champ d'application basé sur des scénarios pour les animaux sociaux, les programmeurs et les travailleurs autonomes. a les fonctions de base que j'imaginais, mais il y a aussi beaucoup de place pour l'exploration et la croissance.

En termes de reconnaissance d'images, il est efficace pour résoudre des problèmes et répondre aux questions, ce qui équivaut aux gangs de devoirs et aux singes côté PC. Cependant, compte tenu de la base d'utilisateurs de PC, Doubao devrait faire des efforts approfondis en mathématiques avancées+. Après tout, les réponses aux questions et aux réponses aux devoirs et aux épreuves courantes sont plus rapides sur les téléphones mobiles. Ce n'est qu'avec les versions électroniques des questions ou des épreuves qu'il y aura une demande pour les PC.

Les fonctions de segmentation et de synthèse des vidéos IA sont très accrocheuses, en particulier pour les vidéos scientifiques populaires. Doubao a un grand potentiel. La thématique des sciences humaines et sociales constitue une problématique commune à tous les grands modèles.

En fait, le dialecte de l'IA est la fonctionnalité que j'attends le plus avec impatience,Après tout, "la prononciation locale reste inchangée et les poils sur les tempes s'estompent". Parfois, ma ville natale est une longue liste de menus, et parfois c'est le "ce goût" familier. Mais dans l’ensemble, l’écologie interactive dialectale de Doubao a encore du chemin à parcourir.

Le dialogue dialectal n’identifie pas seulement les sentiments locaux des citadins modernes. Plus important encore, la technologie pénètre l'écran froid et prend soin de ceux qui ne parlent pas le « chinois » universel. Ils écrivent une histoire silencieuse avec leur vie, mais sont souvent oubliés par l'histoire. Ils ont également besoin de l'IA et des avantages qui en découlent. .

Lorsque les dialectes passent de la reconnaissance à l’interaction, Doubao peut aussi aller plus loin.