noticias

Versión para PC de Doubao "sin caja", desde el volumen de voz hasta el dialecto

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

El 22 de agosto, se inauguró en Shanghai el Tour de innovación en IA de Volcano Engine. El evento demostró la mejora del modelo de puf en puntuación integral, reconocimiento de voz y otros aspectos.Las capacidades de voz son el foco de esta versión.

El gran equipo modelo se centra en la interacción y la producción en tiempo real de la IA conversacional. Seed-ASR, este logro puede ser comparable al nuevo modo de voz avanzado de ChatGPT lanzado por OpenAI el 31 de julio.

Los empleados de OpenAI pudieron interrumpir el chatbot y pedirle que contara la historia de una manera diferente, y el chatbot tomó sus interrupciones con calma y ajustó sus respuestas, según videos publicados en las redes sociales en ese momento.

En pocas palabras, permite “pensar y hablar”.Tenga una mayor conciencia del contexto, por lo tanto, tenga una mejor capacidad de razonamiento y resultados de respuestas más precisos.

Lo que llama la atención es quebolsa de frijolAfirmaciones de sus habilidades de habla.Soporta un reconocimiento de modelo.mandaríny cantonés, shanghainés, sichuan, xi'an, hokkien y otros dialectos chinos.

Esto me hace sentir ansioso por hablar con él en Hong Kong y Sichuan.

A continuación lo basaré en la versión 1.19.5_mac.Versión para PC de Doubao AI,pruebaLectura de texto AI y reconocimiento de capturas de pantallaAdemás del recientemente popularVisualización de vídeos con IA, reconocimiento de dialectos con IAy otras funciones,Vea cómo se comparan los pufs conVarios modelos grandes de IA en versión webQué cosas nuevas se proporcionan.

Como es la antigua regla, los amigos ansiosos pueden desplazarse hacia abajo directamente hasta el enlace del resumen.

Compañero de lectura de texto AI

La primera es la lectura complementaria del texto de IA.

Abrí una noticia, me desplacé hacia abajo hasta la sección de resumen, seleccioné el párrafo que quería ayudar y el puf apareció automáticamente.Buscar, traducir, interpretar, copiary otras funciones.

existirDescubre más habilidadesEntre ellas, se encuentra la barra de herramientas de delimitación de palabras con IA, que tiene 6 funciones como abreviatura, corrección y pulido de texto, 3 funciones como redacción de textos publicitarios para redes sociales o guiones de video, y 4 funciones como generación de informes semanales, OKR y código. corrección de errores, 6 ítems que incluyen resumen de ventajas y desventajas, extracción de ítems de tareas, lluvia de ideas, etc., más aquellos que son difíciles de clasificar.Hay un total de 22 funciones de módulo con configuraciones superiores personalizables.

Elegí la solicitud más básica para la explicación de Doubao. Después de esperar unos 25 segundos, obtuve el siguiente contenido.

Se puede ver que Doubao primero resume la idea general, seguido de una explicación popular más conversacional.Lo sorprendente es que identifica y explica activamente los nombres propios del párrafo de texto seleccionado, como la "Regla de Pareto" anterior.

En este punto, queda por ver si las 22 funciones proporcionadas por el módulo Doubao pueden mostrar una comprensión más profunda en términos de inteligencia y personalización.Pero lo que está claro es que cuando la PC se ejecuta en segundo plano, no necesito copiarlo y pegarlo en otra ventana para buscar, ni siquiera elegir nombres propios para buscar o hacer preguntas por separado.

Reconocimiento de imágenes por IA

Cuando tomé una captura de pantalla usando Beanbao, aparecióPreguntas y respuestas, traducción, puf QQHay 3 elementos funcionales, así que elegí un problema de matemáticas de la escuela secundaria y le pedí a Doubao que lo resolviera y respondiera las preguntas.

Doubao no solo proporciona el proceso de solución y la respuesta a una pregunta en el área de captura de pantalla, sino que también proporciona varias preguntas similares y sus soluciones.

Pero cuando uso Translate y Ask Doubao, no solo no puedo segmentar oraciones de manera inteligente, sino que también cometo errores frecuentes.

Teniendo en cuenta la dificultad del reconocimiento de imágenes, cambié al texto de párrafo, pero no hubo mejora.

Lo intenté de nuevoPregunta por los pufs, subordinado aOrganizar el contenido principal de la imagen.yExtraer textoProbé los dos módulos por separado.

En general, el desempeño de la función central de organización de contenidos es excelente.Pero la extracción del texto ni siquiera reconoció la imagen completa, y aún así se trataba de un tipo de letra cuidadosamente ordenado.

IA viendo vídeos

La función de ver videos con IA está actualmente limitada a videos del sitio b y requiereAbrir en la interfaz de DoubaoE inicie sesión en la cuenta de la estación B.

Entonces seleccioné al azar el contenido de la tercera temporada y el episodio 7 de "El género del consumo tardío", y después de esperar unos 20 segundos, obtuve el siguiente contenido.

Se puede ver que en la línea de tiempo de los segmentos de video, la coincidencia de imágenes y texto de la IA no es precisa, peroBásicamente, se puede lograr la segmentación de contenidos.

El vídeo está doblado al japonés con subtítulos en chino tradicional, lo que probablemente resulte un poco vergonzoso.

Hay un resumen claro de la idea principal al comienzo del video, pero no se refleja claramente en el resumen del texto a la derecha. Además, en la sección "Gratitud a los demás", el personaje del vídeo agradeció a la Sra. Ozo en lugar del Sr. Ushida, lo cual es un error en el resumen del puf.

Reconocimiento de dialecto por IA

Según el anuncio oficial, Doubao apoya el cantonés, el shanghainés, el de Sichuan, el de Xi'an y el Hokkien. A continuación, veamos si Doubao puede reconocer mi cantonés roto (no hay un dialecto nativo, solo el cantonés roto provocado por medio año). viviendo en Hong Kong), esperando compartir más experiencias indígenas ~).

No hay ningún problema con el reconocimiento del idioma. Doubao entiende "Quiero comer estofado a base de gachas" e incluso ofrece una opción de búsqueda de "¿Dónde puedo encontrar una deliciosa estofada a base de gachas en Beijing?"., pero después de enviar el mensaje, saltó a la interfaz de conversación de la búsqueda de IA y la respuesta fue texto en lugar de voz.

Además, la entrada de dialecto solo está disponible en la página de inicio y no puedo seguir ingresando dialecto en la interfaz de conversación. Por lo tanto, necesito volver a la página de inicio una y otra vez, y cada vez que se envía un mensaje, se abre una nueva ventana de la página de navegación. . .

Sin embargo, poder ingresar dialectos sigue siendo un gran avance y el rendimiento general es insatisfactorio. Se entiende que la aplicación Doubao admite respuestas de voz.

Intenté usar la aplicación móvil.pronunciación del dialectoSe introdujo la misma frase, Doubao terminó convoz mandarinaMe respondió y proporcionó el término de búsqueda seleccionado "¿Dónde puedo encontrar una deliciosa olla caliente de gachas en Beijing?"

En otras palabras, Doubao admite la entrada de dialectos, pero actualmente no admite la interacción de dialectos.Esta función se utiliza principalmente en situaciones divertidas y de negocios, como la organización de actas de reuniones para participantes en diferentes idiomas.

Sesión resumida

En mi imaginación, hay una muñeca electrónica con IA en el escritorio, que me proporciona valor emocional como mi gato y realmente me ayuda a manejar todo lo relacionado con mí. Es tan fácil despertar como Siri, pero más poderoso que Siri.

La lectura de texto con IA de Doubao se puede utilizar en todas las aplicaciones del lado de la PC. Proporciona 22 funciones de módulo, además del pulido de texto básico, también tiene un alcance de aplicación basado en escenarios para animales sociales, programadores y trabajadores de medios propios. Tiene las funciones básicas que imaginé, pero también hay mucho espacio para la exploración y el crecimiento.

En términos de reconocimiento de imágenes, es bueno para resolver problemas y responder preguntas, lo que equivale a los monos y las pandillas de tareas del lado de la PC. Sin embargo, considerando la base de usuarios de PC, se espera que Doubao haga esfuerzos profundos en matemáticas avanzadas+. Después de todo, las respuestas a preguntas y respuestas a tareas comunes y exámenes son más rápidas en los teléfonos móviles. Sólo con versiones electrónicas de preguntas o exámenes habrá demanda de PC.

Las funciones de segmentación y resumen de los videos de IA son muy llamativas, especialmente para los videos de divulgación científica. Doubao tiene un gran potencial. El tema de las humanidades y las ciencias sociales es un problema común a todos los modelos principales.

De hecho, el dialecto AI es la característica que más espero.Después de todo, "la pronunciación local permanece sin cambios y el pelo de las sienes se desvanece". A veces mi ciudad natal tiene una larga lista de menús y, a veces, el familiar "ese sabor". Pero en general, a la ecología interactiva del dialecto de Doubao todavía le queda camino por recorrer.

El diálogo dialectal identifica no sólo los sentimientos locales de los urbanitas modernos. Más importante aún, la tecnología penetra la pantalla fría y se preocupa por aquellos que no pueden hablar "chino" universal. Escriben una historia silenciosa con sus vidas, pero a menudo son olvidados por la historia. También necesitan la IA y los beneficios que conlleva. .

Cuando los dialectos pasan del reconocimiento a la interacción, el Doubao también puede ir más lejos.