notícias

Versão Doubao PC "unboxed", do volume da voz ao dialeto

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Em 22 de agosto, o Volcano Engine AI Innovation Tour foi inaugurado em Xangai. O evento demonstrou a melhoria do modelo de bean bag em pontuação abrangente, reconhecimento de fala e outros aspectos.Os recursos de voz são o foco desta versão.

A grande equipe de modelos concentra-se na interação e saída em tempo real de IA conversacional Seed-ASR, essa conquista pode ser comparável ao novo modo de voz avançado do ChatGPT lançado pela OpenAI em 31 de julho.

Os funcionários da OpenAI conseguiram interromper o chatbot e pedir-lhe que contasse a história de uma forma diferente, e o chatbot aproveitou as interrupções e ajustou suas respostas, de acordo com vídeos postados nas redes sociais da época.

Simplificando, apoia “pensar e falar ao mesmo tempo”,Tenha uma consciência contextual mais forte, portanto, tenha melhor capacidade de raciocínio e resultados de respostas mais precisos.

O que é impressionante é quesaco de feijãoReivindicações de suas habilidades de falaSuporta um reconhecimento de modelomandarime cantonês, xangaiense, sichuan, xian, hokkien e outros dialetos chineses.

Isto me deixa ansioso para falar sobre isso em Hong Kong e Sichuan.

A seguir vou baseá-lo na versão 1.19.5_macVersão para PC Doubao AI,testeLeitura de texto AI e reconhecimento de captura de telaAssim como o recentemente popularVisualização de vídeo AI, reconhecimento de dialeto AIe outras funções,Veja como os pufes se comparam aVários modelos grandes de IA de versão webQue coisas novas são fornecidas.

Como é a regra antiga, amigos ansiosos podem rolar diretamente para a seção de resumo.

Companheiro de leitura de texto AI

A primeira é a leitura complementar do texto de IA.

Abri uma notícia, rolei até a seção de resumo, selecionei o parágrafo que queria ajudar e o pufe apareceu automaticamente.Pesquise, traduza, interprete, copiee outras funções.

existirDescubra mais habilidadesEntre elas, está a barra de ferramentas de delineamento de palavras AI, que possui 6 funções como abreviação, correção e polimento de texto, 3 funções como redação de mídia social ou scripts de vídeo e 4 funções como geração de relatórios semanais, OKR e código correção de erros. 6 itens incluindo resumo de vantagens e desvantagens, extração de itens de tarefas, brainstorming, etc., além daqueles que são difíceis de classificar,Há um total de 22 funções de módulo com configurações superiores personalizáveis.

Escolhi o pedido mais básico para explicação de Doubao. Depois de esperar cerca de 25 segundos, recebi o seguinte conteúdo.

Percebe-se que Doubao primeiro resume a ideia geral, seguida de uma explicação popular mais coloquial.O que é surpreendente é que ele identifica e explica ativamente os nomes próprios do parágrafo do texto selecionado, como a “Regra de Pareto” acima.

Neste ponto, resta saber se as 22 funções disponibilizadas pelo módulo Doubao podem mostrar uma compreensão mais profunda em termos de inteligência e personalização.Mas o que fica claro é que quando o PC está rodando em segundo plano, não preciso copiar e colar em outra janela para pesquisar, nem mesmo escolher nomes próprios para pesquisar ou fazer perguntas separadamente.

Reconhecimento de imagem por IA

Quando tirei uma captura de tela usando Beanbao, ela apareceuPergunta e resposta, tradução, pufe QQExistem 3 itens de função, então escolhi um problema de matemática do ensino médio e pedi a Doubao para resolvê-lo e responder às questões.

Doubao não apenas fornece o processo de solução e resposta a uma pergunta na área de captura de tela, mas também fornece várias perguntas semelhantes e suas soluções.

Mas quando uso o Translate e o Ask Doubao, não apenas não consigo segmentar as frases de maneira inteligente, mas também cometo erros frequentes.

Considerando a dificuldade de reconhecimento da imagem, mudei para texto de parágrafo, mas não houve melhora.

Eu tentei de novoPergunte sobre pufes, subordinado aOrganize o conteúdo principal na imagemeExtrair textoTentei os dois módulos separadamente.

No geral, o desempenho da função central de organização de conteúdo é excelente.Mas a extração do texto nem sequer reconheceu a imagem completa, e esta ainda era uma fonte bem organizada.

IA assistindo vídeos

A função de assistir vídeos com IA está atualmente limitada aos vídeos do site b e requerAbrir na interface DoubaoE faça login na conta da estação B.

Então selecionei aleatoriamente o conteúdo da terceira temporada e do episódio 7 de “The Genre of Late Drinking” e, depois de esperar cerca de 20 segundos, obtive o seguinte conteúdo.

Pode-se observar que na linha do tempo dos segmentos de vídeo, a correspondência de imagem e texto da IA ​​não é precisa, masBasicamente, a segmentação de conteúdo pode ser alcançada.

O vídeo é dublado em japonês com legendas tradicionais em chinês, o que provavelmente é um pouco embaraçoso.

Há um resumo claro da ideia principal no início do vídeo, mas não está claramente refletido no resumo do texto à direita. Além disso, na seção “Gratidão aos Outros”, o personagem do vídeo agradeceu à Sra. Ozo em vez do Sr.

Reconhecimento de dialeto de IA

De acordo com o anúncio oficial, Doubao apoia cantonês, xangai, Sichuan, Xi'an e Hokkien. Em seguida, vamos ver se Doubao consegue reconhecer meu cantonês quebrado (não existe dialeto nativo, apenas o cantonês quebrado criado por meio ano de). morando em Hong Kong), ansioso para compartilhar mais experiências indígenas~).

Não há problema com o reconhecimento do idioma. Doubao entende “Quero comer hot pot à base de mingau” e ainda oferece uma opção de pesquisa “Onde posso encontrar uma deliciosa panela quente à base de mingau em Pequim?”, mas depois que a mensagem foi enviada, ela saltou para a interface de conversa da pesquisa de IA e a resposta para mim foi texto em vez de voz.

Além disso, a entrada de dialeto está disponível apenas na página inicial e não consigo continuar a inserir dialeto na interface de conversação. Portanto, preciso retornar à página inicial repetidamente e, cada vez que uma mensagem for enviada, uma nova janela da página de navegação será aberta. . .

No entanto, a capacidade de inserir dialetos ainda é um grande avanço e o desempenho geral é insatisfatório. Entende-se que o aplicativo Doubao suporta respostas de voz.

Tentei usar o aplicativo móvelpronúncia do dialetoA mesma frase foi inserida, Doubao terminou comVoz mandarimMe respondeu e forneceu o termo de pesquisa selecionado "Onde posso encontrar uma deliciosa panela quente de mingau em Pequim?"

Em outras palavras, Doubao oferece suporte à entrada de dialeto, mas atualmente não oferece suporte à interação de dialeto.Esta função é usada principalmente em situações divertidas e de negócios, como na organização de atas de reuniões para participantes em diferentes idiomas.

Sessão de resumo

Na minha imaginação, existe uma boneca eletrônica de IA na área de trabalho, que me proporciona valor emocional como meu gato, e realmente me ajuda a lidar com tudo sobre mim. É tão fácil de acordar quanto o Siri, mas mais poderoso que o Siri.

A leitura de texto AI do Doubao pode ser usada em aplicativos no lado do PC, fornecendo 22 funções de módulo. Além do polimento básico de texto, ele também possui um escopo de aplicação baseado em cenário para animais sociais, programadores e trabalhadores de mídia própria. as funções básicas que imaginei enfrentar, mas também há muito espaço para exploração e crescimento.

Em termos de reconhecimento de imagens, é bom para resolver problemas e responder perguntas, o que equivale às gangues e macacos de dever de casa do lado do PC. No entanto, considerando a base de usuários de PC, espera-se que Doubao faça esforços profundos em matemática avançada+. Afinal, as respostas às perguntas e respostas para trabalhos de casa e provas comuns são mais rápidas em celulares. Somente com versões eletrônicas de perguntas ou provas haverá demanda por PCs.

As funções de segmentação e resumo dos vídeos de IA são muito atraentes, especialmente para vídeos científicos populares que têm um grande potencial. O tema das ciências humanas e sociais é um problema comum a todos os principais modelos.

Na verdade, o dialeto de IA é o recurso que mais espero,Afinal, “a pronúncia local permanece inalterada e os cabelos das têmporas desaparecem. Às vezes, minha cidade natal é uma longa lista de cardápios, e às vezes é o familiar “aquele sabor”. Mas, no geral, a ecologia interativa do dialeto de Doubao ainda tem um longo caminho a percorrer.

O diálogo dialetal identifica não apenas os sentimentos da cidade natal dos moradores urbanos modernos. Mais importante ainda, a tecnologia penetra na tela fria e cuida daqueles que não conseguem falar o "chinês" universal. Eles escrevem uma história silenciosa com suas vidas, mas muitas vezes são esquecidos pela história. Eles também precisam da IA ​​e das coisas que vêm com a IA. .

Quando os dialetos passam do reconhecimento à interação, Doubao também pode ir mais longe.