openai lança totalmente o assistente de voz chatgpt semelhante ao humano, que pode falar 50 idiomas, incluindo chinês

2024-09-25

autor deste artigo: li dan

fonte: ia difícil

quatro meses após o lançamento público inicial do openai, o recurso de assistente de voz de inteligência artificial avançada (ia) semelhante ao humano do chatgpt está finalmente disponível para usuários pagantes.

na terça-feira, 24 de setembro, horário do leste, a openai anunciou que todos os usuários que pagaram para assinar os planos openai chatgpt plus e team poderão usar o novo modo de voz avançado chatgpt advanced voice. este recurso será implementado gradualmente no próximo. alguns dias e estará disponível pela primeira vez no mercado dos eua online. na próxima semana, o recurso estará disponível para assinantes dos planos openai edu e enterprise.

isso significa que esta semana, tanto os usuários individuais da versão plus do chatgpt quanto os usuários de equipes de pequenas empresas da versão teams podem ativar o novo recurso de voz simplesmente falando, sem ter que inserir manualmente palavras imediatas e ter uma conversa gpt. ao acessar o modo de voz avançado no app, o usuário poderá saber que entrou no assistente de voz avançado através de uma janela pop-up, e o usuário receberá uma notificação do app.

openai deu à nova versão de voz do chatgpt duas funções, uma é a função de armazenar "instruções personalizadas" para o assistente de voz e a outra é a função de "memória" para lembrar qual comportamento o usuário deseja que o assistente de voz execute, semelhante ao que a openai deu ao chatgpt em abril deste ano, a versão em texto introduz a função de memória. os usuários podem aproveitar esses recursos para garantir que os padrões de voz sejam personalizados, permitindo que o assistente de ia responda com base nas preferências do usuário para todas as conversas.

openai lançou na terça-feira cinco novas vozes de estilos diferentes, chamadas arbor, maple, sol, spruce e vale, além das quatro vozes breeze, juniper, cove e ember lançadas anteriormente na versão antiga do modo de voz, vozes opcionais alcançando nove tipos. openai também melhora a velocidade de conversação, fluência e sotaque em algumas línguas estrangeiras.

a openai apresentou que o assistente de voz avançado pode dizer “desculpe, estou atrasado” em 50 idiomas e anexou um vídeo à postagem na mídia social para demonstrar que o usuário pode pedir ao assistente de voz para falar com a vovó porque ela está esperando por muito tempo. o vídeo mostra que o assistente de ia primeiro resumiu o que o usuário queria expressar conforme necessário e disse em inglês. depois que o usuário solicitou à avó de ia que falasse apenas mandarim, o assistente de ia falou novamente em. mandarim padrão.

o novo recurso de voz está disponível para o modelo de ia gpt-4o da openai e não para o modelo de visualização o1 lançado recentemente.

o lançamento da nova função de voz está muito atrasado. wall street news mencionou uma vez que em maio deste ano, a openai demonstrou o modo de voz voice mode ao lançar seu novo modelo carro-chefe gpt-4o. a voz do chatgpt apoiada pelo gpt-4o na época parecia a de uma mulher americana adulta e podia responder às solicitações instantaneamente. quando ouviu o diretor de pesquisa openai da demonstração, mark chen, exalar excessivamente, pareceu perceber seu nervosismo e então disse: “mark, você não é um aspirador de pó”, dizendo a chen para relaxar e respirar.

a openai planejou originalmente lançar o modo de voz para um pequeno grupo de usuários do plano plus no final de junho, mas anunciou em junho que o lançamento seria adiado por um mês para garantir que o recurso pudesse lidar com segurança e eficácia com solicitações de milhões de usuários . na época, a openai disse que planejava tornar o recurso acessível a todos os usuários do plus neste outono, com o cronograma exato dependendo do cumprimento de altos padrões internos de segurança e confiabilidade.

no final de julho, a openai lançou o chatgpt no modo de voz avançado para um número limitado de usuários pagos plus, dizendo que o modo de voz não pode imitar a maneira como os outros falam, e adicionou novos filtros para garantir que o software possa descobrir e rejeitar certas músicas geradas. ou outros formulários. solicitações de áudio protegido por direitos autorais. no entanto, o novo modo de voz carece de muitos recursos demonstrados pela openai em maio, como capacidades de visão computacional. este recurso permite que o gpt forneça feedback de voz sobre os movimentos de dança do usuário simplesmente usando a câmera do smartphone.

notícias

openai lança totalmente o assistente de voz chatgpt semelhante ao humano, que pode falar 50 idiomas, incluindo chinês

introdução

minhas informações de contato