notícias

openai abre mecanismo de ia de voz para desenvolvedores

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

whip bulls informou que em 2 de outubro, de acordo com relatórios estrangeiros, a openai abrirá seu mecanismo de ia de voz para outros desenvolvedores, que fornece suporte para o modo de voz avançado do chatgpt.

os desenvolvedores terão acesso em tempo real à tecnologia, onde a ia pode entender comandos de voz e conduzir conversas de voz em cenários semelhantes aos de um telefone ao vivo.

anteriormente, o processo exigia que os desenvolvedores passassem por pelo menos três etapas: primeiro transcrever o áudio, depois executar o modelo de texto gerado para obter uma resposta à consulta e, finalmente, usar um modelo separado de conversão de texto em fala.

a mudança abre caminho para uma onda de aplicativos de inteligência artificial que oferecem interfaces de voz conversacionais.

o novo recurso de fala para fala é um dos vários anúncios que a openai fez em seu evento devday em são francisco na terça-feira.

os primeiros testadores do recurso incluem o aplicativo de nutrição e condicionamento físico healthify e o aplicativo de aprendizagem de idiomas speak.

outros novos recursos disponíveis para desenvolvedores incluem a capacidade de ajustar modelos com base em imagens.

em uma demonstração para repórteres, os executivos da openai mostraram um exemplo do novo recurso de áudio combinado com a api do twilio, que permite que um assistente de ia ligue para uma loja de doces fictícia e peça 400 morangos com cobertura de chocolate.

entre as demonstrações de customização da ferramenta estava um exemplo de conversa com um sistema de ia para ajudar a encontrar produtos locais, como morangos. a ia então liga para o comerciante para pedir morangos e recebe instruções do usuário sobre quanto pedir e quanto espera gastar.

a openai diz que qualquer pessoa que use essa tecnologia não pode esconder que se trata de uma inteligência artificial e não de um ser humano, e oferece apenas seis predefinições aos desenvolvedores, em vez de criar novos sons.

os desenvolvedores só podem usar sons fornecidos pelo openai – as mesmas opções do chatgpt.

embora os sons não tenham marca d'água de forma alguma e os desenvolvedores não precisem ser reconhecidos pelos sistemas de ia, a openai diz que usar seus sistemas para enviar spam ou enganar as pessoas viola os termos de serviço da empresa.

os anúncios ocorrem em meio a uma enxurrada de notícias em torno da fabricante do chatgpt, incluindo sua campanha massiva de arrecadação de fundos e a saída na semana passada da diretora de tecnologia mira murati e de dois outros executivos.