notícias

openai atualiza o modelo de ia de transcrição de fala whisper, tornando-o 8 vezes mais rápido sem sacrificar a qualidade

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news em 3 de outubro, openai anunciou o lançamento do modelo de transcrição de fala whisper large-v3-turbo no evento devday realizado em 1º de outubro, com um total de 809 milhões de parâmetros, quase sem perda de qualidade e velocidade 8 vezes. mais rápido que o large-v3.

o modelo de transcrição de voz whisper large-v3-turbo é uma versão otimizada do large-v3 e possui apenas 4 camadas decodificadoras (decoder layers), em comparação com large-v3, que possui um total de 32 camadas.

o modelo de transcrição de fala whisper large-v3-turbo tem um total de 809 milhões de parâmetros, que é um pouco maior que o modelo médio de 769 milhões de parâmetros, mas muito menor que o modelo grande de 1,55 bilhão de parâmetros.

a openai afirma que o whisper large-v3-turbo é 8 vezes mais rápido que o modelo grande e requer 6 gb de vram em comparação com 10 gb do modelo grande.

o modelo de transcrição de voz whisper large-v3-turbo tem 1,6 gb e a openai continua a fornecer o whisper (incluindo código e pesos de modelo) sob a licença do mit.

a it house citou os resultados do teste de awni hannun, que mostraram que no m2 ultra, 12 minutos de conteúdo foram transcritos em 14 segundos.