openai actualiza el modelo de ia de transcripción de voz de whisper, 8 veces más rápido sin sacrificar la calidad

openai actualiza el modelo de ia de transcripción de voz de whisper, haciéndolo 8 veces más rápido sin sacrificar la calidad

2024-10-03

it house news el 3 de octubre, openai anunció el lanzamiento del modelo de transcripción de voz whisper big-v3-turbo en el evento devday celebrado el 1 de octubre, con un total de 809 millones de parámetros, casi sin pérdida de calidad y velocidad 8 veces. más rápido que grande-v3.

el modelo de transcripción de voz whisper large-v3-turbo es una versión optimizada de large-v3 y tiene solo 4 capas de decodificador (decoder layers), en comparación con large-v3, que tiene un total de 32 capas.

el modelo de transcripción de voz whisper big-v3-turbo tiene un total de 809 millones de parámetros, que es ligeramente mayor que el modelo mediano de 769 millones de parámetros, pero mucho menor que el modelo grande de 1,55 mil millones de parámetros.

openai dice que whisper large-v3-turbo es 8 veces más rápido que el modelo grande y requiere 6 gb de vram en comparación con los 10 gb del modelo grande.

el modelo de transcripción de voz whisper big-v3-turbo tiene un tamaño de 1,6 gb y openai continúa proporcionando whisper (incluido el código y los pesos del modelo) bajo la licencia del mit.

it house citó los resultados de las pruebas de awni hannun, que mostraron que en el m2 ultra, 12 minutos de contenido se transcribieron en 14 segundos.

noticias

openai actualiza el modelo de ia de transcripción de voz de whisper, haciéndolo 8 veces más rápido sin sacrificar la calidad

introducción

mi información de contacto