nouvelles

openai met à niveau le modèle d'ia de transcription vocale whisper, le rendant 8 fois plus rapide sans sacrifier la qualité

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news le 3 octobre, openai a annoncé le lancement du modèle de transcription vocale whisper large-v3-turbo lors de l'événement devday qui s'est tenu le 1er octobre, avec un total de 809 millions de paramètres, avec presque aucune perte de qualité et de vitesse 8 fois. plus rapide que le grand-v3.

le modèle de transcription vocale whisper large-v3-turbo est une version optimisée de large-v3 et ne comporte que 4 couches de décodeur (decoder layers), par rapport à large-v3, qui compte un total de 32 couches.

le modèle de transcription vocale whisper large-v3-turbo a un total de 809 millions de paramètres, ce qui est légèrement plus grand que le modèle moyen de 769 millions de paramètres, mais beaucoup plus petit que le grand modèle de 1,55 milliard de paramètres.

openai affirme que whisper large-v3-turbo est 8 fois plus rapide que le grand modèle et nécessite 6 go de vram contre 10 go pour le grand modèle.

le modèle de transcription vocale whisper large-v3-turbo a une taille de 1,6 go et openai continue de fournir whisper (y compris les poids du code et du modèle) sous la licence mit.

it house a cité les résultats des tests d'awni hannun, qui montraient que sur le m2 ultra, 12 minutes de contenu étaient retranscrites en 14 secondes.