nachricht

openai aktualisiert das ki-modell für die whisper-sprachtranskription und macht es 8-mal schneller, ohne dass die qualität darunter leidet

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news kündigte am 3. oktober die einführung des whisper large-v3-turbo-sprachtranskriptionsmodells auf der devday-veranstaltung am 1. oktober mit insgesamt 809 millionen parametern an, fast ohne qualitäts- und geschwindigkeitsverlust 8-mal schneller als large-v3.

das whisper large-v3-turbo-sprachtranskriptionsmodell ist eine optimierte version von large-v3 und verfügt nur über 4 decoderschichten (decoder layers), im vergleich zu large-v3, das insgesamt 32 schichten hat.

das sprachtranskriptionsmodell whisper large-v3-turbo verfügt über insgesamt 809 millionen parameter, was etwas größer ist als das mittlere modell mit 769 millionen parametern, aber viel kleiner als das große modell mit 1,55 milliarden parametern.

laut openai ist whisper large-v3-turbo achtmal schneller als das große modell und erfordert 6 gb vram im vergleich zu 10 gb für das große modell.

das sprachtranskriptionsmodell whisper large-v3-turbo ist 1,6 gb groß und openai stellt whisper (einschließlich code- und modellgewichtungen) weiterhin unter der mit-lizenz bereit.

it house zitierte die testergebnisse von awni hannun, die zeigten, dass auf dem m2 ultra 12 minuten inhalt in 14 sekunden transkribiert wurden.