ニュース

openai がウィスパー音声文字起こし ai モデルをアップグレードし、品質を犠牲にすることなく 8 倍高速化

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news は 10 月 3 日、openai が 10 月 1 日に開催された devday イベントで、合計 8 億 900 万のパラメータを備え、品質と速度をほとんど損なうことのない whisper ラージ v3 ターボ音声文字起こしモデルのリリースを発表しました。 large-v3 よりも高速です。

whisper large-v3-turbo 音声転写モデルは、large-v3 の最適化されたバージョンであり、合計 32 のレイヤーを持つlarge-v3 と比較して、デコーダー レイヤー (デコーダー レイヤー) は 4 つだけです。

whisper ラージ v3 ターボ音声文字起こしモデルには、合計 8 億 900 万のパラメータがあり、7 億 6,900 万のパラメータの中モデルよりわずかに大きいですが、15 億 5,000 万のパラメータのラージ モデルよりははるかに小さいです。

openai によると、whisperlarge-v3-turbo は大型モデルより 8 倍高速で、大型モデルの 10gb と比較して 6gb の vram が必要です。

whisper ラージ v3 ターボ音声文字起こしモデルのサイズは 1.6 gb で、openai は引き続き mit ライセンスに基づいて whisper (コードとモデルの重みを含む) を提供します。

it house は、m2 ultra では 12 分のコンテンツが 14 秒に転写されたことを示した awni hannun のテスト結果を引用しました。