openai、whisper speech 文字起こし ai モデルをアップグレード、品質を犠牲にすることなく 8 倍高速化

openai がウィスパー音声文字起こし ai モデルをアップグレードし、品質を犠牲にすることなく 8 倍高速化

2024-10-03

it house news は 10 月 3 日、openai が 10 月 1 日に開催された devday イベントで、合計 8 億 900 万のパラメータを備え、品質と速度をほとんど損なうことのない whisper ラージ v3 ターボ音声文字起こしモデルのリリースを発表しました。 large-v3 よりも高速です。

whisper large-v3-turbo 音声転写モデルは、large-v3 の最適化されたバージョンであり、合計 32 のレイヤーを持つlarge-v3 と比較して、デコーダーレイヤー (デコーダーレイヤー) は 4 つだけです。

whisper ラージ v3 ターボ音声文字起こしモデルには、合計 8 億 900 万のパラメータがあり、7 億 6,900 万のパラメータの中モデルよりわずかに大きいですが、15 億 5,000 万のパラメータのラージモデルよりははるかに小さいです。

openai によると、whisperlarge-v3-turbo は大型モデルより 8 倍高速で、大型モデルの 10gb と比較して 6gb の vram が必要です。

whisper ラージ v3 ターボ音声文字起こしモデルのサイズは 1.6 gb で、openai は引き続き mit ライセンスに基づいて whisper (コードとモデルの重みを含む) を提供します。

it house は、m2 ultra では 12 分のコンテンツが 14 秒に転写されたことを示した awni hannun のテスト結果を引用しました。

ニュース

openai がウィスパー音声文字起こし ai モデルをアップグレードし、品質を犠牲にすることなく 8 倍高速化

導入

私の連絡先情報