360 iou が qifu iou にアップグレード qifu technology のトップ世界カンファレンス interspeech で熱い議論が集まり、方言認識技術が焦点に
2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
最近、qifu technology は、ギリシャで開催される最高の国際音声通信および信号処理カンファレンスである interspeech 2024 に招待され、qifusion-net: layer-adapted stream/non-stream model for end-to-end multi-storage というタイトルの論文を発表しました。 accent speech recognitionの基調講演は、音声認識技術分野における自社の成果を包括的に実証し、中国の音声技術が世界に進出し、世界競争に参加するための新たなベンチマークを設定した。
図1: qifu technologyがinterspeech 2024カンファレンスで基調講演を行った
qifu technologyは講演の中で、同時に20以上の方言をサポートできる新世代qifu音声認識システム「qifree」を紹介した。中国語のアクセントと方言の音声認識の分野で権威あるテストである kespeech との比較において、qifu technology は自動音声認識 (asr) の分野での深い蓄積に依存し、方言アクセントの分類精度の大幅な向上を達成しました。これは、kespeech のベースライン レベルである 61.13% をはるかに上回る 79.10% を達成しました。このデータは、qifu technology の音声認識精度における優れたパフォーマンスを直感的に反映しています。同時に、認識エラー率を測る重要な指標であるcer(character error rate、文字誤り率)に関して、qifu technologyは8.08%のスコアを達成し、kespeechの10.38%を大きく上回り、そのパフォーマンスを実証しました。中国語の方言認識の効率と精度。
表 1: qifu technology の「qifree」と kespeech baseline のパフォーマンス効果の比較
qifree technology が自社開発した中国語音声認識システム「qifree」は、単一のモデルが特定の単一の方言しか認識できないというジレンマを打破し、革新的なレイヤー適応融合構造と共有情報エンコードモジュールを通じて、方言情報をより効率的に抽出し、達成することができます。即時翻訳により、音声ロボットのリアルタイム対話機能がさらに強化されます。 「qifree」は、中国語認識の分野で cer で主導的な地位を維持しているだけでなく、河北-陸、江淮、焦寮、蘭陰などの複数の方言領域で優れた認識パフォーマンスを備えていることは注目に値します。 、過去の最高と比較して、最高の結果は 15% 以上の大幅な改善を達成しました。
国内一流企業(テクノロジー大手や中国で最も影響力のある音声認識オープンソースコミュニティなど)と比較しても、qifu technology が圧倒的な優位性を示したことも特筆に値する。より大きなパラメータスケールとより豊富なトレーニングデータを持つ対戦相手に直面した場合でも、qifu technology は低い cer (8.08% 対 15.61% 対 26.55%) で優れており、その技術アーキテクチャとアルゴリズム最適化の効率の優位性を証明しています。
表2:qifu technologyの「qifree」の主要指標と国内外の一流テクノロジー企業との比較
qifu technology が interspeech 2024 で再び素晴らしい姿を見せたことは、音声認識技術分野における同社の長年にわたる集中的な取り組みを包括的に示すだけでなく、この分野における中国企業の強力な競争力と無限の可能性を世界に宣言するものでもあります。潜在的。 qifu technology は、卓越した技術力と革新的な精神で方言認識技術の新たな発展トレンドをリードし、中国の知恵と中国の力で世界の音声通信と信号処理技術の進歩に貢献しています。