ニュース

「GPT-4oの音声機能を備えた中国初のモデル」、Xinchen Lingo音声AIモデルが社内テスト予約受付中

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House は 8 月 24 日、Jinke Tomcat が投資した Xihu Xinchen が今年 8 月に中国初のエンドツーエンド音声大型モデルを発売したと報告しました。オープンベータテストの予約。

8 月 21 日にリリースされた発表では、従来の TTS と比較して、エンドツーエンド音声ラージ モデルはより包括的なテクノロジーであると公式の紹介で述べられています。音声認識をサポートするだけでなく、自然言語処理、意図認識、対話管理、音声合成などの複数のリンクを統合し、音声入力から音声フィードバックまでの完全なインタラクション プロセスを実現し、人間の深みと幅を大幅に豊かにします。コンピューターの相互作用。

IT Home は公式プレスリリースを引用して、Xinchen Lingo 音声モデルは GPT-4o 音声機能に追いつくことができる中国初のモデルであると述べました。技術的能力の点で次の 3 つの重要な特徴があります。

ネイティブの音声理解:エンドツーエンドのモデルである Xinchen Lingo は、音声内のテキスト情報を認識できるだけでなく、感情、口調、ピッチ、さらには環境音などの他の重要な特徴も正確に捕捉することができ、モデルが音声の内容をより包括的に理解するのに役立ちます。 、これにより、より自然で鮮やかなインタラクティブ体験が提供されます。

複数の音声スタイル表現:Xinchen Lingo は、文脈やユーザーの指示に応じて音声の速度、高さ、ノイズ強度を適応的に調整でき、対話、歌唱、クロストークなどのさまざまなスタイルで音声応答を生成でき、さまざまな場面でモデルの柔軟性を効果的に向上させることができます。アプリケーションのシナリオと適応性。

音声モーダル超圧縮:Xinchen Lingo は、数百倍の圧縮率を持つ音声コーデックを使用しており、音声を非常に短い長さに圧縮できるため、コンピューティングとストレージのコストを大幅に削減できると同時に、モデルが高品質の音声コンテンツを生成できるようになります。