ニュース

GPT-4o と比較すると、Her の iFlytek Spark バージョンが登場し、8 月末に完全に使用できるようになります。

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

8 月 19 日のニュース、HKUSTアイフライテック発表するスパーク大規模な音声モデルのアップデート、Spark で正式に開始極限のスピード追い越す擬人この機能は、8月末に一般公開されるiFlytek Spark APPの「XiaoXing Chat」機能に適用されます。


公式の表示結果から判断すると、Spark Extreme Super Anthropomorphic Interaction は、応答と中断速度、感情認識と感情共鳴、音声制御可能な表現、および人間のロールプレイングの 4 つの側面で画期的な進歩を達成しました。

応答速度の点では、Xinghuo Extremely Fast Super Anthropomorphic Interaction は複数ラウンドのインタラクションをサポートしており、応答速度はGPT-4o人間の通常のチャットのリズムとほぼ一致しています。ユーザーは会話中にいつでも中断したり口を挟むことができ、システムは迅速に応答して、真にシームレスな会話体験を実現します。

感情知覚と感情共鳴の点で、Xinghuo Extreme Super Anthropomorphic Interaction は、喜び、怒り、悲しみ、喜びなどのユーザーのさまざまな感情を認識し、音の内容から判断するだけでなく、適切な感情で応答することができます。さらに、システムは咳やペットの鳴き声などの非言語音も認識し、対応する応答を返すことができます。

音声制御による表現という点では、従来は音声インタラクションで機械音声の調整ができなかったのに比べ、音声で指示さえ出せば超擬人化を制御して感情などの表現を変化させることができるようになりました。スタイル、方言、激しさなど。

「ロールプレイング」に関しては、さまざまなロールシミュレーションをサポートしており、ユーザーのニーズに応じてロールを変更できるため、会話がより面白く、インタラクティブになります。

iFlytek は統合ニューラル ネットワークを使用してエンドツーエンドの音声ツースピーチ モデリングを実装し、従来の音声インタラクション音声ツーテキスト、大規模モデル生成応答、および音声合成プロセスを簡素化し、それによって応答を大幅に短縮すると報告されています。時間を短縮し、インタラクションの擬人化と流暢性を向上させます。さらに、多次元の音声属性デカップリング表現トレーニングを通じて、システムはコンテンツ、音色、感情、その他の要素をより柔軟に制御して、さまざまなシナリオやニーズを満たすことができます。

iFlytekは、Spark Extreme Super Human Interactionは8月末までに完全にオープンし、今後もインタラクティブな機能とモードを拡張し、より豊かで実用的なインテリジェント音声サービスをユーザーに提供する予定であると述べた。テクノロジーが成熟し続け、アプリケーションシナリオが拡大するにつれて、インテリジェント音声テクノロジーはスマートフォンやスマートカーなどの多くの分野で爆発的な成長をもたらすと予想されています。 IDC の予測によると、世界のインテリジェント音声サービス市場は 2030 年までに約 731 億 6,000 万米ドルに達し、年平均成長率は 27% になると予想されています。 (塩辛い)

この記事は NetEase Technology Report からのものです。詳細と詳細な内容については、こちらをご覧ください。