ニュース

Doubao PC版「開封済み」、声の大きさから方言まで

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

8 月 22 日、上海で Volcano Engine AI イノベーション ツアーが開幕し、このイベントでは総合スコアリング、音声認識などの面でのビーンバッグ モデルの改善が実証されました。このリリースでは音声機能に焦点を当てています。

大規模なモデル チームは、会話型 AI のリアルタイム インタラクションと出力に重点を置いています Seed-ASR のこの成果は、7 月 31 日に OpenAI によってリリースされた ChatGPT の新しい高度な音声モードに匹敵する可能性があります。

当時ソーシャルメディアに投稿されたビデオによると、OpenAIの従業員はチャットボットに割り込んで別の方法でストーリーを語るよう依頼することができ、チャットボットは割り込みをうまく受け止めて応答を調整したという。

簡単に言うと「考えること・話すこと」をサポートするもので、コンテキスト認識が強化されるため、推論能力が向上し、より正確な回答結果が得られます。

印象的なのは、お手玉言語能力に関する主張モデル認識をサポートマンダリン広東語、上海語、四川語、西安語、福建語、その他の中国語の方言。

これを聞くと、香港や四川で話してみたいと思うようになります。

次に 1.19.5_mac バージョンをベースにしますDoubao AI PC版、テストAIによるテキスト読み取りとスクリーンショット認識最近人気のものも同様に、AI動画視聴、AI方言認識およびその他の機能、ビーンバッグとの比較をご覧ください。各種Web版AI大型モデル何という新しいものが提供されるのか。

古いルールと同様に、心配な友人は概要リンクまで直接下にスクロールできます。

AI テキスト読み上げコンパニオン

1つ目はAIテキストの伴読です。

ニュースを開いて概要セクションまでスクロールし、支援したい段落を選択すると、ビーンバッグが自動的に表示されました。検索、翻訳、解釈、コピーおよびその他の機能。

存在するさらにスキルを発見するその中には、テキストの省略、修正、研磨などの6つの機能、ソーシャルメディアのコピーライティングやビデオスクリプトなどの3つの機能、週次レポート、OKR、コードの生成などの4つの機能を備えたAI単語描写ツールバーがあります誤り訂正、メリット・デメリットのまとめ、課題項目の抽出、ブレインストーミングなど6項目に分類が難しいものを加え、カスタマイズ可能な上部設定を備えた合計 22 のモジュール機能があります。

Doubao の説明として最も基本的なリクエストを選択し、25 秒ほど待つと次の内容が表示されました。

Doubao は最初に一般的なアイデアを要約し、次により会話的な一般的な説明を行っていることがわかります。印象的なのは、上記の「パレートの法則」など、選択したテキスト段落の固有名詞を積極的に識別して説明していることです。

現時点では、Doubao モジュールが提供する 22 の機能がインテリジェンスとパーソナライゼーションの観点からより深い理解を示すことができるかどうかはまだわかりません。しかし、明らかなことは、PC がバックグラウンドで実行されているときは、検索するために別のウィンドウにコピーして貼り付ける必要がなく、検索するために固有名詞を選択したり、個別に質問したりする必要さえないということです。

AI画像認識

Beanbaoを使ってスクリーンショットを撮ったらポップアップが出てきました質疑応答、翻訳、QQ ビーンバッグ関数項目が 3 つあるので、高校数学の問題を選択し、Doubao にそれを解いて質問に答えてもらいました。

Doubao は、スクリーンショット領域の質問に対する解決プロセスと回答を提供するだけでなく、いくつかの同様の質問とその解決策も提供します。

しかし、「Translate」と「Ask Doubao」を使用すると、文を賢く分割できないだけでなく、頻繁に間違いを犯します。

画像認識の難しさを考慮して段落テキストに切り替えましたが、改善されませんでした。

もう一度試してみましたビーンバッグについて質問する、に従属する画像内の主要なコンテンツを整理するそしてテキストを抽出する2 つのモジュールを別々に試してみました。

全体として、コアコンテンツ整理機能のパフォーマンスは優れています。しかし、テキスト抽出では全体像さえ認識されず、これはまだ整然と配置された書体でした。

動画を見るAI

AI を使用して動画を視聴する機能は、現在サイト b の動画に限定されており、Doubao インターフェースで開くそしてBステーションのアカウントにログインします。

そこで、「遅飲みのジャンル」の第3シーズンと第7話の内容をランダムに選択し、20秒ほど待ったところ、以下の内容が得られました。

ビデオセグメントのタイムラインでは、AI の画像とテキストのマッチングが正確ではないことがわかりますが、基本的に、コンテンツのセグメント化は実現できます。

このビデオは日本語で吹き替えられており、繁体字中国語の字幕が付いていますが、少し恥ずかしいかもしれません。

ビデオの冒頭に主なアイデアの明確な要約がありますが、右側のテキスト要約には明確に反映されていません。また、「他者への感謝」の部分で、動画内の登場人物が牛田さんではなく大蔵さんに感謝していましたが、これはお手玉のまとめの誤りです。

AI方言認識

公式発表によると、Doubao は広東語、上海語、四川語、西安語、福建語をサポートしています。 次に、Doubao が私の片言の広東語を認識できるかどうかを見てみましょう (ネイティブの方言はなく、半年の生活によってもたらされた片言の広東語のみです)。香港に住んでいます)、先住民の経験をもっと共有することを楽しみにしています〜)。

Doubao は言語認識に問題がなく、「お粥ベースの火鍋が食べたい」ということを理解し、「北京でおいしいお粥ベースの火鍋はどこにありますか?」という検索オプションも提供します。, が、メッセージを送信した後、AI検索の会話インターフェースに飛び、私への返信は音声ではなくテキストでした。

また、方言入力はホームページでのみ利用可能であり、会話インターフェイスで方言を入力し続けることはできません。したがって、何度もホーム ページに戻る必要があり、メッセージが送信されるたびに、新しいナビゲーション ページ ウィンドウが開きます。 。 。

ただし、方言を入力できることはまだ大きな進歩であり、全体的なパフォーマンスは満足のいくものではありません。 Doubao アプリは音声応答をサポートしていることがわかります。

スマホアプリを使ってみた方言の発音同じ文が入力され、Doubao は次のように終わりました。北京語の声私に返信し、選択した検索語「北京でおいしいお粥鍋はどこにありますか?」を入力しました。

つまり、Doubao は方言入力をサポートしていますが、現時点では方言対話をサポートしていません。この機能は主に、さまざまな言語での参加者向けの会議議事録の整理など、娯楽やビジネスの場面で使用されます。

まとめセッション

私の想像では、デスクトップ上に AI の電子人形があり、猫のように私に感情的価値を与え、私に関するあらゆることを処理するのを本当に助けてくれます。 Siri と同じくらい簡単に起動できますが、Siri よりも強力です。

Doubao の AI テキスト読み取りは、PC 側で 22 のモジュール機能を提供するほか、ソーシャル アニマル、プログラマー、セルフメディア ワーカー向けのシナリオベースの適用範囲も備えています。私が想像していた基本的な機能を備えていますが、探索と成長の余地もたくさんあります。

画像認識に関しては、問題を解決したり、質問に答えたりするのが得意で、PC側の宿題のギャングやサルに匹敵します。ただし、PC ユーザーベースを考慮すると、Doubao は高度な数学 + に徹底的に取り組むことが期待されます。結局のところ、一般的な宿題やテストの問題に対する回答は、携帯電話の方が速いのです。電子版の問題やレポートがあってこそ、PC の需要が生まれるのです。

AI ビデオの分割機能と要約機能は非常に注目を集めており、特に人気のある科学ビデオにとって、Doubao は大きな可能性を秘めています。人文・社会科学のテーマは主要機種共通の問題です。

実はAI方言は私が一番楽しみにしている機能なのですが、結局のところ、「地元の発音は変わらず、こめかみの毛は薄れていくのです。」私の故郷は時にはメニューの長いリストであり、時にはおなじみの「あの味」です。しかし、全体として、豆宝の方言インタラクティブな生態学にはまだ道半ばです。

方言の対話は、現代の都市生活者の故郷への感情だけを明らかにするものではありません。さらに重要なことは、テクノロジーが冷たい画面に浸透し、普遍的な「中国語」を話すことができない人々を配慮していることです。彼らは、人生とともに歴史を忘れ去られていますが、AI とそれに伴う恩恵も必要としています。 。

方言が認識から交流へと移行するとき、豆包もさらに進化する可能性があります。