ニュース

minimax、初の partner day カンファレンスを開催、ビデオと音楽生成モデルを発表

2024-09-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

01:55
テクノロジーと音楽を組み合わせたライブショーで、8月31日、aiユニコーン企業minimax shanghai xiyu technology co., ltd.(以下、minimax)の初の開発者カンファレンス「minimaxlink partner day」が開幕した。同日、minimax はビデオモデル-video-01 と音楽モデル music-01 を正式にリリースしました。
マルチモーダル モデルは大規模なモデル企業にとって必須の質問となっており、その中でもビデオ モデルの関与は最も明白であり、zhipu ai が立ち上げたビデオ生成モデル「qingying」や ai pixverse など、多くの ai 企業がこれまでに大規模なモデル ビデオをリリースしています。 shi technologyのv2、shengshu technologyのvidu、kuaishouの「keling ai」など。
01:55
マルチモーダル モデルのレイアウトは始まりにすぎません
今回minimaxが公開したvideo-01は、ネイティブの高解像度・高フレームレートの動画を生成することに重点を置いていることが分かり、ユーザーはminimax公式サイトにログインして5秒間の動画を生成することができる。製品を体験してください。
minimax がビデオ モデルを正式にリリース — video-01
ビデオ モデル video-01 を評価した後、製品デザイナーは次のように述べています。「全体的な効果は非常に優れており、正しい物理学、良好なダイナミック レンジと安定性があり、sf やファンタジーの概念への反応は比較的正確ですが、プラスチックの感触は重いです。美的パフォーマンスは比較的低く、画質と画像の詳細は劣っています。」
これに関して、minimaxの創設者兼ceoのyan junjie氏は、現在展示されているのは製品の最初のバージョンにすぎず、将来的には更新されたバージョンが徐々に発売されるだろうと述べた。
このため、ビデオモデルは一定期間ユーザーに無償で提供され、製品が満足のいく状態に更新されるまで製品化は検討されません。 「将来の商用化は主に 2 つの形式に分けられます。1 つは同社のオープン プラットフォームに基づいており、2,000 を超える同社の顧客パートナーも音声認識機能を使用する予定です。独自の広告メカニズムが製品に導入されています。」
レポートによると、minimaxの現在のマルチモーダルモデルマトリックス製品には、多機能のエンドツーエンド音楽生成大型モデルであるmusic-01、新世代の生成音声合成大型モデルであるspeech-01なども含まれています。 「これはほんの始まりにすぎません。今後もモデルの速度と効果を改善し、対応する製品をさらにリリースしていきます。」
モデルのパフォーマンスを向上させる鍵
「テクノロジー企業として、テクノロジーは常に核となる要素です。」yan junjie 氏は、現段階では minimax の焦点は商業化ではないと述べました。
yan junjie 氏は、minimax のモデルは現在 30 億件を超える顧客とのやり取りを処理していると述べました。 1 年前、minimax のインタラクション時間は chatgpt のわずか 3% でしたが、現在この割合は 53% に増加していますが、それでも接続ユーザーは世界人口の 1% に達しておらず、わずか 0.8% です。 1%から100%に成長させるためには、ai製品のユーザーへの普及率と利用深度を高めることが最も重要です。
minimax ユーザー インタラクション データ
克服する必要のある技術的な問題は数多くありますが、その中で最も重要な最適化の 3 つの方向性は、モデルのエラー率を継続的に低減する方法、無限の入出力、およびマルチモダリティです。 「テキストによるインタラクションはほんの一部であり、音声やビデオによるインタラクションの方が多いことは、日常生活の中で見出すのは難しくありません。サウンド、グラフィックス、テキスト、ビデオなどのマルチモーダル コンテンツが情報伝達の主流になっています。普及速度を向上させるには、マルチモダリティが唯一の方法です。」yan junjie 氏は、これらの困難を克服するには、「速度」が minimax の基礎となる大型モデルの中核技術研究開発目標であると述べました。 「同様のパフォーマンスを持つ 2 つのモデルのうち、トレーニングと推論が高速なモデルの方が、コンピューティング リソースをより効果的に使用してより多くのデータを反復できるため、より優れたモデル機能が得られます。」
レポートによると、minimax は過去に moe (mixed expert architecture) と linear attendance (リニア アテンション) という 2 つの重要な基盤技術の変更を経験しました。同社は今年4月、gpt-4oレベルに匹敵するとされるmoe+ linear tentionをベースにした新世代モデルを開発した。 100,000 個のトークンを処理する場合、新しいモデルの処理効率は最大 2 ~ 3 倍向上する可能性があり、長さが増加するにつれてモデルの効率はより明らかに向上します。
新世代テクノロジーを使用したabab7シリーズのテキストモデルが今後数週間以内に正式にリリースされることがわかりました。
公開レポートによると、2021年12月に設立されたminimaxはこれまでにtencent、mihoyoなどが投資家として3ラウンドの資金調達を完了しており、現在の評価額は25億米ドルを超えている。
the paperの記者ユウ・ヤンさんとインターンのワン・チュンさん
(この記事はthe paperからのものです。よりオリジナルの情報については、「the paper」アプリをダウンロードしてください)
レポート/フィードバック