生成 AI が次のトレンドをもたらす可能性: TTT model

生成 AI が次のトレンドをもたらす可能性: TTT モデル

2024-07-18

次世代の生成型人工知能 (AI) の焦点は、テスト時トレーニングモデル (略して TTT) になる可能性があります。

Transformers アーキテクチャは、OpenAI のビデオモデル Sora の基礎であり、Anthropic の Claude、Google の Gemini、OpenAI のフラッグシップモデル GPT-4o などのテキスト生成モデルの中核です。しかし現在、これらのモデルの進化は、特にコンピューティングに関連した技術的なハードルにぶつかり始めています。なぜなら、Transformer は、少なくとも既製のハードウェアで実行する場合、大量のデータの処理と分析において特に効率的ではないからです。企業は変圧器のニーズを満たすためにインフラストラクチャを構築および拡張しますが、その結果、電力需要が大幅に増加し、持続的に需要を満たすことができない可能性があります。

今月、スタンフォード大学、カリフォルニア大学サンディエゴ大学、カリフォルニア大学バークレー校、およびメタの研究者らは、TTT アーキテクチャの開発に 1 年半を費やしたことを共同発表しました。研究チームは、TTT モデルは Transformers よりもはるかに多くのデータを処理できるだけでなく、Transformers ほど多くの計算能力を消費しないと主張しています。

なぜ部外者はTTTモデルがトランスフォーマーよりも有望だと考えるのでしょうか?最初に理解すべきことは、Transformers の基本コンポーネントは「隠れ状態」であり、これは本質的にデータの長いリストであるということです。 Transformer が何かを処理するとき、処理した内容を「記憶」するために、隠し状態にエントリを追加します。たとえば、モデルが本を処理している場合、非表示状態の値は単語 (または単語の一部) の表現になります。

前述の TTT 研究に参加したスタンフォード大学の博士研究員である Yu Sun 氏は最近メディアに対し、トランスフォーマーを知的実体とみなすなら、ルックアップテーブルとその隠れた状態がトランスフォーマーの頭脳であると説明しました。この脳には、コンテキスト学習など、Transformer のよく知られた機能のいくつかが実装されています。

隠れた状態はトランスフォーマーが強力になるのに役立ちますが、トランスフォーマーの発展も妨げます。たとえば、トランスフォーマーが本を読んだばかりの場合、この本の中の 1 つの単語でも「言う」ために、トランスフォーマーモデルはルックアップテーブル全体をスキャンする必要があります。この計算要件は、本全体を再読することに相当します。

そこで、Sun と TTT の他の研究者は、隠れ状態を機械学習モデル (AI の入れ子人形、モデル内モデルのようなもの) で置き換えることを考えました。 Transformers のルックアップテーブルとは異なり、TTT モデルの内部機械学習モデルは、より多くのデータが処理されても成長しません。代わりに、処理されたデータを重みと呼ばれる代表的な変数にエンコードするため、TTT モデルは高いパフォーマンスを発揮します。 TTT モデルが処理するデータの量に関係なく、内部モデルのサイズは変わりません。

Sun は、将来の TTT モデルでは、単語から画像、録音からビデオに至るまで、数十億個のデータを効率的に処理できると考えています。これは既存のモデルの能力をはるかに超えています。 TTT のシステムは、本を X 回読むという複雑な計算をすることなく、本に X 語を言うことができます。「Sora などのトランスフォーマーに基づく大規模なビデオモデルは、ルックアップテーブルの「頭脳」しか持たないため、10 秒のビデオしか処理できません。私たちの最終的な目標は、視覚体験と同様の長いビデオを処理できるシステムを開発することです。人間の生活の中で」

TTT モデルは最終的に変圧器に取って代わるのでしょうか?メディアはその可能性があると信じているが、今結論を出すのは時期尚早である。現時点では、TTT モデルはトランスフォーマーの直接の代替品ではありません。研究者らはこの研究のために 2 つの小さなモデルのみを開発したため、TTT をいくつかの大きなトランスフォーマーモデルによって達成された結果と比較することは現時点では困難です。

キングス・カレッジ・ロンドンの情報学部の上級講師であるマイク・クック氏は、前述のTTT研究には関与していなかったが、TTTは非常に興味深いイノベーションであり、データが効率を向上できるという考えを裏付けるのであれば、それは良いニュースであるとコメントした。しかし、TTT が既存のアーキテクチャよりも優れているかどうかはわかりません。クック氏は、学部生だった頃、ある老教授がよく「コンピューターサイエンスの問題をどうやって解決するのですか？」という冗談を言っていたと語った。別の抽象化レイヤーを追加します。ニューラルネットワークにニューラルネットワークを追加すると、彼はこのジョークの解決策を思い出しました。

ニュース

生成 AI が次のトレンドをもたらす可能性: TTT モデル

導入

私の連絡先情報