ニュース

Jia Yangqing は論文の 1 つで Time Test Award を受賞しましたが、中国のベスト 10 論文と ICML 2024 Award の資格を獲得できませんでした。

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

マシーンハート編集部

ICML の正式名称は International Conference on Machine Learning で、国際機械学習協会 (IMLS) が主催し、コンピューター人工知能分野のトップ会議です。

今年の ICML 会議は 41 回目で、現在オーストリアのウィーンで開催されています。先ほど行われた開会式では、年々人気が高まっているICMLが、今年のカンファレンスデータや受賞情報を発表しました。



この主要会議には合計 9,473 件の有効な論文投稿があり、そのうち 2,610 件の論文が受理され、受理率は 27.5% で、その内訳は口頭論文 144 件、スポットライト論文 191 件でした。



受理された論文の主題キーワードは次のとおりです: 大規模言語モデル、強化学習、深層学習、グラフ ニューラル ネットワーク、機械学習、フェデレーション ラーニング、拡散モデル、トランスフォーマー、LLM、表現学習、生成モデル...これらのキーワードも現在のものを表しています。 AI 分野で最も人気のある研究方向。

これらのデータに加えて、今年の Time Test Awards と Best Papers もカンファレンスで発表されました。 DeCAFは、Jia Yangqing氏が10年前にバークレー在学中に共同で完成させた論文で、今年のTime Test Awardを受賞した。昨年は6件でしたが、今年は10件の研究が最優秀論文を受賞しました。その中には、少し前に話題になったGoogle DeepMindの世界モデルGenieやビデオモデルVideoPoetなどが含まれます。

実績ある賞

DeCAFの受賞について、Jia Yangqing氏は友人の輪の中で、「今日の用語から言えば、DeCAFは基礎的な機能であり、視覚の分野に深く埋め込まれているはずであり、また、コンピュータービジョンの分野に一般化可能な機能を与えた。」と述べた。その後、一般的なオブジェクト検出フレームワーク R-CNN、高性能ヘテロジニアス コンピューティング フレームワーク Caffe が誕生し、第一世代のアクセラレーション フレームワーク CuDNN、Yahoo Labs によって作成された大規模分散トレーニング CaffeOnSpark の作成におけるバークレーと NVidia の協力に間接的に貢献しました。 、および他の一連の研究により、深層学習の波におけるバークレーの主導的地位を確立しました。」



論文:DeCAF: 汎用視覚認識のための深層畳み込み活性化特徴

著者:Jeffrey Donahue、Yangqing Jia、Oriol Vinyals、Judy Hoffman、Ning Zhang、Eric Tzeng、Trevor Darrell

機関: UC Berkeley & ICSI、米国カリフォルニア州バークレー

論文リンク: https://arxiv.org/pdf/1310.1531

研究チームは、大規模な固定セットの物体認識タスクで完全に教師ありでトレーニングされた深層畳み込みネットワークの活性化から抽出された特徴が、新しい汎用タスクに再利用できるかどうかを評価しました。これらの一般的なタスクは、最初にトレーニングされたタスクとは大幅に異なる可能性があり、深いアーキテクチャを定期的にトレーニングしたり、新しいタスクに適応させたりするのに十分なラベル付きまたはラベルなしのデータがない可能性があります。彼らは、シーン認識、ドメイン適応、きめ細かい認識の課題など、さまざまなタスクにおける深い畳み込み特徴のセマンティック クラスタリングを研究し、視覚化します。研究者らは、固定機能を定義するためにネットワークのさまざまな層に依存する効果を比較し、いくつかの重要な視覚的課題に関して既存の技術を大幅に上回る新しい結果を報告しました。彼らは、ディープ畳み込みアクティベーション機能のオープンソース実装である DeCAF をリリースしました。これには、視覚研究者がさまざまな視覚概念学習パラダイムにわたる深い表現を実験できるようにするために、関連するすべてのネットワーク パラメーターが含まれています。

最高の紙

論文 1: 高解像度画像合成のための整流変圧器のスケーリング

著者:パトリック・エッサー、スミット・クラール、アンドレアス・ブラットマン、ラヒム・エンテザリ、ジョナス・ミュラー、ハリー・サイニ、ヤム・レヴィ、ドミニク・ロレンツ、アクセル・ザウアー、フレデリック・ボーセル、ダスティン・ポデル、ティム・ドックホーン、ザイオン・イングリッシュ、ロビン・ロンバック

組織:スタビリティAI

論文アドレス: https://proceedings.mlr.press/v235/esser24a.html

Machine Heart Report: Stable Diffusion 3 の論文がついにリリースされ、アーキテクチャの詳細が明らかになりました。Sora の再現に役立ちますか?

この論文はまさにStable Diffusion 3の論文です。以前のバージョンと比較して、Stable Diffusion 3 によって生成される画像の品質は大幅に向上し、マルチテーマ プロンプトをサポートし、テキスト書き込み効果も向上しました。



安定した Diffusion 3 モデル アーキテクチャ。

拡散モデルは、ノイズの順方向経路をノイズに反転することでノイズからデータを作成するもので、画像やビデオなどの高次元の感覚データに対する強力な生成モデリング手法として登場しました。 Rectified Flow (RF) は、データとノイズを直線で結び付ける最近の生成モデルの定式化です。より優れた理論的特性と概念的な単純さにもかかわらず、標準的な実践としてはまだ明確に確立されていません。

この研究は、知覚的に関連するスケールにバイアスをかけて RF モデルをトレーニングすることにより、既存のノイズ サンプリング技術を改善します。この研究は、大規模な研究を通じて、高解像度のテキストから画像への合成における既存の拡散公式と比較して、このアプローチの優れたパフォーマンスを実証しています。

さらに、この研究では、テキストから画像への生成のための新しい Transformer ベースのアーキテクチャも提案しています。これは、2 つのモードに個別の重みを使用し、画像とテキストのトークン間の双方向の情報フローを可能にし、それによってテキストの理解力や人間の好みの評価などを向上させます。 。この研究では、アーキテクチャが予測可能なスケーリング傾向に従っていることを実証し、モデル サイズとトレーニング ステップの増加に伴って検証損失が滑らかに減少することを観察しています。



改良されたマルチモーダル拡散トランスフォーマー: MMDiT ブロック。

論文 2: Genie: 生成的なインタラクティブ環境

著者:Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge Shi、Edward Hughes 等

機関: Google DeepMind、ブリティッシュ コロンビア大学

論文アドレス: https://arxiv.org/pdf/2402.15391.pdf

この論文は、生成 AI の新しいパラダイム、生成的インタラクティブ環境 - Genie (生成的インタラクティブ環境) を定義します。 Genie は、1 つの画像プロンプトからプレイ可能なインタラクティブな環境を生成できる 110 億パラメータのベース ワールド モデルです。

Machine Heart レポート: たった今、Google が基本的な世界モデルをリリースしました: インタラクティブな仮想世界を生成できる 11B パラメーター

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の二次メモリのコストがビデオ分野に課題をもたらすため、ビデオには最大 (10^4) 個のトークンを含めることができることに注意してください。したがって、Google はすべてのモデル コンポーネントでメモリ効率の高い ST トランスフォーマー アーキテクチャを使用して、モデルの容量と計算上の制約のバランスをとります。



Genie は 3 つの主要なコンポーネントで構成されています (次の図を参照)。

1) 潜在アクション モデル (LAM)。フレームの各ペア間の潜在的なアクションを推論するために使用されます。

2) ビデオ トークナイザー (Tokenizer)。元のビデオ フレームを個別のトークンに変換するために使用されます。

3) 潜在的なアクションと過去のフレームのトークンを考慮した動的モデルを使用して、ビデオの次のフレームを予測します。



制御可能なビデオ生成を実現するために、Google は前のフレームで行われたアクションを将来のフレームの予測の条件として使用します。ただし、このようなアクション ラベルがインターネット上のビデオで利用できることはほとんどなく、アクションの注釈を取得するコストが高くなる可能性があります。代わりに、Google は完全に監視されていない方法で潜在的なアクションを学習します。



論文 3: 大規模な公開事前トレーニングによる差別化されたプライベート学習に関する考慮事項

著者: フロリアン・トラマー、ゴータム・カマス、ニコラス・カルリーニ

機関: チューリッヒ工科大学、ウォータールー大学、Google DeepMind

論文アドレス: https://arxiv.org/abs/2212.06470

差分プライベート機械学習のパフォーマンスは、大規模なパブリック データセットで事前トレーニングされた非プライベート モデルの転移学習機能を活用することで大幅に向上できます。この論文では、Web スクレイピングされた大規模なデータセットの使用が差分プライベートとみなされるべきかどうかについて疑問を呈しています。

この調査では、ネットワーク データで事前トレーニングされたこれらのモデルを「プライベート」モデルとして設定すると、差分プライバシーに対する国民の信頼が損なわれ、弱まる可能性があると考えられています。この研究では、公開データを使用する際のプライバシーへの配慮に加えて、このパラダイムの有用性についてさらに疑問を呈しています。この研究では、既存の機械学習ベンチマークが、公共ネットワーク データで表現するのが難しい機密領域に一般化する事前トレーニング済みモデルの能力を測定するのに適しているかどうかを精査しています。

さらに、この調査では、大規模なモデルを展開すると、より優れたコンピューティング能力を持つサードパーティにプライベート データをアウトソーシングする必要があるため、プライバシーが純損失につながる可能性があると指摘しています。

論文 4: データ分布の比率を推定することによる離散拡散モデリング

著者: アーロン・ルー、チェンリン・メン、ステファノ・エルモン

機関: スタンフォード大学、ピカ研究所

論文アドレス: https://proceedings.mlr.press/v235/lou24a.html

拡散モデルは多くの生成モデリング タスクでは良好に機能しますが、自然言語などの離散データ ドメインでは期待どおりに機能しません。標準的な拡散モデルは、十分に確立されたスコアマッチング理論に依存していますが、これを離散構造に一般化する試みでは、同様の経験的利益は得られませんでした。

今回の研究で、研究チームはスコアリングエントロピーと呼ばれる新しい損失を提案することで、このギャップを埋めました。スコア付きエントロピーは、スコア マッチングを離散空間に自然に拡張し、シームレスに統合して離散拡散モデルを構築し、パフォーマンスを大幅に向上させます。

彼らの実験では、標準言語モデリング タスクでスコア付きエントロピー離散拡散モデル (SEDD) をテストしました。同等のモデルサイズで、SEDD は既存の言語普及パラダイムを上回り (混乱度が 25 ~ 75% 削減)、自己回帰モデルと競合し、特に GPT-2 を上回ります。さらに、自己回帰モデルと比較して、SEDD は分散アニーリング技術 (温度スケーリングなど) を必要とせずに実際のテキスト (アニーリングされていない GPT-2 よりも約 6 ~ 8 倍高い混乱を生成) を生成でき、トレードオフで使用できます。計算量と品質のバランスを調整し (32 分の 1 のネットワーク評価で同等の品質を達成)、制御可能なパディングをサポートします (左から右へのヒンティング以外の戦略を許可しながら、カーネルのサンプリング品質を一致させます)。

論文 5: ツイスト逐次モンテカルロによる言語モデルにおける確率的推論

著者:スティーブン・チャオ、ロブ・ブレケルマンズ、アリレザ・マクザーニ、ロジャー・グロス

機関: トロント大学、Vector Institute

論文アドレス: https://proceedings.mlr.press/v235/zhao24c.html

RLHF、自動化されたレッド チーム テスト、ヒント エンジニアリング、パディングなどの大規模言語モデル (LLM) の多数の機能と安全技術は、特定の報酬または潜在関数によって定義された非正規化されたターゲット分布からのサンプリングとみなすことができます。この研究では、著者らは逐次モンテカルロ (SMC) の豊富なツールボックスを活用して、これらの確率的推論問題を処理します。特に、学習されたワープ関数を使用して、各タイム ステップでの潜在的な将来の期待値を推定し、推論時の計算をシーケンスの有望な部分に集中できるようにします。

私たちは、ワーピング関数を学習するための新しい対照的なアプローチを提案し、ソフト強化学習に関する豊富な文献と関連付けます。ツイスト SMC フレームワークの補完的なアプリケーションとして、彼らは、新しい双方向 SMC 境界を使用して、対数分割関数に関する言語モデル推論技術の精度を評価する方法を提案しています。これらの境界を使用して、推論分布とターゲット分布の間の双方向 KL 発散を推定できます。彼らは、推論評価手法を適用して、Twisted SMC が事前トレーニング済みモデルから望ましくない出力をサンプリングし (無害なトレーニングや自動化されたレッドチーム テストに役立ちます)、さまざまなセンチメントを含むレビューを生成し、パディング タスクを実行するのに効果的であることを実証しました。

論文 6: より説得力のある LLM と議論すると、より真実な回答が得られる

著者:アクビル・カーン、ジョン・ヒューズ、ダン・バレンタイン、ローラ・ルイス、クシティ・サチャン、アンシュ・ラダクリシュナン、エドワード・グレフェンステッテ、サミュエル・ボウマン、ティム・ロックテシェル、イーサン・ペレス

機関: ユニバーシティ・カレッジ・ロンドン、スピーチマティクス、MATS、人類学、FAR AI

論文アドレス: https://proceedings.mlr.press/v235/khan24a.html

大規模言語モデル (LLM) を望ましい動作に合わせるための一般的なアプローチは、人間がラベル付けしたデータに大きく依存しています。しかし、モデルがより複雑になるにつれて、人間の専門知識を超え、人間の評価者の役割は、専門家を監督する非専門家の役割に進化します。この予想に基づいて、研究者らは「弱いモデルはより強いモデルの正しさを評価できるのか?」という質問をしました。彼らは、同様のシナリオを設定してこの問題を研究しました。つまり、より強力なモデル (専門家) が質問に答えるために必要な背景情報を持っている一方で、より弱いモデル (非専門家) にはこの情報が欠けているというシナリオです。研究者らはテスト方法としてディベートを選択しました。つまり、2 人の LLM 専門家がそれぞれ異なる答えを擁護し、非専門家が最終的な答えを選択するというものです。

研究チームは、議論が専門家以外のモデルと人間が質問に答えるのに効果的に役立ち、それぞれ 76% と 88% の精度を達成したことを発見しました (元のベースラインはそれぞれ 48% と 60%)。



さらに、教師なしの方法で専門討論者の説得力を最適化することで、専門家以外の議論における真実を特定する能力が向上します。この結果は、グラウンド トゥルース ラベルがない場合の位置合わせされたモデルの実現可能性を議論する際の参考になります。

論文 7:確率的凸最適化の情報複雑性:一般化、記憶、​​追跡への応用

著者:イダン・アティアス、ギンターレ・カロリナ・ジウガイト、マフディ・ハギファム、ロイ・リブニ、ダニエル・ロイ

機関: ベングリオン大学、トロント大学、DeepMind など

論文アドレス: https://proceedings.mlr.press/v235/attias24a.html

この研究では、著者らは確率的凸最適化 (SCO) の文脈における記憶と学習の間の相互作用を研究しています。彼らは、トレーニング データ ポイントに関してアルゴリズムが明らかにする情報を学習することでメモリを定義し、Steinke と Zakynthinou (2020) によって提案された条件付き相互情報量 (CMI) フレームワークを使用してこの情報を定量化します。

この研究の主な成果は、学習アルゴリズムの精度とその CMI の間のトレードオフを正確に特徴づけ、Livni (2023) によって提起された未解決の質問に答えることです。この論文は、L² リプシッツ境界設定と強い凸条件の下で、過剰な誤差 ϵ を持つ各学習器の CMI がそれぞれ Ω(1/ϵ²) と Ω(1/) によって下限されることを示します。著者らはさらに、特定の SCO 問題で多数のトレーニング サンプルを正確に識別できる攻撃者を設計することにより、SCO 問題におけるメモリの不可欠な役割を実証しています。最後に、彼らは、CMI ベースの一般化限界の制限や SCO 問題におけるサンプルの非圧縮性など、結果のいくつかの影響について言及しています。

論文 8: データセットの多様性をただ主張するだけではなく測定する

著者:ドーラ・ジャオ、ジェロン・アンドリュース、オレスティス・パパキリアコプロス、アリス・シャン

機関: スタンフォード大学、Sony AI (英国、ロンドン)、ミュンヘン工科大学、Sony AI (米国、シアトル)

論文アドレス: https://arxiv.org/html/2407.08188v1

機械学習 (ML) データセットは中立であると考えられることが多いですが、本質的に抽象的で議論の余地のある社会構造が含まれています。データセットのキュレーターは、データセットを説明するために、多様性、偏り、品質などの価値観を伴う用語をよく使用します。これらの用語は広く使用されていますが、明確な定義や検証が不足しています。研究チームの研究では、135の画像とテキストのデータセットの「多様性」を分析することで、この問題の影響を調査しました。社会科学に基づいて、測定理論の原則を適用して考慮事項を特定し、データセットの多様性を概念化し、運用し、評価するための推奨事項を提供します。彼らの発見は ML 研究に広範な影響を及ぼし、データセット構築において値を含む属性を処理する際に、より微妙で正確なアプローチを提唱しています。

論文 9: VideoPoet: ゼロショット ビデオ生成のための大規模言語モデル

著者:ダン・コンドラチュク、リジュン・ユー、シウエ・グ、ホセ・レザマ、ジョナサン・ファン、グラント・シンドラー、レイチェル・ホーナング、ヴィグネシュ・N・ビロッドカル、ジミー・ヤン、ミンチャン・チウ、クリシュナ・ソマンデパリ、ハッサン・アクバリ、ヤイル・アロン、ヨン・チェン、ジョシュア・V・ディロン、アグリム・グプタ、ミーラ・ハーン、アンジャ・ハウト、デビッド・ヘンドン、アロンソ・マルティネス、デビッド・ミネン、ミハイル・シロテンコ、キヒョク・ソン、スアン・ヤン、ハートウィッグ・アダム、ミンシュアン・ヤン、イルファン・エッサ、フイシェン・ワン、デビッド・ロス、ブライアン・シーボルト、ルー・ジャン

組織: Google、カーネギーメロン大学

論文アドレス: https://proceedings.mlr.press/v235/kondratyuk24a.html

プロジェクトのリンク: http://sites.research.google/videopoet/

Machine Heart Report: ビデオの生成は無限に可能ですか?Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

研究チームは、複数の条件付き信号から高品質のビデオを合成できる言語モデルである VideoPoet をリリースしました。 VideoPoet は、デコーダ専用の Transformer アーキテクチャを使用して、画像、ビデオ、テキスト、オーディオなどのマルチモーダル入力を処理します。



トレーニング プロトコルは大規模言語モデル (LLM) のパイプラインに従い、事前トレーニングとタスク固有の適応という 2 つの段階で構成されます。事前トレーニング段階では、VideoPoet は自己回帰 Transformer フレームワーク内でマルチモーダル生成ターゲットを結合します。事前トレーニングされた LLM が基礎として機能し、さまざまなビデオ生成タスクに適応できます。これらは、ゼロショット ビデオ生成におけるモデルの最先端の機能、特に高忠実度のモーションを生成する機能を実証します。

論文 10: 実稼働言語モデルの一部を盗用する

著者:ニコラス・カルリーニ、ダニエル・パレカ、クリシュナムルシー・ドヴィヨタム、トーマス・スタインケ、ジョナサン・ハヤセ、A. フェダー・クーパー、キャサリン・リー、マシュー・ジャギエルスキー、ミラド・ナスレスファハニ、アーサー・コンミー、エリック・ウォレス、デヴィッド・ロルニック、フロリアン・トラマー

機関: OpenAI、Google DeepMind、チューリッヒ工科大学、ワシントン大学、マギル大学

論文アドレス: https://arxiv.org/pdf/2403.06634

この論文では、AI モデルを攻撃する新しい方法を提案します。 OpenAI の ChatGPT または Google の PaLM-2 のブラックボックス生成言語モデルから情報を正確に抽出できます。このメソッドは、Transformer の埋め込みプロジェクション レイヤー (モデルが言語を理解する上で重要な部分) に侵入することができ、Web サイトまたはアプリケーションを介して API にアクセスし、モデルとチャットするだけで「破る」ことができます。論文の手法に基づいて、研究者らは GPT シリーズの 2 つの基本モデル、Ada と Babbage の射影行列全体を解読しました。隠れた次元などの重要な情報も直接解読されました。1 つは 1024、もう 1 つは 2048 でした。また、gpt-3.5-turbo の隠れた次元も突破しました。モデルの射影行列全体を復元したい場合でも、コストは 2000 ドルを超えません。研究者らは、このような攻撃の発生を防ぐための一連の防御手段と軽減戦略を提案しています。