ニュース

Jia Yangqing の 10 年にわたる名作が Time Test Award を受賞しました。 ICML 2024 10 のベスト論文賞の抽選、人気の SD3、Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:Taoziはとても眠いです

【新しい知恵の紹介】毎年恒例のICMLトップアワードがついに発表されました!今年は合計 10 件の論文が最優秀論文賞を受賞しましたが、そのうち 3 件はよく知られたものです - 画像生成モデル SD3、ビデオ生成モデル VideoPoet、および基本ワールド モデル Genie。さらに、Time Test Award は、Jia Yangqing 氏と彼のチームが 10 年前に提案したフレームワーク DeCAF に授与されました。

ICML 2024 アワードが新たに発表されました。

先ほど、ICML の開会式が正式に開催され、その中で優秀論文賞 10 件が発表され、10 年前の論文が Time Test Award を受賞しました。

最優秀論文の中には、SD3 技術レポート、CMU Google AI ビデオ モデル VideoPoet、Google 基本世界モデル Genie など、AI 画像およびビデオ生成の分野で人気のある論文がいくつかあります。



2013 年 10 月に AI の第一人者 Jia Yangqing らが発表した論文 DeCAF が Time Test Award を受賞したことは注目に値します。

先ほど、この栄誉をいただき大変光栄に思いますと書きました。


CMU教授でMeta GenAI副社長のRuss Salakhutdinov氏は、ICML 2024の全体的な採用結果の概要を次のように述べた。

この会議には合計 9,473 件の論文が寄せられ、そのうち 2,610 件が採択され、採択率は 27.55% でした。 144 件の記事がオーラル、191 件の記事がスポットライトです。

今年は新たにポジションペーパーが導入され、286 件の論文が提出され、75 件(26%)が採択されました。 15 件の記事が口頭記事、11 件の記事がスポットライト記事です。

さらに、ワークショップでは 145 件の提案があり、そのうち 30 件が採択されました。 チュートリアルには 55 件の提案があり、12 件が採用されました。


今年は、第 41 回 ICML 2024 年次会議 (毎年 1 回) で、7 月 21 日から 27 日までオーストリアのウィーンで開催されます。


集会には8675人が次々と来場し、傍聴席は満席となった。



ICML 2024 サミットの概要

賞を授与する前に、組織委員会はまず今年の会議の全体状況を次のように紹介しました。

・EXPOトークパネル9枚

· 12 のチュートリアル

・招待講演者6名

・論文数 2,610件(本会議)

· 30のワークショップ

· 12,345 人の著者と講演者

・参加者の39%が学生

· 10のオフラインソーシャルアクティビティ

・3つのアフィニティイベント

・ボランティア52名

· シニアエリアチェア (SAC) 97 名、エリアチェア (AC) 492 名、審査員 7473 名

・登録参加者9,406名(うち当日参加者8,675名)


ICML は、受理された論文に基づいて、今年のホットワードでもある出現頻度の高い単語を要約しました。

大きなモデルが最も頻繁に表示され、600 回以上表示されます。

続いて、強化学習、深層学習、グラフニューラルネットワーク、機械学習、連合学習、拡散モデル、Transformer、LLM、表現学習、生成モデルなど。


登録国・地域では米国が2,463人、次いで中国が1,100人以上となっている。

実績ある賞

一般に、Time Test Award は、10 年以上にわたって重要かつ永続的な影響を与えた学術論文に授与されます。


この論文は、カリフォルニア大学バークレー校で学び、Google でのインターンシップ中にチームと協力した Caffe の父である Jia Yangqing によって完成された古典的な作品でもあります。

彼はかつてインタビューで、2013年にGoogleでインターン中にコーヒーを飲みすぎたため、コーヒーをやめるよう自分に促すためにそれをDeCAFと名付けたと語った。


残業中に彼は、「DeCAF は基礎機能であり、視野の領域に深く埋め込まれるべきであり、またコンピュータ ビジョンの分野に一般化可能な機能を与える必要がある...」と投稿しました。

DeCAF 研究の影響は、汎用物体検出フレームワーク R-CNN、高性能ヘテロジニアス コンピューティング フレームワーク Caffe を生み出し、第 1 世代のアクセラレーション フレームワーク CuDNN を作成するためのバークレーと NVIDIA の協力に間接的に貢献したことです。 Yahoo Labs の作成物の大規模な配布 CaffeOnSpark トレーニングなどの一連の作業により、深層学習の波におけるバークレーの主導的地位が確立されました。


テーマ:DeCAF: 汎用視覚認識のための深層畳み込み活性化特徴

著者:Jeff Donahue、Yangqing Jia、Oriol Vinyals、Judy Hoffman、Ning Zhang、Eric Tzeng、Trevor Darrell

機関: カリフォルニア大学バークレー校


論文アドレス: https://arxiv.org/abs/1310.1531

人間の行動を表現するためにより優れた確率的フレームワークを使用するために、チームは個人的に最初のフレームワークである DeCAF を作成しました。

この研究で著者らは、大規模な固定物体認識タスクで完全に教師ありでトレーニングされた深層畳み込みネットワークから抽出された特徴が、新しい汎用タスクで再利用できるかどうかを評価しました。

これらの一般的なタスクは、元のトレーニング タスクとは大幅に異なる可能性があり、十分な注釈付きデータが不足しているか、注釈付きデータがまったくない可能性があるため、従来の方法を使用してディープ ネットワークをトレーニングしたり、新しいタスクに適応させるように微調整したりすることはできません。

さらに、著者は、シーン認識、ドメイン適応、および詳細な認識などのタスクにおける深い畳み込み特徴のセマンティック クラスタリングも視覚化し、ネットワークのさまざまなレベルに依存する固定特徴を定義する効果を比較することによって、いくつかの提案を行いました。重要 視覚的な課題で達成された新しい SOTA。

最後に、著者らは、これらの深い畳み込みアクティベーション機能のオープンソース実装である DeCA を、関連するすべてのネットワーク パラメーターとともにリリースします。これは、ビジュアル作成者がさまざまなビジュアルコンセプト学習パラダイムで深い表現を実験するのに役立ちます。


ベスト10の論文

今年は優秀論文が 10 件あります。



上記のランキングはすべて口頭発表順です。

論文一:データ分布の比率を推定する離散拡散モデリング

著者: アーロン・ルー、チェンリン・メン、ステファノ・エルモン

機関: スタンフォード大学、ピカ研究所


論文アドレス: https://arxiv.org/abs/2310.16834

この研究では、主に離散データ生成タスクを対象とした新しい機械学習モデル SEDD (Score Entropy Discrete Diffusion) を提案します。

現在、拡散モデルは多くの生成モデリング タスクで画期的なパフォーマンスを示していますが、自然言語などの離散データ フィールドではあまりパフォーマンスが良くありません。

論文の中で、著者はこのギャップを埋めるためにスコアエントロピーの概念を提案しました。

これは、スコア マッチングを離散空間に自然に拡張し、シームレスに統合して離散拡散モデルを構築し、パフォーマンスを大幅に向上させる新しい損失関数です。

実験的評価プロセス中、SEDD は既存の言語普及モデルよりも優れたパフォーマンスを示しました (混乱度は 25 ~ 75% 減少しました)。

さらに、いくつかの点では GPT-2 などの自己回帰モデルをも上回ります。


要約すると、SEDD の利点は次のとおりです。

- 温度スケーリングなどの技術を使用せずに高品質のテキストを生成できます (パープレキシティの生成は、アニーリングされていない GPT-2 よりも約 6 ~ 8 倍優れています)

- コンピューティング リソースと出力品質の間の柔軟なトレードオフ (同等のパフォーマンスを達成するために使用するネットワーク評価の数が 32 分の 1)

- 制御可能なテキスト入力をサポートし、より高い柔軟性を提供します。 (左から右へのプロンプト以外の戦略をサポートしながら、核サンプリングの品質を一致させます)。

論文 2: 高解像度画像合成のための整流変圧器のスケーリング

著者:Patrick Esser、Sumith Kulal、Andreas Blattmann、Rahim Entezari、Jonas Müller、Harry Saini、Yam Levi、Dominik Lorenz、Axel Sauer、Frederic Boesel、Dustin Podell、Tim Dockhorn、Zion English、Kyle Lacey、Alex Goodwin、Yannik Marek、Robin Rombach

組織:スタビリティAI


論文アドレス: https://arxiv.org/abs/2403.03206

冒頭でも触れましたが、本稿は人気の高いStable Diffusion 3の技術レポートです。

Sora と同様に、SD3 は拡散モデルの改良版と DiT の Vincentian グラフに基づく新しいアーキテクチャを使用します。

具体的には、著者らは 3 つの異なるテキスト エンコーダ (2 つの CLIP モデルと T5) を利用してテキスト情報を処理し、より高度な自動エンコーディング モデルを使用して画像情報を処理しました。


新しく提案されたマルチモーダル拡散トランスフォーマー (MMDiT) アーキテクチャは、画像と言語の表現にそれぞれ独立した重みセットを使用します。SD3 の初期バージョンと比較して、テキストの理解とテキストのスペルの能力が大幅に向上します。

評価の結果、SD3 は、プロンプトに従う正確さ、テキストの明瞭な表現、画像の視覚的な美しさの点で、現在の最先端のヴィンセント図生成技術に達しているか、それを超えていることがわかりました。


論文三:ツイストシーケンシャルモンテカルロによる言語モデルの確率的推論

著者:スティーブン・チャオ、ロブ・ブレケルマンズ、アリレザ・マクザニ、ロジャー・グロス

機関: トロント大学、Vector Institute


論文アドレス: https://arxiv.org/abs/2404.17546

この研究は、大規模モデルにおけるサンプリングと推論の問題に焦点を当てています。

RLHF、自動レッドチームテスト、プロンプトエンジニアリング、パディングなど、LLM の機能とセキュリティテクノロジーの多くは次のとおりです。

報酬関数または潜在関数が与えられた場合、その定義された非正規化ターゲット分布からサンプリングします。この分布はシーケンス全体に対して定義されます。

この論文の中で、著者はこれらのサンプリング確率の問題を解決するために逐次モンテカルロ (SMC) 法を使用することを提案しています。

これに関して、著者は、サンプリングプロセスを最適化するために、各タイムステップでの潜在的な将来の値を推定するツイスト関数を提案しています。

さらに、新しい双方向 SMC 境界を使用して LLM 推論技術の精度を評価する方法も提案しました。

最終結果は、Twisted SMC が、事前トレーニングされたモデルから悪い出力をサンプリングし、さまざまな感情を持つレビューを生成し、フィラー タスクを実行する際に強力な効果を発揮することを示しています。

論文 4: 立場: データセットの多様性をただ主張するだけではなく測定する

著者:ドーラ・チャオ、ジェロン・TA・アンドリュース、オレスティス・パパキリアコプロス、アリス・シャン

機関: スタンフォード大学、ミュンヘン工科大学、ソニーAI


論文アドレス: https://arxiv.org/abs/2407.08188

現在、多くのデータセットは自らを多様性と称していますが、実際には抽象的で物議を醸す社会概念を具体化しています。

この研究では、著者らは 135 の画像およびテキスト データセットの「多様性」を分析することで、この疑問を探ります。

以下に示すように、著者らは考慮すべき要素として社会科学理論からの測定理論を利用し、データセットの多様性を概念化し、運用し、評価するための提案を提供しています。

この研究の最終的な目的は、機械学習研究、特にデータセット構築の過程において、価値判断を伴う属性データのより詳細かつ正確な処理方法を AI 学者に採用するよう呼びかけることです。


論文 5: プロダクション言語モデルの一部を盗む

著者:ニコラス・カルリーニ、ダニエル・パレカ、クリシュナムルシー、Dj・ドヴィヨタム、トーマス・スタインケ、ジョナサン・ハヤセ、A. フェダー・クーパー、キャサリン・リー、マシュー・ジャギエルスキー、ミラド・ナスル、アーサー・コンミー、イタイ・ヨナ、エリック・ウォレス、デビッド・ロルニック、フロリアン・トラマー

機関: チューリッヒ工科大学、ワシントン大学、マギル大学、Google DeepMind、OpenAI


論文アドレス: https://arxiv.org/abs/2403.06634

この研究で著者らは、OpenAI の ChatGPT や Google の PaLM-2 などのブラックボックス言語モデルから正確かつ複雑な情報を抽出できる最初のモデル窃取攻撃を紹介します。

具体的には、この攻撃は、通常の API アクセスを通じて、Transformer モデルの埋め込み投影層を (対称条件下で) 再構築することができます。

また、20 ドル未満で、OpenAI の Ada 言語モデルと Babbage 言語モデルの射影行列全体を抽出できます。これにより、これら 2 つのブラック ボックス モデルの隠れ次元がそれぞれ 1024 と 2048 であることが初めて確認されました。

さらに、作者は gpt-3.5-turbo モデルの正確な隠れ次元サイズも復元しました。今回、射影行列全体の抽出コストはわずか 2,000 米ドルでした。

最後に、著者らは潜在的な防御および緩和策を提案し、将来の研究への影響について議論します。


論文六:確率的凸最適化の情報複雑性:一般化と記憶への応用

著者:イダン・アティアス、ギンターレ・カロリナ・ジウガイト、マフディ・ハギファム、ロイ・リブニ、ダニエル・M・ロイ

機関: ベングリオン大学、ノースイースタン大学、テルアビブ大学、トロント大学、Vector Institute、Google DeepMind


論文アドレス: https://arxiv.org/abs/2402.09327

この研究では、著者らは確率的凸最適化問題 (SCO) の文脈におけるメモ化と学習の間の相互作用を研究しています。

まず、メモ化は、トレーニング データ ポイントに関する情報を明らかにする学習アルゴリズムによって定義されます。次に、条件付き相互情報量 (CMI) フレームワークを使用して定量化します。したがって、学習アルゴリズムの精度とその CMI の間のトレードオフを正確に説明できます。

結果は、L^2 リプシッツの有界設定と強い凸条件の下で、過剰誤差 ε を持つ各学習器の CMI はそれぞれ Ω(1/ε^2) と Ω(1/ε) に下限があることを示しています。

さらに、著者らは、特定の SCO 問題におけるトレーニング サンプルのほとんどを正確に識別できる攻撃者を設計することにより、SCO 学習問題におけるメモ化の重要な役割を実証しています。

最後に、著者らは、CMI ベースの一般化限界の制限や SCO 問題におけるサンプルの非圧縮性など、いくつかの重要な意味を挙げています。

論文七:ポジション:大規模な公開事前トレーニングによる差分プライバシー学習に関する考慮事項

著者: フロリアン・トラマー、ゴータム・カマス、ニコラス・カルリーニ

機関: チューリッヒ工科大学、ウォータールー大学、Vector Institute、Google DeepMind


論文アドレス: https://arxiv.org/abs/2212.06470

差分プライベート機械学習のパフォーマンスは、大規模なパブリック データセットで事前トレーニングされた非プライベート モデルの転移学習機能を活用することで大幅に向上できます。

この研究において、著者らは、Web スクレイピングされた大規模なデータセットの使用が差分プライバシー保護と矛盾しないかどうかを疑問視しています。また、ネットワークデータで事前トレーニングされたこれらのモデルを「プライベート」と呼ぶことは、差分プライバシーの概念に対する国民の信頼を弱めるなど、多くの弊害をもたらす可能性があると警告した。

著者らは、公開データを使用する際のプライバシーへの配慮に加えて、このアプローチの実用性にもさらに疑問を抱いています。

事前トレーニングの影響は、エンド ユーザーが自分のデバイスで実行するには大きすぎるモデルの場合に特に顕著です。これには、より高い計算能力を持つサードパーティにプライベート データをアウトソーシングする必要があるため、そのようなモデルを導入すると、純プライバシーが失われることになります。

最後に、著者らは、公共の事前トレーニングがより一般的かつ強力になるにつれて、プライバシー学習分野の潜在的な発展の道について議論します。

論文 8: より説得力のある LLM と議論すると、より真実な回答が得られる

著者:アクビル・カーン、ジョン・ヒューズ、ダン・バレンタイン、ローラ・ルイス、クシティ・サッチャン、アンシュ・ラダクリシュナン、エドワード・グレフェンステッテ、サミュエル・R・ボウマン、ティム・ロックテシェル、イーサン・ペレス

機関: ユニバーシティ・カレッジ・ロンドン、スピーチマティクス、MATS、人類学、FAR AI


論文アドレス: https://arxiv.org/abs/2402.06782

現在一般的に使用されている LLM アライメント方法は、手動で注釈を付けたデータに大きく依存しています。

しかし、モデルがより複雑になるにつれて、モデルは人間の専門知識を超え、人間の評価者の役割は、専門家を監督する非専門家の役割に進化します。

これに基づいて、著者は「弱いモデルはより強いモデルの正しさを評価できるのか?」という疑問を提起しました。

設計上、より強力なモデル (エキスパート) は質問に答えるために必要な情報を持っていますが、より弱いモデル (非エキスパート) にはこの情報がありません。

評価方法は討論であり、専門家が答えを選択するのではなく、2 人の LLM 専門家がそれぞれ異なる答えを擁護します。


その結果、議論により一貫して非専門家モデルと人間の質問への回答が向上し、それぞれ 76% と 88% の精度を達成したことが示されました (ベースラインはそれぞれ 48% と 60%)。

さらに、教師なしの手段を通じて専門議論者の説得力を最適化することで、専門家以外の議論における真実を特定する能力が向上します。


論文 9: Genie: 生成的なインタラクティブ環境

著者:ジェイク・ブルース、マイケル・デニス、アシュリー・エドワーズ、ジャック・パーカー・ホルダー、ユゲ・シー、エドワード・ヒューズ、マシュー・ライ、アディティ・マヴァランカール、リッチー・スタイガーヴァルド、クリス・アプリス、ユスフ・アイタール、サラ・ベクトル、フェリアル・ベバハニ、ステファニー・チャン、ニコラス・ヒース、ルーシーゴンザレス、サイモン・オシンデロ、シェルジル・オザイア、スコット・リード、ジンウェイ・チャン、コンラッド・ゾルナ、ジェフ・クルーン、ナンド・デ・フレイタス、サティンダー・シン、ティム・ロックテッシェル

機関: コロンビア大学、Google DeepMind


論文アドレス: https://arxiv.org/pdf/2402.15391

Google DeepMind チームによってリリースされた基本的な世界モデル - Genie "Elf"。

画像、写真、スケッチから、無限の世界を生成できます。


Genie のクレイジーな点は、200,000 時間のラベルのないインターネット ビデオから学習し、監督なしでトレーニングしたことです。

アクションの注釈がなくても、主人公が誰であるかを判断し、生成された世界でユーザーが主人公を制御できるようにすることができます。

具体的には、潜在アクション モデル、ビデオ セグメンター、自己回帰動的モデルという 3 つのコア コンポーネントを通じて実装されます。


その結果得られる学習された潜在アクション スペースは、ユーザー インタラクションを可能にするだけでなく、エージェントが未見のビデオ内の動作を模倣するようにトレーニングするのにも役立ちます。

全体として、Genie は将来のジェネラリスト エージェントを育成する新しい方法を切り開き、インタラクティブな生成環境の景観を再構築します。

論文 10: VideoPoet: ゼロショット ビデオ生成のための大規模言語モデル

著者:ダン・コンドラチュク、リジュン・ユー、シウエ・グ、ホセ・レザマ、ジョナサン・ファン、グラント・シンドラー、レイチェル・ホーナング、ヴィグネシュ・ビロドカール、ジミー・ヤン、ミンチャン・チウ、クリシュナ・ソマンデパリ、ハッサン・アクバリ、ヤイル・アロン、ヨン・チェン、ジョシュ・ディロン、アグリムグプタ、ミーラ・ハーン、アンジャ・ハウト、デビッド・ヘンドン、アロンソ・マルティネス、デビッド・ミネン、ミハイル・シロテンコ、キヒョク・ソン、スアン・ヤン、ハートウィッグ・アダム、ミンシュアン・ヤン、イルファン・エッサ、フイシェン・ワン、デビッド・A・ロス、ブライアン・シーボルト、ルー・ジャン

機関: カーネギーメロン大学、Google


論文アドレス: https://arxiv.org/pdf/2312.14125

Sora のリリースに先立って、Google と CMU チームは、2023 年 12 月の技術ロードマップで、Sora に似たビデオ生成テクノロジーである VideoPoet を開始しました。

VideoPoet は、一度に 10 秒間の超長時間の一貫した大規模なアクション ビデオを生成できます。ビデオの生成に特定のデータは必要ありません。


具体的には、VideoPoet には主に次のコンポーネントが含まれています。

- 事前トレーニング済みの MAGVIT V2 ビデオ トークナイザーと SoundStream オーディオ トークナイザーは、さまざまな長さの画像、ビデオ、オーディオ クリップを、統一されたボキャブラリーで個別のコード シーケンスに変換できます。これらのコードはテキスト言語モデルと互換性があり、テキストなどの他のモダリティと簡単に組み合わせることができます。

- 自己回帰言語モデルは、ビデオ、画像、オーディオ、テキストの間でクロスモーダル学習を実行し、シーケンス内の次のビデオまたはオーディオ トークンを自己回帰的に予測できます。

- テキストからビデオ、テキストから画像、画像からビデオ、ビデオフレームの継続、ビデオの修復/拡張、ビデオのスタイル化、ビデオからオーディオなどを含む、さまざまなマルチモーダル生成学習目標が大規模言語モデルトレーニングフレームワークに導入されています。 。さらに、これらのタスクを相互に組み合わせて、追加のゼロサンプル機能 (テキストからオーディオなど) を実現することもできます。


主要なモデルとは異なり、VideoPoet は普及モデルではなく、T2V、V2A などの機能を備えた大規模なマルチモーダル モデルに基づいています。

つまり、VideoPoet には 3 つの大きな利点があります。それは、より長いビデオの生成、より正確な制御の実現、そして強力なカメラの動きです。


最優秀査読者賞

何よりも、ICML 2024 カンファレンスでは、最優秀査読者賞も発表されました。


参考文献:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211