私の連絡先情報
郵便管理者@information.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
上海交通大学の王徳泉研究グループによる寄稿
パブリックアカウント QbitAI
上海交通大学の王徳泉教授の研究グループは、最新の研究でそのような疑問を提起した。
次のシナリオを想像してください。幼稚園の子供がトラの写真を持って、「この子猫はとてもかわいいですね。メス猫ですか?」と尋ねます。
「はい」「いいえ」で直接答えることはできませんが、まずこの質問の「矛盾」を指摘してください——。この写真は猫ではなく虎です。
しかし、大規模モデルがどのように反応するかについての体系的な研究はこれまでほとんど行われていませんでした。
「命令の矛盾」を検出できない AI モデルは、「答えがあるはずのない質問」に対する結果を生成し、生成された結果が矛盾のどちら側に偏っていても、潜在的な災害を引き起こし、AI に影響を与える可能性があることを知っておく必要があります。セキュリティとスーパーアライメント(スーパーアライメント)。
この最新の研究で研究チームは次のように提案しました。マルチモーダルベンチマーク——矛盾した命令セット、革新的なものを設計しましたデータセット自動作成フレームワーク、という名前の自動作成。
研究チームは、マルチモーダル大規模モデルでは矛盾するユーザー指示の検出が非常に不十分であることを発見したため、次のように提案しました。認知覚醒促進法(CAP)、外界から認知能力を注入し、それによって矛盾を検出する能力を向上させます。
この論文は、今年10月に開催される第18回欧州コンピュータビジョン会議(ECCV)で発表される予定だ。
現在、マルチモーダル大型モデルは科学研究と応用分野で大きな進歩を遂げています。テキストや画像などのさまざまな種類のデータを処理でき、人間の認知と同様の機能を示します。
研究チームは、これらのモデルの成功は、たとえ多少「従順」であっても人間の指示に厳密に従うことを可能にする広範な研究開発作業のおかげであると考えています。
さらに、これらのモデルは長いコンテキストに特に優れています。 Claude 3 や Gemini 1.5 Pro などのマルチモーダル大型モデルは、強力な機能を実証しています。 Claude 3 シリーズ モデルは 200K トークンのコンテキスト ウィンドウを提供し、Gemini 1.5 Pro の標準コンテキスト ウィンドウ サイズは 128K で、プライベート プレビュー フェーズでは 100 万トークンに達することもあります。
これらの進歩により、マルチモーダルな大規模モデルが複雑なタスクの処理に優れたパフォーマンスを発揮し、長期的な対話に対する人間のニーズを満たすことが可能になります。
しかし、マルチモーダルインタラクションの深化とコンテキストの長さの増加に伴い、矛盾するユーザー指示の問題がますます顕著になります。
以下に示すように、ユーザー (子供や言語初心者など) がこれらのモデルを使用する場合、潜在的なマルチモーダル競合に気づかないことがよくあります。
同時に、対話のターン数が増加し、コンテキスト ウィンドウが拡大すると、ユーザーが詳細をすべて覚えておくことが困難になり、指示間の矛盾が生じます。
さらに、モダリティの数が増加すると、モダリティ間の競合も発生する可能性があります。これらのモデルに自己認識と矛盾を識別する能力が欠けると、パフォーマンスが低下します。
これらの課題に対処するために、この記事の研究チームはマルチモーダル ベンチマーク テストを提案しました。矛盾した命令セット」 (自己矛盾命令、SCI) は、競合する命令を検出するマルチモーダル大規模モデルの能力を評価するために使用されます。
SCI には以下が含まれます20,000 の矛盾する命令そして8つのタスク、均等に分布言語 - 言語そして視覚的・言語的2つのパラダイムで。
図の上部では、言語言語パラダイムには、設計規則の競合、オブジェクト プロパティの競合、排他的指示、禁止語彙など、コンテキストと指示の間の競合が含まれています。
図の下の部分: 視覚言語パラダイムは、OCR テキスト認識の競合、図表の競合、幾何学的競合、意味論的な競合などのマルチモーダルな競合をカバーしています。 8 つのタスクのうち、他のデータセット (ImageNet) に関わるセマンティック競合のみです。
具体的な例を挙げると、意味論的な矛盾を構築する場合、研究者はまず画像に基づいて対応するテキストを生成し、次にテキスト内の主要な意味論情報を、似ているが異なる新しい意味論に置き換えます。
下の絵では、絵にダチョウ(ダチョウ)が含まれていますが、作者は絵「ダチョウ」の意味的意味について「その絵はダチョウの大きさを表していますか?」という質問を追加しています。
その後、この質問テキストの重要な意味「ダチョウ」が「キウイ」に置き換えられました。このようにして、矛盾するマルチモーダル命令のペアが構築されます。
SCI 構築プロセス全体を通じて、著者は革新的な自動データセット作成フレームワークを設計しました—自動作成。
プログラムと大規模な言語モデルを通じてマルチモーダル ループを構築します。このフレームワークはプログラムと大規模な言語モデルを活用して、データセットの自動作成を可能にします。
AutoCreate は、いくつかのタスク関連のシード データから開始し、シード プールを維持します。各サイクル内で、AutoCreate には 2 つの分岐が含まれます。言語部門(左)とビジュアルブランチ(右)。各ブランチはジェネレーターとデコレーターで構成されます。
最後に、クリーナーは基準を満たさないデータを除外します。人間の専門家による品質チェックに合格した後、このデータは次のラウンドのシード プールにフィードバックされます。
AutoCreate は、SCI データ セットの構築速度とコンテンツの幅を大幅に向上させます。
研究者らは、SCI データセットを使用して、矛盾する命令を処理する際の大規模モデルのパフォーマンスを包括的に評価しました。
実験結果によると、現在の大規模モデルは、矛盾した命令に直面した場合、特定の欠陥を示すことがよくあります。
情報や知識を処理することはできますが、指示の妥当性を判断する能力の欠如、研究チームが「認知」能力と呼ぶもの。
この欠陥は、自己認識の欠如と、指示の矛盾を認識できないことに起因します。
そこで研究者らは、「」と呼ばれるシンプルなドロップインプロンプト方法を提案しました。認知能力を目覚めさせるためのヒント(認知覚醒プロンプト、CAP)。
CAP パス入力入力簡単なリマインダーを追加する, 外界から認知能力を注入することで大規模モデルの矛盾検出能力を向上させることができ、基本的に悪影響はありません。
この発見は、現在のマルチモーダル大規模モデルでは、複雑な命令の競合をより適切に処理するために、より多くの自己認識と認知能力が必要であることを示唆しています。
詳細については、興味のある子供たちは原論文を閲覧できます。
論文の筆頭著者は上海交通大学の博士候補者であるガオ・ジン。
彼の研究対象には、コンピューター ビジョン、マルチモーダル大規模モデル、人工知能によって強化された生命科学などが含まれます。
この論文の責任著者は、上海交通大学の終身在職助教授および博士指導教員です。王徳泉復旦大学を卒業し、学士号を取得し、カリフォルニア大学バークレー校で博士号を取得し、トレバー・ダレル教授に師事しました。
彼の研究成果は、CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS などの主要な国際会議で発表されています。彼の論文は、過去 5 年間で Google Scholar で 10,000 回以上引用されており、H-インデックスは20。
論文リンク: https://arxiv.org/abs/2408.01091
プロジェクトリンク: https://selfconflictition.github.io/