清華大学がBest Paper Time Testing Awardを受賞、山東大学が佳作を受賞、SIGIR 2024がリリース

2024-07-18

マシンハートレポート

編集者: シャオ・ジョウ、チェン・チェン

清華大学の成績は素晴らしいです。

第 47 回 Association for Computing Machinery Conference on Information Retrieval (ACM SIGIR) が、2024 年 7 月 14 日から 18 日まで米国ワシントン DC で開催されます。この会議は情報検索分野におけるトップの学術会議です。

先ほどカンファレンスで最優秀論文賞、最優秀論文準賞、最優秀論文佳作賞、タイムテスト賞が発表されました。

その中で、清華大学、中国人民大学ヒルハウス人工知能大学院、小紅書チームが最優秀論文賞を受賞し、グラスゴー大学とピサ大学の研究者が最優秀論文賞を受賞した。論文は山東大学（青島）、ライデン大学、アムステルダム大学に授与され、Time Test Awardは清華大学とカリフォルニア大学サンタクルーズ校の研究者に授与されました。

次に、受賞論文の具体的な内容を見てみましょう。

最高の紙

論文: 高密度検索のためのスケーリング則

論文の著者: Fang Yan、Jingtao Zhan、Ai Qingyao、Mao Jiaxin、Weihang Su、Jia Chen、Liu Yiqun

機関: 清華大学、中国人民大学ヒルハウス人工知能学院、小紅樹

論文リンク: https://dl.acm.org/doi/abs/10.1145/3626772.3657743

論文の紹介 : 研究者たちは、幅広いタスク、特に言語生成にわたってスケーリングの法則を観察してきました。調査によると、大規模な言語モデルのパフォーマンスは、モデルとデータセットのサイズ全体にわたって予測可能なパターンに従います。これは、特に大規模なトレーニングがますますリソースを消費するようになる中で、トレーニング戦略を効果的かつ効率的に設計するのに役立ちます。しかし、密な検索では、拡張則は十分に検討されていません。

この研究では、スケーリングが高密度検索モデルのパフォーマンスにどのような影響を与えるかを調査します。具体的には、研究チームは、さまざまな数のパラメータを使用して高密度検索モデルを実装し、さまざまな量の注釈付きデータを使用してモデルをトレーニングしました。この研究では、評価指標として対照エントロピーを使用します。離散的なランキング指標と比較して、対照エントロピーは連続的であるため、モデルのパフォーマンスを正確に反映できます。

実験結果は、高密度検索モデルのパフォーマンスが、モデルのサイズおよびアノテーションの数に応じた正確なべき乗則スケーリングに従うことを示しています。

さらに、この研究では、スケーリング則が、予算制約下でのリソース割り当ての問題の解決など、トレーニングプロセスの最適化に役立つことも示しています。

この研究は、高密度検索モデルのスケーリング効果の理解に大きく貢献し、将来の研究に有意義な指針を提供します。

最優秀論文賞次点

今年の ACM SIGIR の最優秀論文の次点は、論文「A Reproducibility Study of PLAID」に授与されました。この論文の著者には、グラスゴー大学のショーン・マカバニー氏とピサ大学のニコラ・トネロット氏が含まれます。

論文アドレス: https://arxiv.org/pdf/2404.14989

論文概要 : ColBERTv2 の PLAID アルゴリズムは、クラスター化された用語表現を使用して文書を取得し、段階的にプルーニングして、最終的な文書スコアを取得します。この記事は、原文の欠落部分を再現し、埋めています。研究者らは、PLAID によって導入されたパラメーターを研究することにより、そのパレート境界が 3 つのパラメーター間のバランスによって形成されることを発見しました。推奨設定から逸脱すると、必ずしも有効性が向上するわけではなく、遅延が大幅に増加する可能性があります。

この発見に基づいて、この論文では PLAID を、この論文に欠けている重要なベースラインである語彙システムの並べ替えと比較します。 ColBERTv2 を初期 BM25 結果プールに加えてリオーダラーとして適用すると、低遅延設定で効率と効果のトレードオフが向上することがわかりました。この研究は、検索エンジンの効率を評価する際に、関連するベースラインを慎重に選択することの重要性を強調しています。

優秀論文佳作賞

この会議で最も優れた論文に与えられる佳作賞は、山東大学（青島）、ライデン大学、アムステルダム大学の研究者が受賞しました。受賞論文は「Generative Retrieval as Multi-Vector Dense Retrieval」です。

論文の著者: Wu Shiguang、Wei Wenda、Zhang Mengqi、Chen Zhumin、Ma Jun、Ren Zhaochun、Maarten de Rijke、Ren Pengjie

論文アドレス: https://arxiv.org/pdf/2404.00684

論文概要 : この論文では、生成検索とマルチベクトル密検索が同じフレームワークを共有していることを実証することで、ドキュメントクエリの関連性を測定します。具体的には、彼らは生成検索のアテンション層と予測ヘッドを研究し、生成検索がマルチベクトル密検索の特殊なケースとして理解できることを明らかにしました。どちらの方法も、クエリベクトルとドキュメントベクトルとアライメント行列の積の合計を計算することによって相関を計算します。

次に研究者らは、文書トークンベクトルとアライメント行列を計算するさまざまな戦略を使用して、このフレームワークを生成検索にどのように適用できるかを調査しました。結論を検証するために実験が行われ、両方のパラダイムがアライメント行列の用語一致において共通点を示すことが示されました。

実績ある賞

今年の ACM SIGIR Time Test Award は、10 年前の SIGIR 2014 で発表された説明可能な推奨に関する研究「フレーズレベルの感情分析に基づく説明可能な推奨の明示的因子モデル」に授与されました。

論文の著者: Zhang Yongfeng、Lai Guokun、Zhang Min、Yi Zhang、Liu Yiqun、Ma Shaoping

機関: 清華大学、カリフォルニア大学サンタクルーズ校

論文リンク: https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf

本研究は、「解釈可能な推奨」の問題を初めて定義し、この技術的課題を解決するための感情分析手法を提案し、関連分野で主導的な役割を果たしてきました。

論文概要 : 潜在因子モデル (LFM) などの協調フィルタリング (CF) ベースの推奨アルゴリズムは、予測精度の点で優れたパフォーマンスを発揮します。しかし、その根本的な特性により、レコメンド結果をユーザーに説明することが困難になります。

幸いなことに、オンラインユーザーレビューが増加し続けるにつれて、レコメンダーシステムのトレーニングに利用できる情報は、数値による星による評価やユーザー/アイテムの特性に限定されなくなりました。レビューから製品のさまざまな側面に関するユーザーの明確な意見を抽出することで、ユーザーが何を気にしているのかをより詳細に理解することができ、説明可能な推奨事項を作成できる可能性がさらに明らかになります。

この論文では、高い予測精度を維持しながら解釈可能な推奨事項を生成するための EFM (Explicit Factor Model) を提案します。

研究者らはまず、ユーザーレビューに対してフレーズレベルのセンチメント分析を実行することで明示的な製品の特徴とユーザーの意見を抽出し、次にユーザーの興味のある特定の製品の特徴と学習した潜在的な特徴に基づいて推奨事項と非推奨事項を生成します。さらに、アイテムが推奨される理由、または推奨されない理由についての直感的な機能レベルの説明がモデルから生成されます。

複数の実世界のデータセットに対するオフライン実験の結果は、この研究で提案されたフレームワークが、評価予測タスクとトップ K 推奨タスクの両方において競合するベースラインアルゴリズムよりも優れていることを示しています。オンライン実験では、詳細な説明により、推奨または非推奨がユーザーの購買行動に大きな影響を与えることが示されています。

若手学者賞

ACM SIGIR Young Scholar Award は、情報検索研究、学者コミュニティの構築、学術的公平性の促進において重要な役割を果たした研究者を表彰することを目的としており、博士号取得後 7 年以内の若手研究者に授与されることが義務付けられています。清華大学コンピューターサイエンス学部助教授のAi Qingyao氏と、中国科学技術大学サイバースペースセキュリティ学部およびビッグデータ学部の教授兼博士指導教員であるWang Xiang氏が、SIGIR 2024 Youngを受賞しました。学者賞。

アイ・チンヤオ

Ai Qingyao は清華大学コンピューターサイエンス学部の助教授であり、主な研究分野は情報検索、機械学習、自然言語処理です。主な研究方向は、情報表現学習、ランキング最適化理論、インターネット検索と推奨、スマートジャスティスにおける大規模言語モデルの応用など、インテリジェントな情報検索システムの研究と設計です。

王祥

Wang Xiang は、中国科学技術大学のサイバースペースセキュリティ学部とビッグデータ学部の教授および博士指導教員です。ワン・シャン教授の研究対象には、情報検索、データマイニング、信頼性と説明可能な人工知能、特に推奨システム、グラフ学習、ソーシャルメディア分析が含まれます。

ニュース

清華大学がBest Paper Time Testing Awardを受賞、山東大学が佳作を受賞、SIGIR 2024がリリース

導入

私の連絡先情報