私の連絡先情報
郵便管理者@information.bz
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
マシーンハートオリジナル
著者: 張騫
今年 3 月、NVIDIA CEO のジェンスン・フアン氏は非常に特別なイベントを開催しました。同氏は、革新的な論文「Attending Is All You Need」の著者らを GTC に招待し、生成 AI の将来の開発方向について話し合った。
「私たちの分野が今日楽しんでいるすべてのものは、その瞬間に遡ることができます...あなたは世界を変えました...」とファン・ジェンシュンは現場で言いました。
AIのような科学研究志向の産業にとって、世界を変える次のチャンスはある論文の中に隠されている可能性もあります。
したがって、このサークルでは珍しい現象が見られました。技術系ではない背景を持つ一部の CEO も、意思決定にかかる試行錯誤のコストを削減したいと考えて、夜更かしして論文を読み始めています。。
これがCEOに当てはまるとしたら、ましてやその分野の他の実務家には当てはまらない。少し前から、OpenAI、Google、Meta が大きな動きを見せており、一部のスタートアップも新しいモデルや手法を次々と発表しており、多くの実務家は取り上げるべき論文が多すぎると感じると思います。
AI に論文を渡して要約させることは、今日では一般的な読書方法ですが、多くの AI 要約には、明確なレベルや革新性と限界の詳細な説明が欠けており、論文を完全に理解するには、数回の質問を行う必要があります。さらに、一部の主要なモデル アーキテクチャ図や実験結果図は論文の中から自分で探す必要があり、実際に節約できる時間は非常に限られています。
テンセントでは「元宝最新のアップデートでは、これらの問題の解決策が示されました。彼らの新しい「深読みモード"サポート長くて集中的な読書,モジュール式の図解分析を出力する機能、論文を読むのに非常に適しています。
マシンハートではこの新機能の効果を検証するため、実機テストを実施しました。
論文の「精読」、本質はどこにあるのか?
AI を使って論文を読むのはどのようなものですか?多くの場合、PDF を投げると、概要と複数の概要が返されます (最大 10 件の場合もあります)。この情報は確かに役に立ちますが、どれがハイライトなのか、この論文で何が解決され、何が解決されないのか、どの中心的な問題に注目する価値があるのかを区別するのが難しい場合があります。
実際のテストでは、「Yuanbao」が一連のモジュール化された構造化された情報を提供することでこれらの問題を解決することがわかりました。
私たちがテストした SIGGRAPH 論文を例として取り上げます。論文を直接投げ込んだ場合、返される要約は他の AI とそれほど変わりません。ただし、辛抱強く下にスクロールすると、「文書を詳しく読む」ボタンが表示されます。これは、論文を集中的に読むための「ワンクリック」スイッチです。
これまでの論文要約インターフェースとは異なり、ページを集中的に読むと、論文が非常に多くの層に分割されます。では、Machine Heart が通常紹介する論文のレイアウトと同様に、研究の背景、研究方法、実験計画、結果分析、全体的な結論がそれぞれモジュールにまとめられています。これらはすべて、左側のアウトラインからすぐにジャンプできます。
各モジュールに含まれる単語はわずかですが、これらの単語は実際には非常に有益です。たとえば、研究の背景モジュールでは、「研究の困難さ」の段落で 4 つの困難をわずか 3 つの短い文で説明しており、「関連作業」は第 2 章の「関連作業」を高度に凝縮したものです。1 つの段落で次のことが説明されています。この分野における 4 つの困難な主な技術ルートが明確に紹介されています。したがって、このモジュールを読むと、その論文がどのような問題を研究しており、どのような研究状況に直面しているのかを基本的に理解することができます。
こうした従来の構造化された情報に加え、元宝の精読には目を引くデザインも施されている——論文の長所と短所をリストしますこれにより、研究者はこの論文から何が学べるのか、どのような問題が研究を続ける価値があるのかをすぐに理解できるようになります。
この機能がなぜそれほど重要なのでしょうか?台湾の清華大学の彭明輝教授はかつて、論文の読み方についての記事で、論文は教科書とは異なり、他人が編集・整理した体系的な知識を提供するものであるのに対し、論文は読者が未整理の知識を自分で検索して整理する必要があると述べた。知識をフィルタリングして整理します。で、既存の研究の長所と短所を分析する能力は特に重要であり、これは批判的思考の重要な部分であり、学術研究において自分自身を向上させる重要な方法です。。 Yuanbao は、論文の長所と短所を迅速に分析して要約することにより、研究者がスクリーニングと事前理解にかかる時間を大幅に節約し、研究に直接関連する論文により早く集中できるようにします。
ただし、前の情報が面倒だと感じる場合は、最後の情報に直接ジャンプすることもできます。「重要な質問と回答」モジュール。ここでは、論文の価値をすぐに理解し、時間をかけて原文を読む価値があるかどうかを判断するのに役立つ、最も重要な質問をいくつか紹介します。もちろん、これまでの AI アシスタントの多くも、回答の最後にいくつかの重要な質問を提示しており、ワンクリックで回答を得ることができますが、初心者や学際的な背景を持つ読者にとっては、それは簡単ではないかもしれません。どの質問がより重要であるかを判断できるようになります。元寶の直接的な表現は、より直感的に感じられます。
元の画像は元の番号です。AI は論文を読むときに画像を追加できないと誰が言いましたか?
論文を読むとき、多くの人は写真を見ながら論文の説明を読む習慣があります。この方法の方が早くて理解しやすいです。ただし、現在市場にあるほとんどの AI アプリケーションはテキスト結果を返します。画像を見たい場合は、元のテキストで検索する必要があります。
私たちのテストでは、次のことがわかりました。Yuanbao は、紙の写真を直接切り取って、段落の対応する位置に配置できる数少ない AI の 1 つです。。たとえば、モジュールがアーキテクチャについて説明している場合、対応するアーキテクチャ図が表示されます。
特定のモジュールの実験結果について話すと、対応するグラフが表示されます。
周知のとおり、大規模モデルの錯視問題を完全に解決する方法はありません。したがって、この元の数値の提示は、実際にはより信頼性の高い出力方法であり、読者がいつでもモデルの答えを確認することが容易になり、参考として使用する場合にはより安全です。
さらに、ブログやその他の外部出力を書く必要がある場合、Yuanbao はグラフの描画にも役立ち、データの場所を指示する必要がなく、関連するテーブルを見つけることができることもわかりました。紙単体でデータを入れ、それを取り出して描画します。この機能は、精読ページの右側にある「質問する」ボタンから呼び出すことができます。
いつでもどこでも好きなときに読むことができます。論文を読むのには多くの障害があると誰が言いましたか?
構造化された情報と画像やテキストによる出力に加えて、Yuanbao には実際に論文を読むのをより便利にする非常に実用的な小さな機能がいくつかあることもテスト中にわかりました。
まずは単語の翻訳と検索、これらは「原文」読み取りインターフェイスの 2 つの実用的な小さな機能です。クロスワード翻訳は、英語が苦手な読者がいつでもどこでも言語の壁を取り除くのに役立ちます。たとえば、クロスワード検索はプラグイン化されており、検索できるようになります。関連情報がいつでも確認できます。さらに、Yuanbao 氏の説明は単なる要約ではなく、モジュール形式で拡張されており、細部にわたって実に「構造化」され、「有益」です。
に続く"オフラインで読む”。この機能の実用性は、精読コンテンツや原文を「機内モード」で断片的な時間を無駄にすることなく復習できることです。これにより航空会社は高速鉄道との競争である程度の地位を取り戻すことができる。研究者たちの次のインスピレーションは、機内で集中的に読んだ本を見直すことから生まれるかもしれません。
最後の小さな関数は「電卓”。少し前に、AI が 9.9 と 9.11 のどちらが大きいかを区別できなかったことが大きな議論を巻き起こしました。 Yuanbao には、正確な計算に基づいて回答が生成されることを保証する統合された計算機機能があることがわかりました。この機能は実験データを読み取るときに非常に役立ちます。
長文の精読の裏には専門家の指導があることが判明
公式情報によると、Tencent Yuanbaoの今回のアップグレードは「長文集中読解」に焦点を当てており、最大50万語近くの入力をネイティブでサポートできるという。テストで使用した紙はこの長さに遠く及ばず、私たちが日常的に触れる紙のほとんどはこの長さに達することができません。したがって、Yuanbao を使用して論文を集中的に読む場合は、ほとんどの場合、コンテキスト ウィンドウで十分です。そのモジュール性、グラフィックおよびテキスト出力、および単語検索や翻訳などの小さな機能も、論文を読むのを本当に便利かつ効率的にし、「実用性」にさらに一歩近づきます。
この進化は、その背後にあるモデル、つまり Tencent の Hunyuan 大型モデルのアップグレードと切り離すことができません。プロの分野でのモデルの専門性と実用性を向上させるために、Tencent Hunyuan チームが開発したと報告されています。各専門分野の核となるスキルを概説し、専門的な質問に答えるための基準を策定するために、その分野の専門家が特別に招待されます。これにより、モデルが真のドメイン専門家として機能できるようになります。そのため、使用してみて、Yuanbao は読者が必要とする情報とその情報をどのように提示すべきかを理解していると感じました。
論文だけでなく、精読にも使える新機能財務報告書、調査報告書等しい長さのテキスト。このようなシナリオでは、情報を多面的に整理し、レポートの内容に基づいてデュポン分析チャートなどの専門的なチャートを生成できるため、これらの文書を理解できない人でも会社の財務状況やその他の情報を理解できるようになります。
ただし、論文を読むというシナリオでは、原文読み取りインターフェイスで完全な原文と翻訳の比較ができなかったり、数式の識別が十分に正確でない場合があるなど、Yuanbao にはまだ改善の余地があります。また、Yuanbao が将来のアップデートでこれらの問題を改善できることを期待しています。
しかし、リリースされてから 2 か月以上しか経っていないアプリケーションであるにもかかわらず、Tencent Yuanbao のパフォーマンスはすでに予想を上回っています。その進化の軌跡により、大規模モデルがどのように段階的に新しい生産性を実現していくのかを知ることができます。また、このアプリが私たちにさらなる驚きをもたらすことを楽しみにしています。