2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
新しい知恵のレポート
大きな言語モデルが最初にリリースされたとき、そのタスク、ドメインの汎用性、およびスムーズなテキスト生成機能で成功を収めましたが、当時のテクノロジーは一部の比較的単純なタスクにしか適用できませんでした。
思考チェーンなどのプロンプトテクノロジー、特に新しくリリースされた openai の o1 モデルの出現により、強化学習戦略の内部化された思考チェーンテクノロジーを初めて採用し、大規模モデルの複雑な問題を解決する能力と推論を向上させます。まったく新しいレベル。
o1 モデルは、さまざまな一般的な言語タスクでは驚くほど強力な能力を示していますが、医学などの専門分野でのパフォーマンスはまだ不明です。
カリフォルニア大学サンタクルーズ校、エディンバラ大学、国立衛生研究所の中国チームは共同で報告書を発表し、さまざまな医療シナリオにおけるo1の包括的な調査を実施し、理解と推論におけるモデルのパフォーマンスを調査した。 . )と多言語機能。
この評価は、new england journal of medicine (nejm) と lancet professional medical test に基づく 2 つの難しい質疑応答タスクを含む、37 の医療データセットのデータを使用した 6 つのタスクを対象としています。
medqa などの標準的な医療質問回答ベンチマークと比較して、これらのデータセットは臨床的に関連性が高く、実際の臨床シナリオにより効果的に適用できます。
o1 モデルの分析では、llm の推論能力の強化により、モデルによるさまざまな医療指示の理解が促進され、複雑な臨床シナリオにおけるモデルの推論能力も向上できることがわかりました。
19 のデータセットと 2 つの複雑な質問と回答のシナリオにおける o1 モデルの精度が、以前の gpt-4 を平均して 6.2% および 6.6% 上回ったことは注目に値します。
同時に、研究者らは、幻覚、一貫性のない多言語機能、一貫性のない評価指標など、モデルの機能と既存の評価プロトコルにいくつかの欠陥があることを発見しました。
大型モデルの医療能力を総合的に評価
モデルの推論能力を向上させるという点では、思考連鎖 (cot) プロンプトが一般的に使用されるプロンプト戦略であり、モデル内の推論パターンを使用して複雑なタスクを解決する能力を強化します。
o1 モデルはさらに一歩進んでおり、モデル トレーニングに cot プロセスを組み込み、強化学習を統合し、強力な推論パフォーマンスを実証しています。ただし、o1 モデルは専門分野でのデータによる評価がまだ行われておらず、特定のタスクでのパフォーマンスはまだ評価されていません。未知。
医療分野の既存の llm ベンチマークは通常、知識と推論、セキュリティ、多言語などのモデルの特定の機能のみを評価します。テストは互いに比較的分離されており、o1 のような高度なモデルを包括的に評価することはできません。
包括的な評価を確実にするために、研究者らは上記の側面をカバーするさまざまな医療タスクとデータセットを収集し、その過程で次の 3 つの促進戦略を検討しました。
1. 大規模な言語モデルをガイドして問題を直接解決するための直接的なプロンプト
2. 思考チェーン。最終的な答えを生成する前に、モデルが段階的に考える必要があります。
3. 少数のショットのヒントは、入出力マッピングをオンザフライで学習するためのいくつかの例をモデルに提供します。
最後に、適切なメトリクスを使用して、生成された応答と実際の応答との差を測定します。
焦点とタスク
研究者らは、35 の既存のデータセットを利用し、評価の難易度が高い 2 つの追加データセットを作成し、特定のドメインでモデルがどのように機能するかをより明確に評価および分析できるように、37 のデータセットすべてを 3 つの側面と 6 つのタスクに分類しました。
理解,内部の医学知識を使用して医療概念を理解するモデルの能力を指します。
たとえば、概念認識タスクでは、モデルは論文や診断レポートから医学概念を抽出または詳しく説明する必要があり、テキスト要約では、モデルは複雑なテキスト内の概念を理解して簡潔な要約を生成する必要があります。
推論,結論に達するまでの複数のステップを通じて論理的に考えるモデルの能力をテストします。
質問と回答のタスクでは、モデルは、質問で提供された医療情報に基づいて推論し、複数の選択肢から正しい回答を選択するための即時の指示に従う必要があります。
研究者らは、一般的な質問と回答のデータセットに加えて、llm の臨床的有用性をより適切に評価するために、ランセット、ニューイングランド医学ジャーナル (nejm)、および medbullets から実際の臨床上の質問も収集しました。
臨床推奨タスクでは、モデルは患者情報に基づいて治療の推奨や診断の決定を提供する必要があります。 ai hospital および agentclinic データセットでは、モデルは医療エージェントとして機能する必要があります。medcalc-bench データセットでは、モデルは数学的推論を実行して答えを計算する必要があります。
多言語性、指示を入力する言語と回答を出力する言語が異なります。
xmedbench データセットでは、llm が中国語、アラビア語、ヒンディー語、スペイン語、中国語、英語を含む 6 つの言語で医療質問に回答する必要があります。ai 病院データセットでは、モデルでは質問と回答に中国語を使用する必要があります。
評価指標
正確さ、真の答えと完全に一致するモデルによって生成された答えの割合を直接測定するものです。
主に、実際の答えが単語または語句である場合に使用されます。これには、多肢選択式質問データ セット、medcalcbench データ セット、臨床アドバイスおよび概念識別データ セットが含まれます。
f1 スコア (適合率と再現率の調和平均) は、モデルが複数の正解を選択する必要があるデータ セットで使用されます。
ブルーとルージュ、評価におけるすべての自由形式生成タスクに bleu-1 と rouge-1 を使用して、生成された応答と実際の応答の間の類似性を測定する自然言語処理メトリクス
アラインスコアは、生成されたテキスト ファクトの一貫性を測定するメトリックであり、不特定のすべての形式生成タスクに対して alignscore を使用して、モデルの錯視の程度を評価します。
藤色生成されたテキストと人間が書いたテキストの分布の違いを測定するメトリクスは、すべての不特定の形式生成タスクに使用されます。メトリクスの値の範囲は 0 から 100 で、値が大きいほどモデルの品質が高いことを示します。出力。
実験結果
迅速な戦略
知識に関する質問と回答のタスク、エージェントのタスク、医療コンピューティングのタスク、および多言語関連のタスクについては、直接即時評価方法を使用します。
meds-bench の他のタスクでは、ベンチマーク設定の 3 サンプル プロンプト戦略に従います。
openai の声明によると、モデルにはすでに暗黙的な cot が組み込まれているため、思考連鎖 (cot) やコンテキスト内の例などの一般的なプロンプト手法は、o1 のパフォーマンスの向上にはあまり役に立ちません。
この主張をさらに検証するために、研究者らは、cot、自己一貫性、反射など、いくつかの高度な手がかりの効果を評価に追加しました。
研究者らは、評価用に gpt-3.5、gpt-4、および o1 モデルを選択することに加えて、2 つのオープンソース モデルも選択しました。1 つは医療センターのデータでトレーニングされた大規模言語モデル meditron-70b で、もう 1 つは最新かつ最も強力なオープンソースです。モデル 大規模言語モデル llama3-8b
主な成果
o1 の臨床理解能力が強化されました
o1 モデルがリリースされたとき、openai は主にそのモデルを強調しました。数学的問題解決やコード生成などの知識と推論能力の大幅な向上は実験結果からも観察され、この能力は特定の臨床知識の理解にも応用できます。
たとえば、o1 は、f1 を指標として使用した 5 つの概念認識データセットで、平均して gpt-4 および gpt-3.5 をそれぞれ 7.6% および 26.6% 上回っています。一般的に使用されている bc4chem データセットでは平均 24.5% の向上が見られます。
要約タスクでは、o1 は gpt-4 および gpt-3.5 と比較して rouge-1 スコアをそれぞれ 2.4% および 3.7% 向上させ、現実世界の臨床理解における能力の向上を証明しました。この結果はまた、大規模言語モデルの役割を裏付けました。一般に、自然言語処理機能の進歩は、医療分野におけるモデルの理解を効果的に強化することができます。
臨床診断シナリオにおける o1 モデルの強力な推論能力
推論関連のタスクでは、o1 モデルは現実世界の診断状況でもその利点を実証しています。
新しく構築された難しい質問応答タスク nejmqa および lancetqa では、それぞれのデータセットにおける o1 の平均精度は、gpt-4 (79.6%) および gpt-3.5 (61.5%) と比較して、それぞれ 8.9% および 27.1% 向上しました。
o1 の数学的推論能力におけるもう 1 つの顕著な改善は、medcalc-bench のベースラインが 34.9% に向上し、gpt-4 よりも大幅に 9.4% 高いことです。
複数ラウンドの対話と環境シミュレーションを含むより複雑な推論シナリオでは、o1 は agentclinic ベンチマークで gpt-4 と gpt-3.5 を上回り、medqa と nejm サブセットでそれぞれ少なくとも 15.5% と 10% 向上しました。精度率が向上しました。 、スコアはそれぞれ 45.5% と 20.0% でした。
精度が高いことに加えて、o1 の回答はより簡潔かつ直接的ですが、gpt-4 は間違った回答の横に幻覚的な説明を生成します。
研究者らは、o1 の知識と推論の向上は主に、トレーニング プロセス中に強化されたデータと基礎となる技術 (cot データや強化学習技術など) を使用したことに起因すると考えています。
上記の楽観的な結果に基づいて、研究者らは論文の中で興奮気味に次のように述べています: o1 モデルを使用すると、完全自動 ai 医師にますます近づきます。