私の連絡先情報
郵便メール:
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
西風は蒼飛寺から吹いてくる
パブリックアカウント QbitAI
大型モデルの幻想も内部と外部に分かれる——
OpenAIの中国人科学者ウェン・リー氏の最新ブログはこう提案するLLM外部幻覚(外因性幻覚)。
参照モデルによって生成される現実と矛盾した、架空の、矛盾した、または無意味なコンテンツとは異なり、ウェン・リーは LLM の「幻想」問題を次のように指定しました。モデルの出力コンテンツは架空のものであり、提供されたコンテキストや世界の知識に基づいていません。。
このことから、幻覚には 2 つのタイプがあることがわかります。
以前、Weng Li は次のようなエージェントの公式も提案しました。エージェント = 大規模モデル + メモリ + アクティブな計画 + ツールの使用。これは一部のネチズンから「エージェントに関する最高の記事」と呼ばれていました。
大きなモデルの錯覚に関するこのブログも「重労働」です。この記事は非常に長く、合計 24 件の参考文献があります。
ウェン・リーは外部幻覚に焦点を当て、次の 3 つの疑問について議論しました。幻覚の原因は何ですか?幻覚の検出、幻覚に抵抗する方法。
Qubits は、元の意味を変更することなく、原文を編集して整理しました。
Qubits は、元の著者の許可を得て翻訳および転載されています。
原文はここにあります:
https://lilianweng.github.io/posts/2024-07-07-hallucination/
標準の展開可能な LLM は調整と改善のために事前トレーニングと微調整が必要であることを考慮すると、原因分析はこれら 2 つの段階から始まります。
事前トレーニングデータの問題
事前トレーニング データセットは、利用可能な世界の知識をすべて書面で表すように設計されているため、膨大な量になります。
公共のインターネットからデータをスクレイピングするのが最も一般的なオプションですが、これにより情報が古くなったり、欠落したり、誤ったりする可能性があります。対数尤度を最大化するだけではモデルがこの情報を誤って記憶する可能性があるため、モデルが間違いを犯す可能性があります。
新しい知識を微調整する
教師あり微調整 (SFT) およびヒューマン フィードバックによる強化学習 (RLHF) による事前トレーニング済み LLM の微調整は、モデルの特定の機能 (命令追跡など) を向上させる一般的な手法です。微調整フェーズでは、必然的に新しい知識が導入されます。
通常、微調整により消費されるコンピューティング リソースは少なくなりますが、小規模なモデルを微調整することで新しい知識を確実に学習できるかどうかには疑問の余地があります。。
今年の研究で、Gekhmanらは、新しい知識を使ってLLMを微調整すると幻覚の発生が促進されるかどうかという問題について議論した。
彼らは、LLM がモデルの既存の知識と一致する例よりも、新しい知識を含む微調整された例から学習する速度が遅いことを発見しました。新しい知識を含むこれらの例を学習すると、モデルの幻覚傾向が増加します。
具体的には、閉じられた質問と回答のデータ セット (つまり、EntityQuestions) = (,) が与えられた場合、Correct(,;,) は、ランダムな例と特定のデコードを使用した場合に、モデル M が正しい答えを正確に生成する可能性の推定値として定義されます。温度について尋ねられた場合、質問に対する正しい答えは次のとおりです。
彼らは、Correct(,;,) のさまざまな条件に基づいて、例を 4 つのカテゴリに分類しました: 既知のグループ (HighlyKnown、MaybeKnown、WeakKnown の 3 つのサブグループを含む) と Unknown グループ。
実験から得られたいくつかの興味深い観察では、開発セットの精度が錯覚の象徴的な指標として捉えられています。
Gekhman らのこれらの結果は、LLM の知識を更新するために教師あり微調整を使用することのリスクを指摘しています。
拡張評価の検索
モデルの幻覚現象を定量化するために、Lee らは 2022 年の新しいベンチマーク データセットを導入しました。事実プロンプト, このデータ セットには、Wikipedia の文書または文章を基本的な事実の知識ベースとして使用し、事実と非事実のヒントが含まれています。
Wikipedia ドキュメントは FEVER データセットからの既知の真の情報ですが、文は tf-idf または文の埋め込みに基づく類似性によって選択されます。
モデルの継続とペアの Wikipedia テキストを考慮して、幻覚を評価するための 2 つの指標が考慮されました。幻覚の名前付き実体(NE)エラー率、含意比率(含意比率)。
NE エラー率が高く、含意率が低いほど、両方のメトリクスが人間の注釈と相関していることがわかり、このベンチマークでは大規模なモデルのパフォーマンスが向上しました。
さらに、Min et al. 2023 は、ファクトスコア 、長い記事の生成を複数の原子的な事実に分解し、Wikipedia などの知識ベースに対して各事実を個別に検証します。各モデルによって生成された知識ソースによってサポートされる文の比率 (精度) を測定できます。FActScore は、キューのセット全体にわたってモデルによって生成された平均精度です。
この論文では、伝記生成タスクに関するさまざまな事実検証方法をテストし、次のことを発見しました。取得を使用すると、コンテキストフリー LLM よりも優れた一貫性が得られます。 。検索強化方法では、最適な推定量の選択はモデルに依存します。
モデルの幻覚行動に関する興味深い観察がいくつかあります。
Wei らは 2024 年に、LLM の長い形式の事実性を評価する方法を提案しました。安全(検索拡張事実評価ツール)。
FActScore と比較した主な違いは、SAFE がエージェントとして言語モデルを使用することです。複数段階のプロセスを通じて Google 検索クエリを繰り返し発行する、そして検索結果がその事実を裏付けているかどうかを推論します。
各ステップで、エージェントはチェックすべき事実と以前に取得した検索結果に基づいて検索クエリを生成します。いくつかのステップの後、モデルは推論を実行して、その事実が検索結果によって裏付けられるかどうかを判断します。
実験によると、SAFE メソッドのコストは人間による注釈の 20 分の 1 ですが、パフォーマンスは人間による注釈よりも優れています。:人間との一致率は72%、不一致において人間を上回る率は76%でした。
SAFE評価指数はF1@Kです。長い事実に基づくモデル応答の場合、応答は次の条件を同時に満たす必要があるため、理想的には精度と再現率の両方が達成される必要があります。
モデルの応答を考慮すると、メトリクス F1@K は次のように定義されます。
さらに、Chern et al. 2023 は、標準に従ったファクトチェックワークフローを提案しました。ファクトツール 。知識ベースの質問応答、コード生成、数学的問題解決、科学文献のレビューなど、さまざまなタスクにおける事実の誤りを検出するように設計されています。手順には次のものが含まれます。
サンプリングベースの検出
Manakul et al. 2023 は、ブラックボックス LLM からの複数のサンプルに依存する一貫性チェックを提案しました。セルフチェックGPT、事実上の誤りを特定するため。
グレーボックスのファクトチェック測定には LLM のトークンレベルの logprob、SelfCheckGPT へのアクセスが必要であることを考慮してください。外部の知識ベースに依存しないサンプルのみを使用するため、ブラックボックスへのアクセスで十分です、外部の知識ベースは必要ありません。
この方法では、さまざまなメトリクスを使用して、モデルの応答と他のランダムなモデル サンプル (BERTScore、NLI、プロンプト (はい/いいえの質問) など) との間の一貫性を測定します。ヒントを使用した SelfCheckGPT は、GPT-3 によって生成された WikiBio パッセージの実験的検査を行う場合に最適なパフォーマンスを発揮するようです。
未知の知識を校正する
答えられない質問や未知の質問に対する答えを生成するようにモデルに依頼すると、幻覚が誘発される可能性があります。真実のQA(Lin et al., 2021) および自己認識(ying et al., 2023) は、そのような状況で現実的な応答を生成するモデルの能力を測定する 2 つのベンチマークです。前者は人的エラーを強調するために敵対的に構築されており、後者には答えられない質問が含まれています。
こうした問題に直面したとき、モデルは回答や関連情報の提供を拒否する必要があります。
TruthfulQA では、テスト問題は人間のよくある誤解や間違いに基づいて敵対的に設計されています。このベンチマークには、健康、法律、金融、政治を含む 38 のトピックをカバーする 817 の質問が含まれています。
テストしたところ、最高の LLM は 58% の精度を達成しましたが、人間は 94% を達成できました。研究チームが発見したのは、よく誤解されているため、大きなモデルは現実的ではありませんが、この傾向は他の規格には反映されていません(非対立的)事実に基づく。
以下は、TruthfulQA での GPT-3 の誤った回答の例です。
インらは2023年に調査した。自己認識の概念は、言語モデルが何を知っているか、何を知らないかを示しています。
SelfAware には、5 つのカテゴリに分かれた 1,032 個の答えられない質問と 2,337 個の答えられる質問が含まれています。回答できない質問は人間による注釈付きのオンライン フォーラムから取得され、回答可能な質問は SQuAD、HotpotQA、および TriviaQA から取得されます。
質問には、科学的な合意がない、将来の想像力、完全な主観、複数の回答が生成される可能性のある哲学的な理由など、さまざまな理由で回答できない場合があります。
この研究では、答えられる質問と答えられない質問の区別をバイナリ分類タスクとして扱い、F1 スコアまたは精度を使用してモデルのパフォーマンスを評価しています。実験では、このタスクでは大規模なモデルの方が優れたパフォーマンスを発揮することが示されています。
モデルが未知の知識をどの程度理解しているかを評価するもう 1 つの方法は、モデル出力の不確実性を測定することです。問題が既知と未知の間にある場合、モデルは正しいレベルの信頼度を示す必要があります。
Kadavath らの 2022 年の実験では、目に見える文字を使用したさまざまな多次元の回答オプションにおいて、トピックの選択形式 (MMLU、TruthfulQA、QuALITY、LogiQA) を使用すると、LLM は、答えが正しい確率の推定に優れたパフォーマンスを発揮します。つまり、予測された確率は、その答えが真である頻度と一致します。
RLHF を微調整すると、モデルのキャリブレーションが低下しますが、サンプリング温度を高くすると、より良いキャリブレーション結果が得られます。
リンらは2022年に提案キャリブレーションされた数学ミッションキット。 CalibrateMath は、モデルの出力確率の調整をテストする、さまざまな難易度のプログラムで生成された一連の数学的問題です。
モデルは質問ごとに、数値的な答えとその答えに対する信頼度を提供する必要があります。次の 3 種類の確率が考慮されます。
間接的なクエリ
Agrawal et al. (2023) は、架空の書籍、記事、論文のタイトルを含む、LLM 世代の幻覚引用のケースを具体的に研究しました。彼らは、幻覚を検出するために、直接クエリと間接クエリという 2 つの一貫性ベースの方法を使用しました。どちらの方法でも、T > 0 の場合にチェックを複数回実行し、一貫性を検証します。
直接クエリでは、生成された参照物質が存在するかどうかをモデルが判断する必要がありますが、間接クエリでは次のような補助的な詳細が必要です。参考文献の著者は誰ですか?。
仮説は、幻覚参照の場合、同じ著者を複数回生成する一貫性は、直接のクエリに対する複数の応答によって参照の存在が明らかになる可能性よりも低いというものです。
実験はそれを示しています間接的なクエリ方法はパフォーマンスが向上し、モデルが大きいほど強力になり、幻覚が少なくなります。。
次に、外部知識ベースからの取得、特殊なサンプリング方法、アライメントの微調整など、LLM 応答の信頼性を向上させるための一連の方法を確認します。ニューロン編集を通じて幻覚を軽減する解釈可能性のいくつかの方法については、ここでは説明しません。
RAG → 編集と帰属
RAG (検索拡張生成) は、関連ドキュメントを取得し、追加の関連ドキュメントをコンテキストとして使用してそれらのドキュメントを生成することにより、基本情報を提供する非常に一般的な方法です。
RARR(Retrofit Attribution using Research and Revision) は、2022 年に Gao らによって提案されたフレームワークで、LLM が編集上の帰属を通じて外部証拠の帰属を遡ってサポートできるようになります。
モデルによって生成されたテキストが与えられると、RARR はそれを 2 つのステップで処理し、改訂されたテキストと属性レポートを出力します。
1. 研究段階: 証拠となる関連文書を見つけます。
まずクエリ生成モデルが (数ショット ヒント、→1、…、を介して) 検索クエリ 1、…、のセットを構築するために使用され、各文のさまざまな側面が検証されます。
Google 検索を実行すると、各クエリ = 5 件の結果が得られます。
事前にトレーニングされたクエリとドキュメントの関連性モデルを利用して関連性スコアが割り当てられ、クエリごとに最も関連性の高い 1 つのドキュメント = 1 ドキュメント 1,… のみが保持されます。
2. 改訂フェーズ: 元のコンテンツをできるだけ保持しながら、出力を編集して証拠によってサポートされていないコンテンツを修正します。改訂されたテキストを初期化します =。
(,) によると、プロトコル モデル (数ショット ヒント + CoT、(,,) → 0,1 経由) は、証拠が現在の改訂テキストと矛盾しているかどうかをチェックします。
矛盾が検出された場合にのみ、編集モデル (いくつかのヒント + CoT、(,,)→ new を介して) は、証拠と同時に最小限の変更が加えられるように設計された新しいバージョンを出力します。
最終的に帰属レポートに含まれるのは、限られた量の =5 証拠だけです。
改訂されたテキストを評価する際には、帰属と保持の両方が重要です。
アトリビューションでは、AIS (特定ソースに帰属) スコアを使用して、コンテンツのどの程度が帰属できるかを測定します。人間による注釈を収集したり、NLI モデルを使用して自動 AIS スコアを概算したりすることができます。
保存とは、元のテキストが保存される程度を指し、Previntent × PrevLev として測定されます。Previntent は手動の注釈を必要とし、PrevLev は文字レベルのレーベンシュタイン編集距離に基づきます。 2 つのベースラインと比較して、RARR は、特に保持指標の点で、よりバランスの取れた結果をもたらします。
Mishra et al. 2024 によって提案された、検索 + 編集を使用した RARR に似ています。ファヴァ (拡張知識による事実検証) では、関連するドキュメントも取得し、モデルの出力を編集して、錯覚的なエラーを回避します。 FAVA モデルは、レトリーバーとエディターで構成されます。
プロンプトとモデルの出力を指定して、最も関連性の高いドキュメントを取得します。
エディターは拡張出力を生成します。
RARR はトレーニングを必要としませんが、FAVA でのエディター モデルの編集には微調整が必要です。さまざまなタイプの幻覚エラーをより詳細に分類することにより、モデル生成にランダムなエラーを挿入することにより、編集されたモデルの合成トレーニング データを生成することが可能になります。
各例はトリプレット (,,∗) です。ここで、 はゴールデン コンテキストとしての元の Wikipedia の一節、 はエラーのある LM 出力、および ∗ はエラー ラベルと正しい編集が含まれた出力です。
2022 年に He らが提案RR(検索による再考) アプローチも、関連する外部知識の検索に依存しますが、追加の編集は必要ありません。
RR の検索は、検索クエリ生成モデルを利用するのではなく、分解された CoT ヒントに基づいています。
入力ヒントが与えられると、RR は CoT ヒントを使用して、温度 > 0 で複数の推論パス 1、…を生成します。各推論パスには説明 (つまり、推論部分) が含まれ、その後に予測 (つまり、実際のモデル出力) が含まれます。 。各説明をサポートするために外部知識 1、…を取得します。そして、取得した知識 1,…, との適合度に基づいて、最も忠実な回答が選択されます。
セルフRAG(Asai et al., 2024) は、言語モデルをエンドツーエンドでトレーニングし、タスクの結果と断続的な特別な反映マーカーを出力することによって、言語モデルが自身の制作を反映することを学習します。
研究チームは、GPT-4 をプロンプトすることでモデルを判断および生成するための教師ありデータセットを作成し、それを内部モデルに蒸留して推論のコストを削減しました。
入力プロンプトが与えられると、生成される出力は複数の部分で構成されます (たとえば、セグメントは文です)。反射マーカーには 4 種類あり、1 つは検索用、3 つは評価用です。
Self-RAG は一度に 1 つのセグメントを生成します。指定された前世代 < に基づいて、モデルは取得トークンをデコードします。
アクションチェーン
外部検索の知識がなくても、モデル自体を検証と改訂に活用する幻覚を軽減するプロセス。
Dhuliawala らは、2023 年にアクションチェーンに基づいて計画と実行を検証する手法を提案しました。検証チェーン (入り江)。 CoVe は 4 つの主要なステップで構成されます。
1) 結合: ステップ 2 と組み合わせると、数ショットの例の構造 (応答、検証用の質問、検証用の回答) になります。欠点は、元の応答がコンテキスト内にあり、モデルが同様の錯覚を繰り返す可能性があることです。
2) 2 段階のアプローチ: 元の応答に影響を与えない場合は、検証計画と実行の手順を分離します。
3) 分解: 各確認質問に個別に答えます。たとえば、長いベース ビルドの結果として複数の検証質問が発生した場合、各質問は 1 つずつ回答されます。
4) 分解 + 改訂: 分解検証の実行後に「クロスチェック」ステップを追加し、ベースラインの応答と検証の質問と回答に基づいて条件付けを行い、不一致を検出します。
CoVe がこのように設計されているのは、長い検証チェーン生成を使用すると、幻覚が繰り返される可能性があるためです。これは、最初の幻覚反応が依然としてコンテキスト内にあり、新しい生成プロセス中に対処できるためです。各検証の質問に個別に答えると、長い形式を生成するよりも良い結果が得られることがわかりました。。
CoVe 実験から得られた興味深い観察結果をいくつか紹介します。
さらに、Sun らは 2023 年に提案しました。暗唱するこの方法では、モデル生成の事実の正確性を向上させ、幻覚を軽減するための中間ステップとしてリハーサルに依存しています。
その動機は、Transformer のメモリを情報検索モデルとして使用することです。 RECITE の再話および応答スキームでは、LLM はまず関連情報を再話するように求められ、次に出力を生成します。
具体的には、数ショットの文脈上のヒントを使用してモデルに言い換えを教え、その言い換えに基づいて回答を生成できます。さらに、複数のサンプルを使用する自己一貫性のあるアンサンブル手法と組み合わせることができ、マルチホップ質問応答をサポートするように拡張できます。
生成されたパラフレーズは BM25 ベースの検索モデルと同等ですが、実際のパッセージを使用する場合、どちらにもギャップがあります。研究チームが実施した誤り分析によると、問題の約7~10%は正しく暗唱されたものの、正解を導き出すことができず、約12%の質問は不正解であったものの、依然として正しく解答できたという。
サンプリング方法
Lee et al. 2022 は、カーネル サンプリング (トップ サンプリング) のパフォーマンスが FactorityPrompt ベンチマークでのグリーディ サンプリングよりも劣っていることを発見しましたが、カーネル サンプリングによりランダム性が追加され、より優れた多様性とより少ない繰り返しが実現されました。
したがって、彼らは仮説に基づくファクト カーネル サンプリング アルゴリズムを提案しました。この仮説は、サンプリングのランダム性が文の先頭よりも文の後半の事実性に大きな影響を与える、というものです。 。ファクト コア サンプリングは、各文でサンプリングされた単語の確率を動的に調整することを目的としています。文内の th トークンには =max(,⋅−1) があり、これはサンプリングが生成品質と多様性を損なう貪欲サンプリングにフォールバックするのを防ぐために使用されます。
リーらは2023年に提案推論時間介入(ITI) は、各層でのアクティベーションを線形に調査して実際の出力と偽の出力を区別することにより、特定のアテンションヘッドが事実とより関連しているかどうかを調査します。
研究者らは、多くのアテンションヘッドについて、検出器はランダム選択と同等のパフォーマンスを示しましたが、一部は強力なパフォーマンスを示したことがわかりました。真正性線形検出における高精度でまばらなアテンション ヘッドのグループを識別した後、ITI は推論中に「実際の」方向に沿って上位に選択されたアテンション ヘッドのアクティブ化を調整します。
事実に基づく微調整
Lee et al. 2022 は、強化トレーニングについて 2 つのアイデアを提案しました。
リンらは 2024 年に、事実に焦点を当てた SFT+RLHF 調整トレーニングを実施することを提案しました。炎。
前述したように、新しい知識の微調整が幻覚を引き起こす可能性があるという証拠がいくつかあり、RAG の監視には LLM にとって未知の情報が含まれています。
方法 1: RAG データ サンプルをポジティブ サンプルとして使用し、元のモデル生成をネガティブ サンプルとして RM データとして使用します。
方法 2: FActScore を事実上の報酬シグナルとして使用します。
アライメントトレーニング中に未知の知識が誤ってモデルに抽出されることを避けるために、彼らはモデルによって生成された応答を使用して SFT/DPO データセットを構築することを提案しています。
2024 年に Tian&Mitchell らによって提案事実の調整また、事実を改善するために言語モデルを微調整することにも依存します。彼らは、各モデルサンプルの原子主張の真実性を推定するためにさまざまな方法を実験し、DPO を実行しました。
事実調整プロセス:
1. 特定のプロンプト セットのモデル完成例ペア (例: 「ヨーヨー マの経歴を書いてください」)
2. 手動介入を必要としない 2 つの方法に従って、その信頼性をマークします。
参照ベース: 上記の検索ベースの幻覚評価セクションと同様に、モデルの主張が外部知識ベースによってサポートされているかどうかを確認します。 (a) 一連のアトミック宣言を抽出する、(b) Wikipedia の参照を検索する、(c) 小規模で微調整された NLI モデルを使用して、参照テキストがアトミック宣言をサポートしているかどうかを確認します。
非参照ベース: 間接的なクエリ方法と同様に、モデル自体の信頼性を信頼性のシンボルとして使用します。 (a) 各ステートメントを対応する質問に変換する / 質問が明確になるように慎重に言い換える必要がある、(b) 質問に答えるためにモデルから複数回サンプリングする、(c) 集計スコアを計算する / 使用する。文字列のマッチング、または 2 つの回答が意味的に同等かどうかを GPT に確認する文字列。
3. モデルから複数のサンプルを生成し、信頼性スコアに基づいて設定を割り当てることにより、トレーニング データセットを構築します。次に、DPO を使用して、このデータセットのモデルを微調整します。
アトリビューションの微調整
アトリビューションを指定することは、検索結果に依存するモデル出力を生成する際の錯覚を軽減する良い方法です。取得したコンテンツをより効果的に活用し、高品質の属性を割り当てるために LLM をトレーニングすることを目的とした一連の作業があります。
2022年に中野らが提案ウェブGPTは、文書検索のための Web 検索と微調整された GPT モデルを組み合わせ、長文の質問に答えて幻覚を減らし、事実の正確性を向上させるように設計されています。
このモデルは、テキストベースの Web ブラウザーでインターネット検索と対話し、質問に答えるために Web ページを引用することを学習します。モデルがブラウズしているときに実行できるアクションの 1 つは、現在のページの抜粋を参照することです。これを行うと、ページのタイトル、ドメイン名、および抜粋が後で参照できるように記録されます。WebGPT の中核は、人々が事実の正しさを判断するのに役立つ参考資料を使用することです。。
このモデルは、まず、Web ブラウジング環境を使用して質問に答える人間のデモンストレーションで、行動クローンを作成するための教師付き微調整を受けました。
比較データは、同じ質問に対してモデルによって生成された 2 つの回答の間で収集され、それぞれに独自の参照セットがあり、回答は事実の正確さ、一貫性、および全体的な有用性で判断されます。報酬モデルは、RL トレーニングと best-of-n 拒否サンプリングに使用されます。対照的に、RL の効果は限定的であり、リジェクション サンプリングを使用すると、その効果はさらに限定されます。
Menickらは2022年に提案ゴーファーサイト 、検索エンジンを使用してサポート資料を作成し、参考資料を提供するための教育モデルを使用する点で WebGPT と非常に似ています。どちらも指導の教師付き微調整を実行し、両方とも RLHF トレーニングを適用します。
動作の複製を人間のデモンストレーションに依存する WebGPT とは異なり、GopherCite数回のプロンプトによるデモの生成、各世代には関連するドキュメントからのコンテキストが入力され、報酬モデルを使用してどれが最も優れているかがスコア付けされます。
低品質の応答を回避するためのもう 1 つのトリックは、「わかりません」という定型応答を使用して応答を拒否するようにモデルを構成することです。これは、選択的予測と呼ばれるグローバル RM しきい値によって決定されます。
RL の経験的結果は WebGPT と似ています。つまり、RL は拒絶サンプリングと組み合わせた場合、限られた改善のみをもたらすか、まったく改善をもたらしません。
Weng Li は OpenAI の中国人科学者であり、ChatGPT の寄稿者の 1 人であり、北京大学を卒業しています。
彼女は OpenAI の人工知能アプリケーション研究の責任者であり、2018 年に OpenAI に入社し、主に GPT-4 プロジェクトの事前トレーニング、強化学習とアライメント、モデルのセキュリティに携わっています。
昨年末に OpenAI によって設立されたセキュリティ アドバイザリー チームでは、ChatGPT などの既存モデルの悪用の削減などの問題を解決するために安全システム チームを率いています。