소식

OpenAI Weng Li는 "외부 환각"의 대규모 모델을 제안했습니다. 저항 방법이 환각을 생성하는 이유에 대한 만 단어의 자세한 설명입니다.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

서풍은 아오페이사에서 불어온다
큐빗(Qubits) 공개 계정 QbitAI

대형 모형의 환상도 내부와 외부로 나뉘는데---

OpenAI 중국 과학자 Weng Li의 최신 블로그에서 제안한 내용LLM 외부 환각(외인성 환각)。



현실과 일치하지 않거나 허구이거나 일관성이 없거나 의미가 없는 참조 모델에 의해 생성된 콘텐츠와 달리 Weng Li는 LLM "환상" 문제를 다음과 같이 지정했습니다.모델 출력 콘텐츠는 허구이며 제공된 맥락이나 세계 지식을 기반으로 하지 않습니다.

이에 따라 환각에는 두 가지 유형이 있습니다.

  • 맥락 내 환각: 모델출력은 상황에 따라 소스 콘텐츠와 일치해야 합니다.(맥락 내 환각이 발생하면 출력이 원본 콘텐츠와 일치하지 않습니다).
  • 외재적 환상: 모델 출력은 사전 훈련된 데이터 세트를 기반으로 해야 합니다. 그러나 사전 훈련 데이터 세트의 크기를 고려할 때 생성된 각 충돌을 검색하고 식별하는 것은 비용이 많이 듭니다.사전 훈련 데이터 세트를 다음과 같이 생각하면세계 지식 그런 다음 본질적으로 모델 출력이 사실이고 외부 세계에 대한 지식을 통해 검증될 수 있는지 확인하려고 시도합니다. 마찬가지로 중요한 것은,모델이 사실을 알지 못하는 경우, 모른다고 명시적으로 명시해야 합니다.



이전에 Weng Li는 에이전트 공식: 에이전트 = 대형 모델 + 메모리 + 활성 계획 + 도구 사용을 제안했는데, 이는 일부 네티즌들에 의해 "내가 본 에이전트에 대한 최고의 기사"라고 불렸습니다.





대형 모델의 환상에 관한 이 블로그도 "무거운 작업"입니다. 이 기사는 매우 길어서 총 24개의 참고 자료가 있습니다.



Weng Li는 외부 환각에 초점을 맞추고 세 가지 질문에 대해 논의했습니다. 환각의 원인은 무엇입니까? 환각 감지, 환각에 저항하는 방법.



Qubits는 원래 의미를 변경하지 않고 원본 텍스트를 편집하고 정리했습니다.

Qubits는 원저자의 허가를 받아 번역 및 재인쇄되었습니다.

원본 텍스트는 다음과 같습니다.

https://lilianweng.github.io/posts/2024-07-07-hallucination/

환각의 원인은 무엇입니까?

표준 배치형 LLM은 정렬 및 개선을 위해 사전 훈련 및 미세 조정이 필요하다는 점을 고려하여 원인 분석은 이 두 단계부터 시작됩니다.

사전 훈련 데이터 문제

사전 훈련 데이터 세트는 사용 가능한 모든 세계 지식을 서면 형식으로 나타내도록 설계되었으므로 규모가 큽니다.

공용 인터넷에서 데이터를 스크랩하는 것이 가장 일반적인 옵션이지만 이로 인해 일부 정보가 오래되거나 누락되거나 잘못된 정보가 발생할 수 있습니다. 단순히 로그 우도를 최대화함으로써 모델이 이 정보를 잘못 기억할 수 있기 때문에 모델에서 실수가 발생할 수 있습니다.

새로운 지식을 미세 조정

지도형 미세 조정(SFT) 및 인간 피드백을 통한 강화 학습(RLHF)을 통해 사전 훈련된 LLM을 미세 조정하는 것은 모델의 특정 기능(예: 명령 추적)을 향상시키는 일반적인 기술입니다. 미세 조정 단계에서는 필연적으로 새로운 지식이 도입됩니다.

미세 조정은 일반적으로 컴퓨팅 리소스를 덜 소비하지만,소규모로 모델을 미세 조정하여 새로운 지식을 안정적으로 학습할 수 있는지 여부는 의문의 여지가 있습니다.

올해 연구에서 Gekhman et al.은 새로운 지식으로 LLM을 미세 조정하는 것이 환각 발생을 촉진할 것인지에 대한 질문을 논의했습니다.

그들은 LLM이 모델의 기존 지식과 일치하는 예보다 새로운 지식을 가진 미세 조정된 예에서 더 느리게 학습한다는 것을 발견했습니다. 일단 새로운 지식이 있는 이러한 예가 학습되면 모델의 환각 경향이 증가합니다.

구체적으로, 닫힌 질문 및 답변 데이터 세트(예: EntityQuestions) = (,)가 주어지면 Correct(,;,)는 무작위 예제 및 특정 디코딩을 사용할 때 모델 M이 정답을 정확하게 생성할 가능성의 추정치로 정의됩니다. 온도를 묻는 질문에 대한 정답은 다음과 같습니다.

그들은 Correct(,;,)의 다양한 조건에 따라 예제를 4개의 범주로 나눴습니다. 알려진 그룹(세 개의 하위 그룹: HighlyKnown, MaybeKnown, WeakKnown 포함) 및 Unknown 그룹.



개발 세트의 정확도가 환상의 상징적 지표로 간주되는 실험에서 흥미로운 관찰 결과는 다음과 같습니다.

  • 알 수 없는 피팅 속도는 알려진 것보다 상당히 느립니다.
  • LLM이 대부분의 알려진 훈련 예제에 적합하지만 알 수 없는 예제는 소수에 불과할 때 최고의 성능을 얻을 수 있습니다.
  • 알 수 없는 사례가 대부분 학습되면 모델이 환각을 느끼기 시작합니다.



Gekhman et al.의 이러한 결과는 감독된 미세 조정을 사용하여 LLM 지식을 업데이트하는 데 따른 위험을 지적합니다.

환각 감지

향상된 평가 검색

모델의 환각 현상을 정량화하기 위해 Lee et al.은 2022년에 새로운 벤치마크 데이터 세트를 도입했습니다.사실성 프롬프트, 이 데이터 세트에는 Wikipedia 문서나 문장을 기본 사실 지식 기반으로 사용하여 사실 및 비사실 힌트가 포함되어 있습니다.

Wikipedia 문서는 FEVER 데이터 세트의 실제 정보로 알려진 반면, 문장은 tf-idf 또는 문장 임베딩을 기반으로 한 유사성을 통해 선택됩니다.



환각을 평가하기 위한 두 가지 측정 기준은 모델 연속성과 쌍을 이루는 Wikipedia 텍스트를 고려했습니다.실체라는 이름의 환각(동북)오류율암시 비율(수반 비율)。

NE 오류율이 높을수록, 수반 비율이 낮을수록 사실성이 더 높아집니다. 두 지표 모두 사람이 작성한 주석과 상관관계가 있는 것으로 나타났으며, 더 큰 모델이 이 벤치마크에서 더 나은 성능을 발휘했습니다.

또한 Min et al. 2023은팩트스코어 , 긴 기사 생성을 여러 원자 사실로 분해하고 Wikipedia와 같은 지식 기반에 대해 각 사실을 개별적으로 확인합니다. 그런 다음 각 모델에서 생성된 지식 소스가 지원하는 문장의 비율(정확도)을 측정할 수 있으며, FActScore는 일련의 단서에 걸쳐 모델에서 생성된 평균 정확도입니다.

본 논문에서는 전기생성과제에 대한 다양한 사실검증 방법을 테스트한 결과,검색을 사용하면 컨텍스트 없는 LLM보다 일관성이 향상됩니다. . 검색 향상 방법에서 최상의 추정기 선택은 모델에 따라 다릅니다.

  • 컨텍스트 없는 LLM: "True or False?"를 직접 사용하여 추가 컨텍스트 없이 LLM을 묻는 메시지를 표시합니다.
  • 검색 → LLM: 지식 소스에서 검색된 관련 구절을 컨텍스트로 프롬프트
  • 비모수적 확률(NP): 마스크된 LM을 통해 원자 사실에서 태그의 평균 가능성을 계산하고 이를 예측에 사용합니다.
  • 검색→LLM+NP: 두 가지 방법의 통합

모델의 환각 행동에 대한 몇 가지 흥미로운 관찰:

  • 희귀 엔터티는 전기 생성 작업에서 오류율이 더 높습니다.
  • 생성된 콘텐츠에서 나중에 언급되는 사실도 오류율이 더 높습니다.
  • 검색을 사용하여 모델 생성의 기초를 제공하면 환각 현상을 줄이는 데 크게 도움이 될 수 있습니다.

Wei et al.은 2024년에 LLM의 긴 형식 사실성을 평가하는 방법을 제안했습니다.안전한(검색 증강 사실성 평가기)。

FActScore와 비교할 때, 주요 차이점은 SAFE가 에이전트로 언어 모델을 사용한다는 것입니다.다단계 프로세스를 통해 Google 검색어를 반복적으로 발행합니다., 검색 결과가 해당 사실을 뒷받침하는지 여부에 대한 이유를 설명합니다.

각 단계에서 에이전트는 확인할 사실과 이전에 얻은 검색 결과를 기반으로 검색어를 생성합니다. 여러 단계를 거친 후 모델은 추론을 수행하여 검색 결과가 사실을 뒷받침하는지 여부를 결정합니다.

실험에 따르면,SAFE 방법은 휴먼 어노테이션보다 비용이 20배 저렴하지만 성능은 휴먼 어노테이션보다 우수합니다.: 인간과의 동의율은 72%, 불일치에서 인간을 능가하는 비율은 76%였다.



SAFE 평가 지표는 F1@K입니다. 긴 사실 모델 응답의 경우 응답이 동시에 다음을 충족해야 하므로 이상적으로 정밀도와 재현율이 모두 달성되어야 합니다.

  • 사실의: 전체 응답에서 뒷받침되는 사실의 비율인 정확도로 측정됩니다.
  • : 응답에 나타나야 하는 모든 관련 사실 중에서 제공된 사실의 비율인 회상으로 측정됩니다. 따라서 지원되는 최대 팩트 수가 고려됩니다.

모델 응답이 주어지면 측정항목 F1@K는 다음과 같이 정의됩니다.





또한 Chern et al. 2023은 표준을 따르는 사실 확인 워크플로를 제안했습니다.팩툴 . 지식 기반 질문 답변, 코드 생성, 수학적 문제 해결, 과학 문헌 검토 등 다양한 작업에서 사실 오류를 탐지하도록 설계되었습니다. 단계는 다음과 같습니다:

  • 청구 추출: LLM을 요청하여 검증 가능한 모든 청구를 추출합니다.
  • 쿼리 생성: 각 명령문을 검색 엔진 쿼리, 단위 테스트 사례, 코드 조각 및 논문 제목과 같은 외부 도구에 적합한 일련의 쿼리로 변환합니다.
  • 도구 쿼리 및 증거 수집: 검색 엔진, 코드 해석기, Google Scholar 등 외부 도구를 쿼리하고 반환된 결과를 얻습니다.
  • 일관성 검증: 각 주장에는 외부 도구에서 제공하는 증거 지원 정도에 따라 이진 사실 라벨이 할당됩니다.



샘플링 기반 탐지

Manakul et al. 2023은 블랙박스 LLM의 여러 샘플에 의존하는 일관성 검사를 제안했습니다.셀프체크GPT, 사실적 오류를 식별합니다.

그레이박스 사실 확인 측정에는 LLM의 토큰 수준 logprob인 SelfCheckGPT에 대한 액세스가 필요하다는 점을 고려하면외부 지식 베이스에 의존하지 않는 샘플만 사용하므로 블랙박스 액세스로 충분합니다., 외부 지식 기반이 필요하지 않습니다.

이 방법은 다양한 측정항목을 사용하여 모델 응답과 BERTScore, NLI, 프롬프트(예/아니오 묻기) 등을 포함한 기타 무작위 모델 샘플 간의 일관성을 측정합니다. 힌트를 사용하는 SelfCheckGPT는 GPT-3에서 생성된 WikiBio 구절에 대한 실험적 검사를 수행할 때 가장 잘 수행되는 것으로 보입니다.



알려지지 않은 지식 교정

대답할 수 없거나 알 수 없는 질문에 대한 답변을 생성하도록 모델에 요청하면 환각을 유발할 수 있습니다.진실QA(린 외, 2021) 및자기 인식(Yin et al., 2023)은 그러한 상황에서 현실적인 대응을 생성하는 모델의 능력을 측정하는 두 가지 벤치마크이며, 전자는 인적 오류를 강조하기 위해 적대적으로 구성되었으며 후자는 대답할 수 없는 질문을 포함합니다.

이러한 문제에 직면했을 때,모델은 답변을 거부하거나 관련 정보 제공을 거부해야 합니다.

TruthfulQA에서는 인간의 일반적인 오해나 실수를 바탕으로 시험 문제를 적대적으로 설계합니다. 벤치마크에는 건강, 법률, 금융, 정치 등 38개 주제를 다루는 817개의 질문이 포함되어 있습니다.

테스트 결과 최고의 LLM은 58%의 정확도를 달성한 반면 인간은 94%의 정확도를 달성했습니다. 연구팀은 이를 발견했다.일반적인 오해로 인해 더 큰 모델은 현실성이 떨어지지만 이러한 추세는 다른 표준에 반영되지 않습니다.(대립하지 않음)사실에 근거한

다음은 TruthfulQA에 대한 GPT-3의 오답 예입니다.



Yin et al. 2023 연구자기 인식의 개념은 언어 모델이 자신이 아는 것과 모르는 것을 알고 있는지 여부를 나타냅니다.

SelfAware에는 5개 범주의 답변할 수 없는 질문 1032개와 답변할 수 있는 질문 2337개가 포함되어 있습니다. 답변할 수 없는 질문은 사람이 주석을 추가한 온라인 포럼에서 제공되며, 답변 가능한 질문은 SQuAD, HotpotQA 및 TriviaQA에서 제공됩니다.

과학적 합의의 부재, 미래에 대한 상상, 완전한 주관성, 다중 응답을 생성할 수 있는 철학적 이유 등 다양한 이유로 질문에 답할 수 없을 수 있습니다.

이 연구에서는 답변 가능한 질문과 답변할 수 없는 질문을 구별하는 것을 이진 분류 작업으로 처리하고 F1 점수 또는 정확도를 사용하여 모델의 성능을 평가합니다. 실험에 따르면 더 큰 모델이 이 작업에서 더 나은 성능을 발휘하는 것으로 나타났습니다.



모델이 알려지지 않은 지식을 얼마나 잘 이해하는지 평가하는 또 다른 방법은 모델 출력의 불확실성을 측정하는 것입니다. 문제가 알려진 것과 알려지지 않은 것 사이에 있는 경우 모델은 올바른 수준의 신뢰도를 보여야 합니다.

Kadavath et al.의 2022년 실험에서는 글자가 눈에 보이는 다양한 다차원 답변 옵션에서주제 선택형식(MMLU, TruthfulQA, QuALITY, LogiQA), LLM은 답변이 정확할 확률을 추정하는 데 효과적입니다. 즉, 예측 확률은 해당 답변이 참인 빈도와 일치합니다.

RLHF 미세 조정으로 인해 모델 교정이 좋지 않지만 샘플링 온도가 높을수록 교정 결과가 좋아집니다.



Lin 등은 2022년에 제안했습니다.교정된 수학 미션 키트. CalibrateMath는 모델 출력 확률의 보정을 테스트하는 다양한 난이도로 프로그래밍 방식으로 생성된 수학적 문제 세트입니다.

각 질문에 대해 모델은 수치적 답변과 해당 답변에 대한 신뢰도를 제공해야 합니다. 세 가지 유형의 확률이 고려됩니다.

  • "신뢰도: 60% / 보통"과 같은 문자 그대로의 숫자 또는 단어(예: "최저", "낮음", "보통", "높음", "가장 높음")입니다.
  • 답변 토큰의 정규화된 로그 확률입니다. 이 매개변수는 미세 조정 실험에 사용되지 않았습니다.
  • 원래 답변 이후의 간접적인 "True/False" 플래그에 대한 Logprob입니다. 실험은 작업 난이도나 내용의 분포 변화에 따라 일반화를 보정하는 데 중점을 둡니다. 각각의 미세 조정 데이터 포인트는 질문, 모델의 답변(잘못되었을 수 있음) 및 교정의 신뢰도입니다. 두 경우 모두 텍스트 확률이 잘 일반화되었으며 모든 설정이 곱셈과 나눗셈 작업 전반에 걸쳐 잘 수행되었습니다. 모델 예측 신뢰도 측면에서 Few-shot은 Fine-tuned 모델보다 약합니다. 더 많은 예를 포함하는 것이 도움이 됩니다. 50샷은 미세 조정된 버전만큼 좋습니다.



간접 쿼리

Agrawal et al.(2023)은 가상의 책, 기사 및 논문 제목을 포함하여 LLM 생성에서 환각 인용 사례를 구체적으로 연구했습니다. 그들은 환각을 탐지하기 위해 두 가지 일관성 기반 방법, 즉 직접 쿼리와 간접 쿼리를 사용했습니다. 두 방법 모두 T > 0일 때 검사를 여러 번 실행하고 일관성을 확인합니다.



직접 쿼리에는 생성된 참조 자료가 존재하는지 여부를 확인하기 위한 모델이 필요한 반면, 간접 쿼리에는 다음과 같은 보조 세부 정보가 필요합니다.참고문헌의 작성자는 누구입니까?

가설은 환각 참조의 경우 동일한 저자를 여러 번 생성하는 일관성이 직접 쿼리에 대한 여러 응답이 참조의 존재를 드러낼 가능성보다 낮다는 것입니다.

실험에 따르면간접 쿼리 방법은 더 나은 성능을 발휘하고, 더 큰 모델이 더 강력하며, 환각 현상이 적습니다.

환각에 맞서 싸우는 방법

다음으로, 외부 지식 기반 검색, 특수 샘플링 방법, 정렬 미세 조정을 포함하여 LLM 응답의 신뢰성을 향상시키는 일련의 방법을 검토합니다. 뉴런 편집을 통해 환각을 줄이는 일부 해석 방법은 여기서 논의하지 않습니다.

RAG → 편집 및 귀속

RAG(Retrieval Augmented Generation)는 관련 문서를 검색한 후, 추가적인 관련 문서를 컨텍스트로 활용하여 생성함으로써 기본 정보를 제공하는 매우 일반적인 방법입니다.

라르(Retrofit Attribution using Research and Revision)은 Gao et al.이 2022년에 제안한 프레임워크로, LLM이 편집 귀속을 통해 외부 증거의 귀속을 소급 지원할 수 있도록 합니다.

모델에서 생성된 텍스트가 주어지면 RARR은 이를 두 단계로 처리하여 수정된 텍스트와 속성 보고서를 출력합니다.

1. 조사단계: 관련 문서를 증거로 찾습니다.

쿼리 생성 모델은 먼저 각 문장의 다양한 측면을 검증하기 위해 검색 쿼리 집합 1,…을 구성하기 위해(몇 번의 힌트를 통해 →1,…, ) 사용됩니다.
Google 검색을 실행하면 각 검색어 = 5개의 결과가 나타납니다.
사전 훈련된 쿼리-문서 관련성 모델은 관련성 점수를 할당하는 데 활용되며, 각 쿼리에 대해 가장 관련성이 높은 문서 1개,…, 하나만 유지됩니다.

2. 개정 단계: 원본 내용을 최대한 유지하면서 증거에 의해 뒷받침되지 않는 내용을 수정하기 위해 출력을 편집합니다.수정된 텍스트를 초기화합니다 =.

(,)에 따르면 프로토콜 모델(Few-shot 힌트 + CoT, (,,) → 0,1을 통해)은 증거가 현재 개정된 텍스트와 일치하지 않는지 확인합니다.

불일치가 감지된 경우에만 편집 모델(몇 가지 힌트 + CoT, (,,)→ new 를 통해)은 증거와 동시에 최소한으로 변경되도록 설계된 새 버전을 출력합니다.

제한된 양의 =5 증거만이 귀속 보고서에 포함됩니다.



수정된 텍스트를 평가할 때는 귀속과 유지가 모두 중요합니다.

Attribution은 AIS(Attributed to Identified Source) 점수를 사용하여 콘텐츠에 어느 정도 기여할 수 있는지 측정합니다. 사람의 주석을 수집하거나 NLI 모델을 사용하여 자동 AIS 점수를 대략적으로 계산할 수 있습니다.

보존은 원본 텍스트가 보존되는 정도를 의미하며 Previntent × PrevLev로 측정됩니다. 여기서 Previntent는 수동 주석이 필요하고 PrevLev는 문자 수준 Levenshtein 편집 거리를 기반으로 합니다. 두 가지 기준에 비해 RARR은 특히 유지율 지표 측면에서 균형 잡힌 결과를 제공합니다.

Mishra et al 2024가 제안한 검색+편집을 사용하는 RARR과 유사합니다.파바 (증강 지식을 통한 사실성 검증) 또한 관련 문서를 검색한 다음 착각 오류를 방지하기 위해 모델 출력을 편집합니다. FAVA 모델은 검색기와 편집기로 구성됩니다.

프롬프트와 모델 출력이 주어지면 가장 관련성이 높은 문서를 검색합니다.



편집기는 향상된 출력을 생성합니다.



RARR에는 교육이 필요하지 않지만 FAVA의 편집기 모델 편집에는 미세 조정이 필요합니다. 다양한 유형의 환각 오류를 보다 자세히 분류함으로써 모델 생성에 임의 오류를 삽입함으로써 편집된 모델에 대한 합성 훈련 데이터를 생성할 수 있습니다.

각 예는 삼중항(,,*)입니다. 여기서 는 골든 컨텍스트인 원래 Wikipedia 구절이고, 오류가 있는 LM 출력이고, *는 오류 레이블과 올바른 편집이 있는 출력입니다.



2022년에 He et al.레알(검색을 통한 재고) 접근 방식 역시 관련 외부 지식 검색에 의존하지만 추가 편집은 포함되지 않습니다.

검색 쿼리 생성 모델을 활용하는 대신 RR의 검색은 분해된 CoT 힌트를 기반으로 합니다.

입력 힌트가 주어지면 RR은 CoT 힌트를 사용하여 온도 > 0에서 여러 추론 경로 1,…을 생성합니다. 여기서 각 추론 경로에는 설명(즉, 추론 부분)과 예측(즉, 실제 모델 출력)이 포함됩니다. . 각 설명을 뒷받침하기 위해 외부 지식 1,…을 검색합니다. 그리고 검색된 지식과의 적합도를 기준으로 가장 충실한 답변을 선택한다 1,…

  • 지식 검색: RR의 실험은 희소 검색 BM25를 적용하여 Wikipedia를 검색한 후 사전 훈련된 MPNet 모델에서 제공하는 코사인 유사성을 임베딩하여 순위를 다시 매깁니다.
  • 충실도 점수 : 각 추론 경로의 충실도는 수반 점수, 모순 점수, MPNet 유사도의 조합으로 추정됩니다. 수반 점수와 모순 점수는 모두 사전 훈련된 NLI 모델에 의해 제공됩니다.



셀프 RAG(Asai et al., 2024)는 작업 결과와 간헐적인 특수 반사 마커를 출력하여 자체 생산을 반영하는 방법을 학습할 수 있도록 언어 모델을 엔드 투 엔드로 훈련합니다.

연구팀은 추론 비용을 줄이기 위해 GPT-4를 촉구해 모델 판단 및 생성을 위한 지도 데이터세트를 만든 뒤 이를 내부 모델로 증류했다.



입력 프롬프트가 주어지면 생성된 출력은 여러 부분으로 구성됩니다(예: 세그먼트는 문장입니다). 반사 마커에는 검색용 1개, 평가용 3개 등 4가지 유형이 있습니다.

  • 검색: 문서 출력 값 세트({yes, no, continue})를 얻기 위해 검색을 병렬로 실행할지 여부를 결정합니다.
  • IsRel: 프롬프트가 검색된 문서와 관련이 있는지 확인합니다. 출력 값: {relevant, irrelevant}.
  • IsSup: 출력 텍스트가 지원되는지 여부를 결정합니다. 출력 값: {완전히 지원됨, 부분적으로 지원됨, 지원되지 않음}.
  • IsUse: 출력 텍스트가 유용한지 여부를 결정합니다. 출력 값: {5, 4, 3, 2, 1}.

Self-RAG는 한 번에 하나의 세그먼트를 생성합니다. 주어진 세대와 이전 세대 < 를 기반으로 모델은 검색 토큰을 디코딩합니다.

  • Retrieve==no인 경우 직접 생성합니다.
  • Retrieve==yes인 경우 모델은 여러 단락을 병렬로 검색하고 IsRel 토큰을 사용하여 검색된 문서가 관련되는지 확인합니다. 해당되는 경우 다른 평가 토큰을 생성하고 사용하여 점수를 매기고 순위를 매기고 여러 출력 중에서 최상의 결과를 선택합니다.

액션 체인

외부 검색 지식 없이도 설계가 가능합니다.검증 및 수정을 위해 모델 자체를 활용합니다.환각을 줄이는 과정.

Dhuliawala et al.은 2023년에 Action Chain을 기반으로 한 계획 및 실행 검증 방법을 제안했습니다.검증 체인 (후미). CoVe는 네 가지 핵심 단계로 구성됩니다.

  • 기준 반응: 모델은 "기준선"이라는 초기 응답 초안을 생성합니다.
  • 기획 검증: 이 원시 생성을 기반으로 모델은 사실 확인을 위한 비템플릿 확인 질문을 설계합니다. 이는 소수의 예제 프롬프트(확인 질문에 대한 답변)를 통해 달성할 수 있습니다.
  • 검증 수행 : 모델은 이러한 질문에 독립적으로 대답합니다. 여러 가지 설정 변형이 있습니다.

1) 통합: 소수 예시 구조가 (응답, 확인 질문, 확인 답변)인 2단계와 결합됩니다. 단점은 원래 응답이 맥락에 있고 모델이 유사한 환상을 반복할 수 있다는 것입니다.

2) 2단계 접근 방식: 원래 응답에 영향을 미치지 않는 경우 검증 계획 및 실행 단계를 분리합니다.

3) 분해: 각 검증 질문에 개별적으로 답변합니다. 예를 들어, 긴 기본 빌드로 인해 여러 유효성 검사 질문이 발생하는 경우 각 질문에 하나씩 대답합니다.

4) 분해 + 수정: 기본 응답과 검증 질문 및 답변을 기반으로 불일치를 조건화하고 감지하기 위해 분해 검증을 수행한 후 "교차 확인" 단계를 추가합니다.

  • 최종 출력 : 최종적이고 정제된 출력을 생성합니다. 불일치가 발견되면 이 단계에서 출력이 수정됩니다.

CoVe는 긴 검증 체인 생성을 사용하면 반복적인 환각으로 이어질 수 있기 때문에 이러한 방식으로 설계되었습니다. 왜냐하면 초기 환각 반응은 여전히 ​​맥락에 있고 새로운 세대 프로세스 중에 주의를 기울일 수 있기 때문입니다.각 검증 질문에 개별적으로 답변하는 것이 긴 양식 생성보다 더 나은 결과를 얻는 것으로 나타났습니다.



CoVe 실험에서 얻은 몇 가지 흥미로운 관찰 결과는 다음과 같습니다.

  • 명령 조정과 CoT는 환각을 감소시키지 못했습니다.
  • 분해 및 2단계 CoVe는 성능을 향상시키고 불일치 감지를 위한 추가 명시적 추론도 도움이 됩니다("분해+수정" 접근 방식).
  • 짧은 형식의 확인 질문은 긴 형식의 질문보다 더 정확한 응답을 이끌어 냈습니다.
  • 자유 형식 LLM은 경험적 질문(예: X가 질문에 대답했습니까?)보다 검증 질문을 더 잘 생성하며 개방형 생성이 필요한 질문은 예/아니오 질문보다 낫습니다.

또한 Sun 등은 2023년에 제안했습니다.암송하다방법은 모델 생성의 사실적 정확성을 향상하고 환각을 줄이기 위한 중간 단계로 리허설을 사용합니다.

동기는 Transformer의 메모리를 정보 검색 모델로 사용하는 것입니다. RECITE의 다시 말하고 응답 체계에서 LLM은 먼저 관련 정보를 다시 말하도록 요청받은 다음 출력을 생성합니다.

구체적으로, 몇 번의 상황별 힌트를 사용하여 모델이 다른 말로 표현하도록 가르친 다음 그 바꾸어 쓴 내용을 기반으로 답변을 생성할 수 있습니다. 또한 여러 샘플을 사용하는 일관성 있는 앙상블 방법과 결합할 수 있으며 다중 홉 질문 응답을 지원하도록 확장할 수 있습니다.



생성된 의역은 BM25 기반 검색 모델과 비슷하지만 둘 다 실제 구절을 사용할 때 차이가 있습니다. 연구팀이 실시한 오류 분석에 따르면, 질문의 약 7~10%는 올바르게 인용되었으나 정답을 생성하지 못했으며, 약 12%의 질문은 잘못 인용되었으나 여전히 올바르게 답변할 수 있는 것으로 나타났다.

샘플링 방법

Lee et al.(2022)은 커널 샘플링(상위 샘플링)이 FactorityPrompt 벤치마크에서 그리디 샘플링보다 성능이 더 나쁘다는 사실을 발견했습니다. 하지만 커널 샘플링이 추가 무작위성을 추가하여 더 나은 다양성과 더 적은 반복을 달성했습니다.

따라서 그들은 가설 기반의 사실 커널 샘플링 알고리즘을 제안했으며,이 가설은 샘플링의 무작위성이 문장의 시작 부분보다 문장 후반부의 사실성에 더 큰 영향을 미친다는 것을 나타냅니다. . 사실 핵심 샘플링은 각 문장에서 샘플링된 단어의 확률을 동적으로 조정하는 것을 목표로 합니다. 문장의 번째 토큰에는 =max(,⋅−1)가 있는데, 이는 샘플링이 생성 품질과 다양성을 손상시키는 탐욕스러운 샘플링으로 되돌아가는 것을 방지하는 데 사용됩니다.



Li 등은 2023년에 제안했습니다.추론 시간 개입(ITI)는 실제 출력과 허위 출력을 구별하기 위해 각 계층의 활성화를 선형적으로 조사하여 특정 주의 헤드가 사실과 더 관련이 있는지 조사합니다.

그들은 많은 주의 머리에 대해 탐지기가 무작위 선택보다 나을 것이 없는 반면 일부는 강력한 성능을 보였다는 것을 발견했습니다. 신뢰성 선형 감지에서 높은 정확도로 희소 주의 헤드 그룹을 식별한 후 ITI는 추론 중에 "실제" 방향을 따라 상위 선택된 주의 헤드의 활성화를 조정합니다.



사실적 미세 조정

Lee et al.(2022)은 강화 훈련에 대한 두 가지 아이디어를 제안했습니다.

  • 사실에 대한 더 나은 이해를 위한 TopicPrefix 소개: 문서의 각 문장 앞에 주제(예: Wikipedia 문서 제목)를 추가합니다.
  • 문장 완성 손실을 훈련 목표로 삼습니다. 문장의 후반부에 더 많은 사실적 지식이 포함되어 있다고 가정하고 문장의 후반부에 초점을 맞추도록 훈련 손실을 업데이트합니다. 구현은 매우 간단합니다. 피벗 포인트를 결정하고 첫 번째 토큰 이전의 모든 토큰에 0 마스크를 적용합니다. 실험에서 최적의 피벗 포인트는 문장 길이의 0.5배로 선택되었습니다.

Lin 등은 2024년에 사실성에 초점을 맞춘 SFT+RLHF 정렬 훈련을 수행할 것을 제안했습니다.불꽃

  • SFT 단계(사실 인식 SFT): 목표는 모델 자체(FActScore로 측정)보다 더 사실적인 훈련 데이터를 생성하는 것입니다.
  • RLHF 단계(사실 인식 DPO): 두 가지 방법이 테스트되었습니다. 방법 1은 제대로 수행되지 않았고 방법 2는 괜찮게 수행되었습니다. 아마도 방법 1이 충분한 훈련 없이 모델에 새로운 지식을 추출하려고 시도했기 때문일 것입니다.

앞서 언급했듯이 새로운 지식을 미세 조정하면 환각이 발생할 수 있다는 증거가 있으며 RAG 감독에는 LLM에 알려지지 않은 정보가 포함되어 있습니다.

방법 1: RAG 데이터 샘플을 양성 샘플로 사용하고 원본 모델 생성을 RM 데이터의 음성 샘플로 사용합니다.

방법 2: FActScore를 사실상의 보상 신호로 사용합니다.



정렬 훈련 중에 알려지지 않은 지식이 실수로 모델에 추출되는 것을 방지하기 위해 모델에서 생성된 응답을 사용하여 SFT/DPO 데이터세트를 구성할 것을 제안합니다.



2024년 Tian&Mitchell 등이 제안함.사실성 튜닝 또한 사실성을 향상시키기 위해 언어 모델을 미세 조정하는 데 의존합니다. 그들은 각 모델 샘플에서 원자 주장의 정확성을 추정하기 위해 다양한 방법을 실험한 다음 DPO를 실행했습니다.



사실 조정 과정:

1. 주어진 프롬프트 세트에 대한 모델 완성 예시 쌍(예: "요요마의 약력 쓰기")

2. 수동 개입이 필요하지 않은 두 가지 방법에 따라 진위 여부를 표시합니다.

참조 기반: 위의 검색 기반 환각 평가 섹션과 유사하게 모델 주장이 외부 지식 베이스에 의해 뒷받침되는지 여부를 확인합니다. (a) 일련의 원자 선언을 추출합니다. (b) Wikipedia 참조를 찾습니다. (c) 작고 미세 조정된 NLI 모델을 사용하여 참조 텍스트가 원자 선언을 지원하는지 확인합니다.

비참조 기반: 간접 쿼리 방법과 유사하게 모델 자체의 신뢰도를 신뢰성의 상징으로 사용합니다. (a) 각 진술을 해당 질문으로 변환하고 질문이 명확하도록 주의 깊게 바꿔야 합니다. (b) 모델에서 여러 번 샘플링하여 질문에 답합니다. 문자 문자열을 일치시키거나 GPT에 요청하여 두 답변이 의미상 동일한지 확인합니다.

3. 모델에서 여러 샘플을 생성하고 신뢰성 점수에 따라 선호도를 할당하여 교육 데이터 세트를 구축합니다. 그런 다음 DPO를 사용하여 이 데이터 세트의 모델을 미세 조정합니다.



기여 분석을 위한 미세 조정

속성을 부여하는 것은 검색 결과에 따라 달라지는 모델 출력을 생성할 때 환상을 줄이는 좋은 방법입니다. 검색된 콘텐츠를 더 잘 활용하고 고품질 속성을 할당하기 위해 LLM을 교육하는 것을 목표로 하는 일련의 작업이 있습니다.

2022년 Nakano 등이 제안함.웹GPT는 문서 검색을 위한 웹 검색을 미세 조정된 GPT 모델과 결합하여 환각을 줄이고 사실의 정확성을 높이기 위해 긴 형식의 질문에 답하도록 설계되었습니다.

이 모델은 텍스트 기반 웹 브라우저에서 인터넷 검색과 상호 작용하고 질문에 답하기 위해 웹 페이지를 인용하는 방법을 학습합니다. 모델이 탐색하는 동안 취할 수 있는 작업 중 하나는 현재 페이지의 발췌문을 참조하는 것입니다. 이렇게 하면 나중에 참조할 수 있도록 페이지 제목, 도메인 이름 및 발췌문이 기록됩니다.WebGPT의 핵심은 사람들이 사실의 정확성을 판단하는 데 도움이 되는 참고 자료를 사용하는 것입니다.

이 모델은 먼저 질문에 답하기 위해 웹 브라우징 환경을 사용하는 인간의 시연에 대한 행동 복제를 위한 감독 미세 조정을 거쳤습니다.

동일한 질문에 대해 모델에서 생성된 두 가지 답변 간에 비교 데이터가 수집됩니다. 각 답변에는 자체 참조 세트가 있으며, 여기서 답변은 사실적 정확성, 일관성 및 전반적인 유용성을 기준으로 판단됩니다. 보상 모델은 RL 훈련 및 n개 최고 거부 샘플링에 사용됩니다. 반면 RL은 효과가 제한적이며 거부 샘플링을 사용하면 효과가 더욱 제한됩니다.



Menick et al.은 2022년에 제안했습니다.고퍼사이트 는 검색 엔진을 사용하여 지원 자료를 만들고 교육 모델을 사용하여 참조 자료를 제공한다는 점에서 WebGPT와 매우 유사합니다. 둘 다 감독된 지도 미세 조정을 수행하고 둘 다 RLHF 훈련을 적용합니다.

행동 복제를 위해 인간의 시연에 의존하는 WebGPT와 달리 GopherCite는몇 번의 프롬프트를 통해 데모 생성, 각 세대는 관련 문서의 컨텍스트로 채워진 다음 보상 모델을 사용하여 어느 것이 가장 좋은지 점수를 매깁니다.



낮은 품질의 응답을 피하는 또 다른 방법은 미리 준비된 답변 "모르겠어요"를 사용하여 답변을 거부하도록 모델을 구성하는 것입니다. 이는 선택적 예측이라고 하는 전역 RM 임계값에 의해 결정됩니다.

RL의 실증적 결과는 WebGPT와 유사합니다. 즉, RL은 거부 샘플링과 결합할 때 제한된 개선만 제공하거나 개선이 전혀 이루어지지 않습니다.



웬 리(Weng Li)는 누구인가?

Weng Li는 OpenAI의 중국 과학자이자 ChatGPT의 기여자 중 한 명입니다. 그는 북경대학교를 졸업했습니다.



OpenAI의 인공지능 응용 연구를 총괄하고 있으며, 2018년 OpenAI에 입사하여 GPT-4 프로젝트에서 사전 훈련, 강화 학습 및 정렬, 모델 보안 업무를 주로 담당하고 있습니다.

OpenAI가 지난해 말 설립한 보안 자문팀에서는 안전시스템팀을 이끌고 ChatGPT 등 기존 모델의 남용을 줄이는 등의 문제 해결을 담당하고 있다.