Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4

Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다.

2024-07-16

기계 심장 보고서

편집자: 팬더

LLM에 인과관계 사슬을 보여주면 공리를 배울 수 있습니다.

AI는 이미 수학자 및 과학자의 연구 수행을 돕고 있습니다. 예를 들어, 유명한 수학자 Terence Tao는 GPT와 같은 AI 도구의 도움을 받아 자신의 연구 및 탐색 경험을 반복적으로 공유했습니다. AI가 이러한 분야에서 경쟁하려면 강력하고 신뢰할 수 있는 인과관계 추론 능력이 필수적입니다.

이 기사에 제시된 연구에서는 작은 그래프의 인과 전이성 공리 시연을 위해 훈련된 Transformer 모델이 큰 그래프의 전이성 공리로 일반화될 수 있음을 발견했습니다.

즉, Transformer가 단순한 인과 추론을 수행하는 방법을 학습하면 보다 복잡한 인과 추론에 사용될 수 있습니다. 연구팀이 제안하는 공리 훈련 프레임워크는 수동적 데이터를 기반으로 인과 추론을 학습하는 새로운 패러다임으로, 시연만 충분하다면 임의의 공리를 학습하는 데 사용할 수 있다.

소개

인과 추론은 미리 정의된 공리 또는 인과 관계를 구체적으로 다루는 규칙을 따르는 일련의 추론 프로세스로 정의될 수 있습니다. 예를 들어, d-분리(유도 분리) 및 do-calculus 규칙은 공리로 볼 수 있는 반면, 충돌체 세트 또는 뒷마당 세트의 사양은 공리에서 파생된 규칙으로 볼 수 있습니다.

일반적으로 인과 추론은 시스템의 변수에 해당하는 데이터를 사용합니다. 공리 또는 규칙은 정규화, 모델 아키텍처 또는 특정 변수 선택을 통해 귀납적 편향의 형태로 기계 학습 모델에 통합될 수 있습니다.

Judea Pearl의 "인과 사다리"는 사용 가능한 데이터 유형(관찰 데이터, 개입 데이터, 반사실 데이터)의 차이를 기반으로 가능한 인과 추론 유형을 정의합니다.

공리는 인과관계의 초석이기 때문에, 공리를 학습하기 위해 머신러닝 모델을 직접 사용할 수 있는지 궁금하지 않을 수 없습니다. 즉, 공리를 학습하는 방법이 어떤 데이터 생성 과정을 통해 얻은 데이터를 학습하는 것이 아니라 공리의 상징적 실증을 직접 학습(따라서 인과 추론을 학습)하는 것이라면 어떨까요?

특정 데이터 분포를 사용하여 구축된 작업별 인과 모델과 비교할 때 이러한 모델은 다양한 다운스트림 시나리오에서 인과 추론을 가능하게 한다는 장점이 있습니다. 이 질문은 언어 모델이 자연어로 표현된 기호 데이터를 학습하는 능력을 얻음에 따라 중요해집니다.

실제로 최근 일부 연구에서는 LLM(대형 언어 모델)이 자연어에서 인과 추론 문제를 인코딩하는 벤치마크를 생성하여 인과 추론을 수행할 수 있는지 여부를 평가했습니다.

Microsoft, MIT, 인도 하이데라바드 공과대학(IIT Hyderabad)의 연구팀도 이 방향에서 중요한 조치를 취했습니다.공리훈련을 통한 인과추론 학습방법。

논문 제목: Axiomatic Training을 통한 Transformers 인과 추론 교육
논문 주소: https://arxiv.org/pdf/2407.07612

공리 훈련

그들은 인과공리가 다음과 같은 상징적 튜플 ⟨전제, 가설, 결과　로 표현될 수 있다는 가설을 세웠습니다. 그 중에서 가설은 가설, 즉 인과관계 진술을 말하며, 전제는 진술이 "참"인지 여부를 결정하는 데 사용되는 관련 정보를 의미합니다. 결과는 간단하게 "예" 또는 "아니오"일 수 있습니다.

예를 들어, "대규모 언어 모델이 상관관계로부터 인과관계를 추론할 수 있습니까?"라는 논문의 충돌기 공리는 다음과 같이 표현될 수 있으며 결론은 "예"입니다.

이 템플릿을 기반으로 변수 이름, 변수 번호, 변수 순서 등을 수정하여 많은 수의 합성 튜플을 생성할 수 있습니다.

Transformer를 사용하여 인과 공리를 학습하고 공리 훈련을 구현하기 위해 팀에서는 다음 방법을 사용하여 데이터 세트, 손실 함수 및 위치 임베딩을 구성했습니다.

공리 훈련: 데이터 세트, 손실 함수 및 위치 컴파일

훈련 데이터

특정 공리를 기반으로 "가설"은 "전제"를 기반으로 하는 적절한 레이블(예 또는 아니요)에 매핑될 수 있습니다. 훈련 데이터 세트를 생성하기 위해 팀은 특정 변수 설정 X, Y, Z, A에서 가능한 모든 튜플 {(P, H, L)}_N을 열거합니다. 여기서 P는 전제이고 H는 가설, L은 레이블입니다. (예 혹은 아니오).

인과 관계 다이어그램을 기반으로 하는 전제 P가 주어지면 특정 공리(1회 이상)를 사용하여 가설 P를 도출할 수 있으면 레이블 L은 예입니다. 그렇지 않으면 아니요입니다.

예를 들어, 시스템의 기본 실제 인과 그래프에 X_1 → X_2 → X_3 →・・・→ X_n과 같은 체인 토폴로지가 있다고 가정합니다. 그렇다면 가능한 전제는 X_1 → X_2 ∧ X_2 → X_3이고, X_1 → 위의 공리는 더 복잡한 훈련 튜플을 생성하기 위해 여러 번 귀납적으로 사용될 수 있습니다.

훈련 설정의 경우 전이성 공리에 의해 생성된 N 개의 공리 인스턴스를 사용하여 합성 데이터 세트 D가 구성됩니다. D의 각 인스턴스는 (P_i, H_ij, L_ij) 형식으로 구성됩니다. 여기서 n은 각 i번째 전제의 노드 수입니다. P는 전제, 즉 특정 인과 구조(예: X가 Y를 유발하고 Y가 Z를 유발함)에 대한 자연어 표현이며, 그 뒤에 질문 H(예: X가 Y를 유발합니까?)가 표시됩니다. 또는 아니요). 이 형식은 주어진 인과 그래프의 각 고유 체인에 대한 모든 노드 쌍을 효과적으로 포괄합니다.

손실 함수

데이터 세트가 주어지면 손실 함수는 각 튜플의 실측 레이블을 기반으로 정의되며 다음과 같이 표현됩니다. 분석에 따르면 이 손실을 사용하면 다음 토큰 예측과 비교하여 유망한 결과를 얻을 수 있습니다.

위치 인코딩

훈련 및 손실 기능 외에도 위치 인코딩 선택은 또 다른 중요한 요소입니다. 위치 인코딩은 시퀀스에서 토큰의 절대 및 상대 위치에 대한 주요 정보를 제공할 수 있습니다.

유명한 논문 "Attention is all you need"에서는 주기 함수(사인 또는 코사인 함수)를 사용하여 이러한 코드를 초기화하는 절대 위치 코딩 전략을 제안합니다.

절대 위치 인코딩은 모든 시퀀스 길이의 모든 위치에 대해 결정적인 값을 제공합니다. 그러나 일부 연구에서는 절대 위치 인코딩이 Transformer의 길이 일반화 작업에 대처하기 어렵다는 것을 보여줍니다. 학습 가능한 APE 변형에서는 각 위치 임베딩이 무작위로 초기화되고 모델을 사용하여 학습됩니다. 이 방법은 새로운 위치 임베딩이 아직 훈련되지 않고 초기화되지 않았기 때문에 훈련 중 시퀀스보다 긴 시퀀스를 처리하는 데 어려움을 겪습니다.

흥미롭게도 최근 연구 결과에 따르면 자기회귀 모델에서 위치 임베딩을 제거하면 모델의 길이 일반화 기능이 향상되고 자기회귀 디코딩 중 주의 메커니즘이 위치 정보를 인코딩하는 데 충분하다는 사실이 밝혀졌습니다. 팀은 학습 가능한 위치 인코딩(LPE), 정현파 위치 인코딩(SPE), 위치 인코딩 없음(NoPE) 등 다양한 위치 인코딩을 사용하여 인과 작업의 일반화에 미치는 영향을 이해했습니다.

모델의 일반화 능력을 향상시키기 위해 팀은 길이, 노드 이름, 체인 순서 및 분기 조건의 교란을 포함한 데이터 교란도 사용했습니다.

실험

질문이 다시 제기됩니다. 모델이 이 데이터를 사용하여 훈련되면 모델이 공리를 새로운 시나리오에 적용하는 방법을 배울 수 있습니까?

이 질문에 답하기 위해 팀은 인과적으로 독립적인 공리의 상징적 시연을 사용하여 처음부터 Transformer 모델을 훈련했습니다.

일반화 성능을 평가하기 위해 그들은 크기가 3~6 노드인 단순한 인과적으로 독립적인 공리 체인에 대해 훈련한 다음 길이 일반화 성능(크기 7-15 체인), 이름 일반화(더 긴 변수 이름), 일반화 성능의 여러 측면을 테스트했습니다. 순차적 일반화(역방향 가장자리 또는 섞인 노드가 있는 체인), 구조적 일반화(가지가 있는 그래프). 그림 1은 Transformer의 구조적 일반화를 평가하는 방법을 보여줍니다.

구체적으로 그들은 GPT-2 아키텍처를 기반으로 하는 6,700만 개의 매개변수로 디코더 기반 모델을 훈련했습니다. 모델에는 12개의 Attention 레이어, 8개의 Attention 헤드, 512개의 임베딩 차원이 있습니다. 그들은 각 훈련 데이터 세트에 대해 처음부터 모델을 훈련했습니다. 위치 임베딩의 영향을 이해하기 위해 그들은 사인파 위치 인코딩(SPE), 학습 가능한 위치 인코딩(LPE) 및 위치 인코딩 없음(NoPE)의 세 가지 위치 임베딩 설정도 연구했습니다.

결과는 표 1, 그림 3 및 그림 4에 나와 있습니다.

표 1은 훈련 중에 볼 수 없는 더 큰 인과 관계 체인을 평가할 때 다양한 모델의 정확도를 보여줍니다. 신형 모델 TS2(NoPE)의 성능은 1조 매개변수 규모의 GPT-4와 대등한 수준임을 알 수 있다.

그림 3은 더 긴 노드 이름(훈련 세트의 이름보다 길음)과 다양한 위치 임베딩의 영향을 갖는 인과 시퀀스에 대한 일반화 능력의 평가 결과를 보여줍니다.

그림 4는 보이지 않는 긴 인과 관계 시퀀스에 대한 일반화 능력을 평가합니다.

그들은 단순한 체인에 대해 훈련된 모델이 더 큰 체인에 대한 공리의 여러 적용으로 일반화되었지만 순차적 또는 구조적 일반화와 같은 더 복잡한 시나리오로 일반화하는 데 실패했다는 것을 발견했습니다. 그러나 모델이 단순 체인과 임의의 역방향 가장자리가 있는 체인으로 구성된 혼합 데이터 세트에서 훈련된 경우 모델은 다양한 평가 시나리오에 잘 일반화됩니다.

NLP 작업의 길이 일반화 결과를 확장하면서 그들은 길이와 다른 차원에 걸쳐 인과 일반화를 보장하는 데 위치 임베딩의 중요성을 발견했습니다. 가장 성능이 좋은 모델에는 위치 인코딩이 없었지만 일부 상황에서는 정현파 인코딩이 잘 작동한다는 사실도 발견했습니다.

이 공리 훈련 방법은 그림 5와 같이 더 어려운 문제로 일반화될 수도 있습니다. 즉, 통계적 독립성을 포함하는 전제를 바탕으로 작업 목표는 인과관계와 상관관계를 식별하는 것입니다. 이 작업을 해결하려면 d-분리 및 마르코프 속성을 포함한 여러 공리에 대한 지식이 필요합니다.

팀은 위와 동일한 방법을 사용하여 합성 훈련 데이터를 생성한 후 모델을 훈련시켰으며, 3~4개의 변수가 포함된 작업 데모에서 훈련된 Transformer가 5개의 변수가 포함된 그래프 작업을 해결하는 방법을 학습할 수 있음을 발견했습니다. 그리고 이 작업에서 이 모델의 정확도는 GPT-4 및 Gemini Pro와 같은 대규모 LLM의 정확도보다 높습니다.

연구팀은 "우리의 연구는 공리의 상징적 시연을 통해 인과적 추론을 학습하는 모델을 가르치는 새로운 패러다임을 제공하는데, 이를 공리 훈련이라고 부른다"고 말했다. 기호 튜플 형식으로 표현되면 이 방법을 사용하여 학습할 수 있습니다.

소식

Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다.

소개

내 연락처 정보