소식

옥스브리지는 AI를 '독살'시키는 데 실패하고 네이처 표지에 9번이나 등장하며 학계에서 열띤 논쟁을 불러일으켰습니다! AI가 AI를 훈련시켜 돌파할 수 있을까?

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: Aeneas 너무 졸려

[새로운 지혜 소개] 모델 붕괴를 초래한 9가지 중독에 관한 옥스퍼드와 케임브리지의 논문은 많은 비판을 받았습니다. 이것이 자연에도 포함될 수 있습니까? 이에 대해서는 학계에서 추가 논의가 진행되었으며 모든 사람이 동일한 관점을 가지고 있습니다. 많은 사람들은 합성 데이터를 만병통치약으로 간주하지만 세상에 공짜 점심은 없습니다.

AI 시대에는 데이터가 새로운 석유다. 전 세계 인류 데이터가 점차 고갈되는 시대, 합성 데이터가 우리의 미래일까?

최근 네이처(Nature) 표지에 실린 논문으로 인한 논란을 통해 우리는 중요한 것은 '합성 데이터'가 아니라 '합성 데이터의 올바른 사용'이라는 사실을 깨달았습니다.

목요일에는 옥스퍼드, 케임브리지, 임페리얼 칼리지, 토론토 대학교 등 여러 기관의 논문이 네이처 표지에 실렸습니다.


하지만 사람들이 예상하지 못한 것은 논문이 발표되자 AI 커뮤니티에서 많은 논의가 촉발됐다는 점이다.



문제의 핵심은 '합성 데이터'가 아니라 '데이터 품질'에 있다고 믿는 사람들도 있다.

아무리 인공적인 데이터를 다 써도 품질이 너무 나쁘면 '가비지 인, 쓰레기 아웃'이라는 결과가 나올 것이다.



어떤 사람들은 연구자들이 의도적으로 실제 작업과 일치하지 않는 방법을 채택했으며 실제로는 "대단하다"고 생각합니다.


이에 대해 마 이 교수는 이제 우리는 과학적 아이디어와 방법이 부족한 시대에 접어들었다고 말했습니다.

많은 연구는 과학적 상식을 재발견하는 것에 지나지 않습니다.


모델 충돌을 피하는 방법은 무엇입니까?

그렇다면 문제는 AI를 사용하여 데이터를 합성할 때 어떻게 모델 붕괴를 피할 수 있느냐는 것입니다.

하이브리드 데이터가 미래다

Nature 표지에 실린 이 기사에 대해 Scale AI의 CEO인 Alexandr Wang도 크게 동의합니다.

그는 모델을 훈련하기 위해 순수하게 합성된 데이터를 사용하는 것은 정보 획득을 가져오지 못한다고 말했습니다.

일반적으로 자체 증류로 인해 평가 지표가 올라가는 경우에는 다음과 같은 좀 더 미묘한 절충 사항이 있을 가능성이 높습니다.

  • 합성 데이터는 단기적으로 추정치를 향상시킬 수 있지만 모델 붕괴에 대한 대가를 치르게 됩니다.

  • 모델을 훈련하거나 미세 조정하는 과정에서 눈에 보이지 않는 부채가 쌓여 갚기 어려울 것입니다.


특히, 연속적인 세대의 합성 훈련에서 오류는 주로 세 가지 측면에서 발생합니다.

  • 통계적 근사 오류

  • 기능적 표현 오류

  • 기능적 근사 오류

즉, 이전 모델에서 생성된 데이터를 사용하여 새 모델을 훈련할 때마다 일부 정보와 정확성이 손실되어 모델이 점점 공허해지고 결국 제대로 작동하지 않게 됩니다.


이러한 실험은 소규모 모델(1억 매개변수)에서 수행되었지만 관찰된 기본 효과는 시간이 지남에 따라 대규모 모델에서도 나타날 것입니다.

예를 들어, 오늘날 대부분의 모델은 모델 충돌로 인해 Slate Star Codex 스타일 블로그 게시물을 생성할 수 없습니다. 모델을 지속적으로 훈련함에 따라 모델은 넓은 분포에 대한 예측 능력을 점차 상실합니다.


Wang의 관점에서 하이브리드 데이터는 모델 붕괴와 관련된 모든 까다로운 문제를 피할 수 있는 미래 개발 방향입니다.

즉, 데이터를 합성하는 과정에서 새로운 정보 소스를 통해 생성되어야 합니다.

(1) 실제 데이터를 씨앗으로 활용

(2) 인간 전문가의 참여

(3) 형식논리엔진

대조적으로, 정보를 전혀 얻지 못한 채 실수로 합성 데이터에 대해 모델을 교육한 개발자는 결국 시간이 지남에 따라 모델이 점점 이상해지고 어리석어진다는 것을 알게 될 것입니다.

강화 학습은 당신에게 필요한 모든 것입니다

Meta, New York University, Peking University의 연구원들은 인간이나 더 약한 모델을 통해 모델의 원래 성능을 복원하거나 심지어 능가할 수 있는 "순위 가지치기 피드백" 방법을 제안했습니다.

이번 연구에 대해 르쿤 역시 이를 전달해 지지를 표했다.


우리 모두 알고 있듯이, 처음부터 고품질 샘플을 생성하는 것보다 인간과 기계가 좋은 예와 나쁜 예를 구별하는 것이 훨씬 쉽습니다.

이를 바탕으로 저자는 합성 데이터 피드백을 통해 모델 붕괴를 방지할 수 있는 새로운 방법을 제안합니다.


논문 주소: https://arxiv.org/abs/2406.07515

이 질문을 조사하기 위해 저자는 먼저 이론적 환경에서 분석 결과를 제공합니다.

여기서 저자는 고차원 한계의 가우스 혼합 모델과 선형 모델을 분류자로 제안하고 검증자(예: 인간 또는 오라클)가 생성된 데이터를 선택하거나 정리하도록 합니다.

결과는 합성 데이터 포인트의 수가 무한대에 가까워지면 선택된 데이터로 훈련된 모델이 원시 데이터로 훈련된 모델과 비슷한 최적의 결과를 얻을 수 있음을 보여줍니다.

합성 데이터에 대한 시뮬레이션은 Oracle Supervisory가 원시 주석을 사용하는 것과 비교하여 지속적으로 거의 최적의 결과를 생성한다는 것을 보여줍니다.

또한, 인간 감독을 통해 고품질 데이터를 구별하는 것이 인간이 직접 주석을 추가하는 것보다 간단하고 저렴하기 때문에 이는 인간 감독의 효율성에 대한 강력한 증거를 제공합니다.


선형 생성기와 선형 프루너를 갖춘 가우스 혼합 모델: 프루너는 합성 데이터를 선택적으로 강화하여 성능을 향상시킵니다.

다음으로 저자는 두 가지 대규모 실험을 수행했습니다.

1. 산술 작업(행렬 고유값 예측)에 대해 Transformer를 훈련하고 실제 값과의 거리를 사용하여 대량의 합성 데이터를 정리합니다.

2. 대규모 언어 모델(Llama 2) 및 제한된 합성 데이터를 사용한 뉴스 요약

결과는 두 경우 모두 생성된 데이터에만 의존하면 데이터 양이 증가하더라도 성능 저하 및 모델 충돌이 발생한다는 것을 보여줍니다.

더욱이 Perplexity만으로는 생성 풀에서 최상의 솔루션을 선택해도 성능이 향상되지 않습니다. 즉, 모델 자체에는 Perplexity를 기반으로 최상의 예측을 선택하는 기능이 부족합니다.

대조적으로, 오라클 감독 하에서는 데이터 양이 증가함에 따라 원래 데이터 세트의 성능을 초과하는 피드백 강화 합성 데이터 세트를 얻을 수 있습니다.


인간과 모델의 증강은 성능을 향상시키고 증강 없이 발생하는 성능 저하를 방지합니다.

따라서 합성 데이터로 새 모델을 훈련할 때는 생성기의 품질에도 집중해야 할 뿐만 아니라 데이터를 선택하기 위한 고품질 검증기도 필요합니다.

한 문장으로 요약하자면: 강화가 필요한 전부입니다!

실제 데이터 + 합성 데이터

이번 네이처 표지논문에 대한 독자들의 불만에 대해 스탠포드 대학 박사과정 학생인 라일런 셰퍼(Rylan Schaeffer)는 이해를 표했다.

그는 연구자들이 의도적으로 실제 관행과 일치하지 않는 방법을 채택할 때 모델 붕괴가 종종 발생한다고 지적했습니다.

데이터 축적은 무너질 수도 있고 무너지지 않을 수도 있으며, 이는 모두 구체적인 운영 세부 사항에 따라 달라집니다.

일부러 무너지게 하면 당연히 무너지겠죠.


스탠포드, 메릴랜드, MIT가 공동으로 작성한 논문에서 Schaeffer는 데이터 축적이 모델 붕괴에 어떤 영향을 미치는지 조사했습니다.

실험을 통해 각 세대마다 원본 실제 데이터를 합성 데이터로 대체하면 실제로 모델이 붕괴된다는 사실을 확인했습니다.

그러나 원본 실제 데이터와 함께 연속적인 세대의 합성 데이터가 누적되면 모델 붕괴를 피할 수 있습니다.


논문 주소: https://arxiv.org/abs/2404.01413

실제로 미래 세대의 LLM은 시간이 지남에 따라 증가하는 데이터 양에 대해 교육을 받게 됩니다. 예를 들어 Llama 1에는 1조 4천억 개의 토큰이 필요하고 Llama 2에는 2조 개의 토큰이 필요하며 Llama 3에는 15조 개의 토큰이 필요합니다.

어떤 의미에서 이 데이터 축적 설정은 매우 비관적이다──

이 가상의 미래에서는 합성 데이터가 다음 모델 반복을 훈련하는 데 사용되기 위해 인터넷에 통제할 수 없게 버려집니다.


그림의 오른쪽과 같이 데이터를 축적하면 모델 붕괴를 피할 수 있습니다.

연구원들은 인과 변환기, 확산 모델 및 자동 변동 인코더의 세 가지 다른 실험 설정을 사용하고 각각 실제 텍스트, 분자 형태 및 이미지 데이터 세트에 대해 훈련했습니다.

그들은 데이터를 교체하면 모든 모델과 모든 데이터세트에서 모델 붕괴가 발생하는 반면, 데이터를 축적하면 모델 붕괴가 방지된다는 사실을 발견했습니다.

Transformer 기반 인과언어 모델링

첫째, 텍스트 데이터에 대한 인과 변환기를 훈련했습니다.

구체적으로, 단일 에포크의 9M 매개변수 GPT-2와 12M, 42M, 125M 매개변수의 Llama 2 언어 모델이 TinyS-tories에서 사전 훈련되었습니다.

전자는 유치원 읽기 수준에서 GPT-3.5/4에 의해 생성된 470M 토큰 단편 소설 데이터 세트입니다.

n ≥ 2의 각 모델 피팅 반복에 대해 이전 반복의 언어 유형에서 TinvStories와 동일한 크기의 새 데이터 세트를 샘플링한 다음 이전 데이터 세트를 새로 생성된 데이터 세트로 바꾸거나 연결합니다.

각 모델 피팅 반복에서는 이전 반복의 대체 데이터 세트 또는 연결된 데이터 세트에 대해 새로 초기화된 모델을 사전 학습합니다.


결과는 모든 아키텍처, 매개변수 수 및 샘플링 온도에 대해 데이터를 대체하면 모델 피팅 반복 횟수가 증가함에 따라 테스트 교차 엔트로피가 증가한다는 것을 보여줍니다(왼쪽 그림 2).

또한 모든 아키텍처, 매개변수 수 및 샘플링 온도에 대해 모델 피팅 반복 횟수가 증가함에 따라 축적된 데이터의 테스트 교차 엔트로피가 같거나 낮아지는 것을 발견했습니다(그림 2, 오른쪽).

그림 3은 데이터 교체(위)와 데이터 누적(아래)을 반복적으로 수행할 때 각 모델 피팅 반복에 대한 학습 곡선입니다.

결과는 데이터 축적이 언어 모델링에서 모델 붕괴를 방지한다는 것을 보여줍니다.


125M Llama2와 9M GPT-2 모두 데이터 교체 시(R) 품질 저하를 보였지만, 데이터 축적 시(A) 고품질 텍스트 생성을 유지했습니다.


분자 구조 데이터의 확산 모델

다음으로 그들은 분자 형태 데이터에 대한 일련의 확산 모델을 훈련했습니다.

특히 연구원들은 GEOMDRugs 데이터세트에서 분자 형태 생성을 위한 기하학적 확산 모델인 GeoDiff를 훈련했습니다.

그들은 GEOM-Drugs 데이터세트의 훈련 부분을 40,000개의 분자 형태로 다운샘플링하여 이를 초기 훈련 세트로 사용하고 각 예측에 대해 50개의 확산 단계를 수행했습니다.

결과 8번의 모델 피팅 반복 후, 연구자들은 데이터를 교체할 때 테스트 손실이 증가하는 것을 발견했는데, 이는 우리의 언어 모델 실험과 일치했으며, 데이터를 축적할 때 테스트 손실은 상대적으로 일정하게 유지되었습니다(그림 4).


언어 모델과 달리, 그들은 데이터를 교체할 때 합성 데이터에 대한 훈련의 첫 번째 모델 피팅 반복에서 성능이 크게 저하되고 후속 반복에서 더 이상 크게 떨어지지 않는다는 것을 발견했습니다.

이미지 데이터용 자동변동 인코더

실험이 끝나면 연구원들은 CelebA에서 변형 인코더(VAE) 시퀀스를 훈련했습니다. 데이터 세트에는 200,000개의 얼굴 이미지가 포함되어 있으며 훈련 세트와 테스트 세트로 나뉩니다.

이 선택은 많은 샘플, 컬러 이미지 및 해상도가 포함된 현실적인 데이터 세트와 축적된 데이터에 대한 많은 반복을 위해 모델을 훈련하는 계산 타당성 사이의 균형을 유지합니다.

그 결과, 각 반복에서 데이터를 다시 교체하면 모델이 붕괴되는 것으로 나타났습니다.

추가 반복마다 테스트 오류가 급격히 증가하고, 모든 모델 생성이 단일 패턴을 나타낼 때까지 각 반복에서는 품질이 낮아지고 다양성이 덜해집니다.


대조적으로, 각 반복에서 데이터가 축적되면 모델 붕괴가 상당히 느려집니다.

각 추가 반복마다 테스트 오류가 상당히 느리게 증가합니다.

세대의 다양성은 그림 6의 중간 및 오른쪽 패널에 비해 감소하지만 여전히 성별과 같은 데이터 세트의 주요 변이 축을 나타내지만 모델은 더 이상 데이터의 더 짧은 축을 따라 다른 축을 생성하지 않는 것 같습니다. 안경, 액세서리 등 다양한 디테일.

또 다른 흥미로운 현상은 언어 모델링과 달리 누적 데이터의 테스트 오류가 반복 횟수에 따라 증가한다는 것입니다(비록 대체 데이터보다 훨씬 느리긴 하지만).

왜 이런 차이가 존재하는가? 이 연구 방향은 미래에 맡긴다.

참고자료:

https://x.com/alexandr_wang/status/1816491442069782925 https://x.com/RylanSchaeffer/status/1816535790534701304

https://arxiv.org/abs/2404.01413

https://arxiv.org/abs/2406.07515