네이처 커버: AI는 AI를 훈련시킨다, 훈련을 많이 할수록 더 멍청해진다

네이처 커버: AI는 AI를 훈련시킨다. 훈련을 많이 할수록 더 멍청해진다.

2024-07-27

Baijiao는 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

AI 훈련 AI가 AI를 바보로 만들 수도 있다? !

옥스퍼드, 케임브리지 및 기타 기관의 연구원들은 최근 합성 데이터로 훈련할 때 대형 모델이 붕괴될 수 있다는 사실을 발견했습니다.연구결과가 최신호로 선정되었습니다.자연 커버。

직접:쓰레기를 내버려라!

아시다시피, 기술 회사의 대규모 모델 대부분은 이제 "데이터 부족"을 완화하기 위해 합성 데이터를 사용하고 있습니다. 이는 의심할 바 없이 업계 전체에 쏟아지는 찬물이다.

연구팀은 이런 예를 들었다.

그들은 Meta의 OPT-125m 모델을 테스트하고 중세 건축에 대한 정보를 요청했습니다.

각각의 미세 조정은 지난번에 생성된 데이터를 기반으로 학습됩니다. 처음 몇 라운드의 답변은 꽤 좋은 것으로 나타났습니다. 그러다보니 9번째부터 말도 안되는 소리를 하기 시작했는데...

토끼한테 이게 도대체 무슨 소리야? !

논문의 주요 저자는 합성 데이터가 대형 모델에 오류를 일으킬 수 있다는 점을 고려했지만 모델이 그렇게 빨리 저하될 것이라고는 예상하지 못했다고 말했습니다.

세 가지 오류로 인해 모델이 붕괴됩니다.

먼저 팀은 모델 붕괴가 무엇인지 정의했습니다.

모델 붕괴는 모델 생성 콘텐츠가 차세대 훈련 데이터 세트를 오염시키는 저하 프로세스입니다. 오염된 데이터를 학습한 후 차세대 모델은 현실을 오해하기 쉽습니다.

이 주기는 계속해서 진행되며, 각 세대는 다음 세대보다 더 나빠집니다.

시간의 흐름에 따라 주로 초기 모델 붕괴와 후기 모델 붕괴라는 두 가지 상황이 있습니다.

초기 모델 붕괴에서는 모델이 일부 꼬리 정보를 잃기 시작합니다. (확률 분포의 일부 낮은 확률 이벤트와 유사) 그리고 후기 모델 붕괴에서는 모델이 원래 분포와 거의 유사하지 않게 수렴됩니다.

이 프로세스의 발생은 모델 설계, 학습 프로세스 및 사용된 데이터의 품질과 관련이 있습니다.

이론에 있어서는 주로 이 세 가지 오류로 인해 원본 모델에서 대형 모델이 벗어나는 현상이 포함됩니다.

통계적 근사 오류 . 이는 제한된 표본 크기로 인해 발생하는 주요 오류 유형이며 표본 크기가 무한대로 갈수록 사라집니다. 이는 리샘플링의 각 단계에서 0이 아닌 확률로 정보가 손실될 수 있기 때문입니다.
함수 표현 오류 . 이 오류는 함수 근사의 제한된 표현 능력으로 인해 발생합니다. 특히 신경망은 크기가 무한대에 도달할 때만 보편적인 근사치가 됩니다. 그러나 다른 두 가지 오류가 없으면 이 오류는 1세대에서만 발생합니다.
함수 근사 오류 . 주로 확률적 경사하강법의 구조적 편향이나 목표 선택과 같은 학습 프로세스의 제한으로 인해 발생합니다. 이러한 오류는 세대별로 무한한 데이터와 완벽한 표현력을 갖춘 경우에 발생하는 오류로 볼 수 있다.

언어 모델에 미치는 영향

그런 다음 연구자들은 모델 붕괴가 언어 모델에 미치는 영향을 평가했습니다. 대규모 모델을 처음부터 훈련하는 데는 비용이 많이 들기 때문에 언어 모델의 가장 일반적인 설정을 평가하기로 결정했습니다.미세 조정 설정。

각 훈련 주기는 최신 데이터로 사전 훈련된 모델로 시작됩니다. 훈련 데이터는 또 다른 미세 조정된 사전 훈련된 모델에서 나옵니다.

그들은 wikitext2에서 미세 조정된 메타 인과 언어 모델 OPT-125m을 사용했습니다.

훈련된 모델에서 데이터를 생성하기 위해 팀은 5방향 빔 검색을 사용했습니다. 그들은 훈련 시퀀스의 길이를 64개의 토큰으로 설정한 다음 훈련 세트의 각 토큰 시퀀스에 대해 모델에 다음 64개의 토큰을 예측하도록 요청했습니다.

원본 교육 데이터 세트를 모두 검토하고 동일한 크기의 인공 데이터 세트를 생성합니다.모델의 오류가 0이면 원본 wikitext2 데이터 세트가 생성됩니다.

차이점을 더 느끼기 위해 두 가지 다른 설정을 사용했습니다. 한 그룹은 초기 훈련을 제외하고 후속 프로세스에서 원본 훈련 데이터가 없으며 다른 그룹은 원본 데이터의 10%를 유지합니다.

결과는 시간이 지남에 따라 모델에서 생성된 오류가 증가한다는 것을 보여주었습니다. 또한 모델이 완전히 분해되기 전에 모델이 데이터 세트에서 확률이 낮은 이벤트를 잊어버리게 하고 출력이 더욱 동질화됩니다. 결국 시작의 현상이 나타났습니다.

또한 VAE 및 GMM 모델에서도 유사한 모델 붕괴 현상이 나타났습니다.

듀크 대학의 에밀리 벵거(Emily Wenger) 교수는 지금까지 문제를 완화하는 것이 쉽지 않다고 말했습니다.

선도적인 기술 기업은 "워터마크"를 삽입하는 기술을 배포했습니다.

훈련 데이터에서 제외할 AI 생성 콘텐츠에 플래그를 지정하세요. 어려운 점은 기술 회사 간의 조정이 필요하므로 상업적으로 실행 가능성이 낮다는 것입니다.

이러한 방식으로 인터넷에서 데이터를 얻는 회사는 실제 세계를 더욱 잘 대표하는 모델을 훈련할 수 있습니다. 따라서 대형 모델의 초기 물결에는 선점자 이점이 있었습니다.

이 관점에 대해 어떻게 생각하시나요?

참조 링크:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y

소식