전 Google 과학자 Yi Tay의 첫 번째 블로그 시리즈 "The Story of LLM": BERT가 사라진 이유는 무엇입니까?

2024-07-21

새로운 지혜 보고서

편집자: 양용용 차오

[새로운 지혜 소개]전 Google 과학자 Yi Tay는 "LLM 시대의 모델 아키텍처" 블로그 시리즈를 시작했습니다. 첫 번째 블로그 게시물은 인코더 전용 아키텍처 기반 BERT가 인코더-디코더 아키텍처 기반 T5로 대체된 방법에 대한 내용입니다. BERT의 멸종 역사를 교훈으로 삼는 것은 미래 혁신에 큰 의미가 있습니다.

블로그에 관심이 많은 전직 Google 과학자 Yi Tay는 최근 너무 지루해서 날아갈 시간이 없었기 때문에 현재 많은 사람들이 우려하고 있는 주제인 LLM 시대의 모델 아키텍처의 썰물과 흐름에 대해 심도 있는 기사를 썼습니다. .

이번에 Yi Tay는 "BERT와 T5에 무슨 일이 일어났는가?"라는 주제로 새로운 LLM 시대에 일어나고 있는 모든 일을 풀어내려고 했습니다. 또한 Transformer 인코더, PrefixLM 및 잡음 제거 대상의 상승 및 하강에 대해서도 설명합니다.

블로그 주소: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

엔코더 전용 모델이 "더 이상 인기가 없는" 이유는 무엇입니까? BERT가 그렇게 강력하지만 "확장"할 수 없는 이유는 무엇입니까?

그 안에 들어가면 전체 그림을 보기가 어렵습니다. 업계 사람들이 고개를 끄덕이게 만드는 이러한 문제에 대해 Yi Tay는 자신의 관찰과 생각을 공유했습니다.

그리고 Yi Tay는 이것이 일련의 블로그 게시물 중 첫 번째 게시물일 뿐이며 "LLM 시대의 모델 아키텍처"라는 주제로 그의 더 많은 콘텐츠를 기대해도 된다고 말했습니다.

LLM 시대의 모델 아키텍처에 대한 새로운 업데이트 블로그 시리즈를 시작하기로 결정했습니다. 다음은 Transformer 인코더/인코더-디코더, PrefixLM 및 잡음 제거 대상의 광범위한 아키텍처를 다루는 1부입니다. 많은 사람들이 궁금해할 질문은 "5년 전쯤 언어와 NLP 연구에 종사했던 사람들은 인코더 모델이 어디로 갔는지 궁금해하며 머리를 긁적이었다. BERT가 이렇게 잘 작동한다면 규모를 확장해 보는 것은 어떨까?"이다. 게다가 인코더-디코더나 순수 인코더 모델은 어떻게 됐나요? 노이즈 제거 대상이 좋은가요? 이 블로그 게시물에서 내 생각을 공유합니다.

Yi Tay는 LLM 시대의 대표적인 "스토리텔러"입니다. 그는 자신의 블로그에서 지난 몇 년간의 모델 아키텍처 개발을 간결하게 요약하고 자신의 통찰력을 제시했습니다.

배경

기술에 그다지 익숙하지 않은 사람들도 쉽게 읽을 수 있도록 이태이는 먼저 이야기의 배경을 설명했다.

지난 몇 년 동안 모델 아키텍처에는 세 가지 중요한 패러다임이 있었습니다.

인코더 전용 모델(예: BERT), 인코더-디코더 모델(예: T5) 및 디코더 전용 모델(예: GPT 시리즈).

하지만 사람들은 이 구분에 대해 매우 혼란스러워하고 오해가 많기 때문에 Yi Tay가 이 블로그 게시물을 작성하는 목적은 모든 사람들이 더 명확한 이해를 할 수 있도록 돕고 싶습니다.

가장 먼저 분명히 해야 할 점은 인코더-디코더 모델이 실제로는 여전히 자기회귀 모델이라는 점입니다. 인코더-디코더 모델의 디코더는 문자 그대로나 본질적으로 여전히 인과 디코더입니다.

텍스트는 먼저 인코더로 전달된 다음 디코더 모델을 미리 채우는 대신 교차 주의 메커니즘을 통해 디코더로 전송됩니다.

따라서 T5 모델은 언어 모델이기도 합니다!

이것의 변형은 교차 주의 메커니즘을 제외하고 거의 동일한 작업을 수행하는 Prefix Language Model 또는 PrefixLM 아키텍처입니다. (그리고 인코더/디코더 간의 가중치 공유 및 인코더 병목 현상 없음과 같은 기타 작은 세부 사항)

PrefixLM은 비인과적 디코더라고도 합니다. 간단히 말해서 인코더-디코더, 인코더 전용 및 PrefixLM은 크게 다르지 않습니다!

여전히 이에 대해 의구심이 든다면 Yi Tay는 올해 4월 Stanford에서 열린 형원의 훌륭한 연설에서 이 모델들 사이의 관계를 기발하게 설명했던 참고 자료를 제시했습니다.

강의 주소: https://www.youtube.com/watch?v=orDKvo8h71o

동시에 BERT와 같은 인코더 전용 모델의 노이즈 제거 방법은 다르며(즉, 내부) 사전 학습된 기본 모델로 실행되는 추가 "작업 헤드"에 어느 정도 의존합니다. .

BERT의 노이즈 제거 목표는 나중에 T5와 같은 모델에 적용되었지만 특정 수정 사항과 시퀀스 간 형식이 적용되었습니다.

그렇긴 하지만, T5의 노이즈 제거는 정확히 새로운 목적 함수(기계 학습 측면에서)가 아니라 오히려 입력 전반에 걸친 데이터 변환이라는 점에 주목할 가치가 있습니다. 즉, 원인 및 결과 디코더에서 손상 범위를 확장할 수도 있습니다. 훈련 목표!

사람들은 항상 인코더-디코더 모델이 잡음 제거 모델이어야 한다고 생각하는데, 이러한 착각이 일어나는 이유 중 하나는 T5 모델이 너무 대표적이기 때문입니다.

그러나 항상 그런 것은 아닙니다.

일반 언어 모델링 작업(예: CLM)을 사용하여 인코더-디코더를 훈련하거나 범위 손상 작업을 사용하여 인과 디코더를 훈련할 수 있습니다.

앞서 언급했듯이 이는 주로 데이터 변환입니다.

또한 일반적으로 2N 매개변수 인코더-디코더는 N 매개변수 디코더 전용 모델과 동일한 계산 비용을 가지므로 FLOP/매개변수 비율이 다릅니다.

위의 배경에 대한 이해를 바탕으로 이제 텍스트를 입력하겠습니다.

노이즈 제거 목표에 관하여(쓸모가 없나요? 확장이 안 되나요? 너무 단순합니까?)

확실히 말하자면 Yi Tay가 언급한 잡음 제거 목표는 모든 변형된 범위 손상을 의미합니다.

때로는 채우기 또는 공백 채우기라고도 합니다. 이를 표현하는 방법은 다양합니다(스팬 길이, 무작위성, 센티넬 토큰 등). 이해하는 한 모두 같은 의미입니다.

BERT 스타일 모델의 잡음 제거 목표는 대부분 제자리에 있지만 조금 더 현대적인 접근 방식은 인코더/에코더 또는 디코더 전용 모델에 의해 처리되는 데이터 변환인 "T5 스타일"입니다.

이 데이터 변환에서 모델이 예측을 수행할 수 있도록 마스크 토큰은 단순히 "뒤로 이동"됩니다.

사전 훈련의 주요 목표는 가장 효율적이고 효과적인 방법으로 다운스트림 작업에 맞춰 유용한 내부 표현을 구축하는 것입니다.

내부 표현이 좋을수록 학습된 표현을 나중에 유용한 용도로 사용하는 것이 더 쉬워집니다.

우리 모두 알고 있듯이 다음 토큰을 예측하는 단순한 "인과 언어 모델링"(CLM) 목표는 이를 잘 수행하며 LLM 혁명의 기초가 되었습니다. 이제 문제는 노이즈 제거 대상이 똑같이 좋은지 여부입니다.

공개 정보를 통해 우리는 T5-11B가 정렬/SFT 후에도 매우 잘 작동한다는 것을 알고 있습니다(Flan-T5 XXL의 MMLU 점수는 55+로 당시 이 크기의 모델에 꽤 좋습니다).

따라서 몇 가지 결론을 내릴 수 있습니다. 사전 훈련에서 정렬로 잡음 제거 목표를 전환하는 기능은 모델이 11B 규모에서 더 잘 작동하도록 지원할 수 있습니다.

Yi Tay의 견해는 잡음 제거 대상이 훌륭하지만 독립형 대상으로는 충분하지 않다는 것입니다.

단점은 "손실 노출"이 적다는 점이라고 설명할 수 있습니다. 잡음 제거 대상에서는 소수의 토큰만 마스크되어 학습 과정(즉, 손실 값 업데이트)에 사용됩니다.

반면, 기존 언어 모델링에서는 토큰 활용도가 100%에 가깝습니다.

잡음 제거 대상의 이러한 특성으로 인해 FLOP당 샘플링 효율성이 다소 낮아져 FLOP 기반 비교에서 매우 불리하게 됩니다.

또 다른 단점은 잡음 제거 대상이 일반 언어 모델링보다 덜 자연스럽다는 것입니다. 입력/출력을 이상한 방식으로 다시 포맷하므로 소수 학습에 약간 어색해지기 때문입니다. (그럼에도 불구하고 이러한 모델은 소수의 작업에서 합리적으로 좋은 성능을 발휘하도록 여전히 조정될 수 있습니다.)

따라서 Yi Tay는 잡음 제거 대상이 독립적인 훈련 대상이 아닌 기존 언어 모델링의 보충 자료로만 사용될 수 있다고 믿습니다.

통합 초기와 xBERT가 멸종된 이유

BERT와 유사한 모델의 단계적 폐지는 흥미로운 단계이지만 요즘에는 이에 대해 이야기하는 사람이 많지 않으며 미묘합니다.

이는 또한 우리가 더 이상 매우 큰 BERT 모델이 실행되지 않는 이유를 설명할 수도 있습니다. 이유는 무엇입니까?

이는 주로 작업/모델링 패러다임의 통합과 변형의 문제입니다.

BERT 스타일 모델은 투박했지만 사람들이 모든 작업에 하나의 모델을 사용하기를 원했기 때문에 더 이상 사용되지 않았습니다. 그래서 자동 회귀 모델을 사용하는 더 나은 노이즈 제거 방법이 도입되었습니다.

2018년부터 2021년 사이에 단일 작업 미세 조정에서 대규모 다중 작업 모델로 숨겨진 패러다임 전환이 있었습니다.

오늘날 우리가 보는 통합 일반 모델이기도 한 통합 SFT 모델에 모든 사람의 관심이 서서히 끌렸습니다.

BERT로 이 작업을 수행하는 것은 너무 어렵습니다.

그러나 BERT의 이러한 "서투름"은 "노이즈 제거" 작업과 거의 관련이 없습니다. 이 유형의 모델을 계속 사용하려면 "잡음 감소" 작업을 다른 방식(예: T5)으로 표현할 수 있습니다.

따라서 더 나은 대안이 등장함에 따라 BERT 스타일 모델은 현재 시점에서 거의 사용되지 않습니다.

보다 구체적으로 인코더-디코더 및 디코더 전용 모델은 작업별 분류 헤더 없이도 여러 작업을 동시에 표현할 수 있습니다.

동시에 연구원과 엔지니어는 인코더-디코더 모델의 경우 인코더를 단순히 제거하고 디코더만 남으면 성능이 BERT 인코더만큼 경쟁력이 있다는 사실을 발견했습니다.

뿐만 아니라 디코더만 남겨두면 BERT가 소규모(일반적으로 생산 규모) 작업에서 GPT 모델보다 우수하게 만드는 양방향 주의 이점도 유지됩니다.

노이즈 제거 대상의 값

일반 언어 모델링이 작동하는 방식과 유사하게 잡음 제거 사전 학습 목표도 다음 단어를 예측하는 방법을 학습합니다.

그러나 기존 CLM과 달리 후자는 단순히 왼쪽에서 오른쪽으로 자연스럽게 나타나는 텍스트를 예측하는 것이 아니라 시퀀스에 대한 데이터 변환을 수행하여 "빈칸 채우기"를 학습합니다.

노이즈 제거 목표는 때때로 "채우기 작업"이라고 불리며 때로는 사전 학습을 위한 일반 언어 모델링 작업과 혼합된다는 점은 주목할 가치가 있습니다.

구체적인 구성 및 구현 세부 사항은 다양할 수 있지만 오늘날의 LLM은 언어 모델링과 패딩을 조합하여 사용할 가능성이 높습니다.

그리고 흥미롭게도 언어 모델링과 패딩의 하이브리드는 같은 시기에 확산된 것으로 보이며(예: UL2, FIM, GLM, CM3) 많은 팀이 어떤 방식으로든 하이브리드에 자신만의 "맛"을 가져왔습니다.

덧붙여서, 이러한 방식으로 훈련된 공개 및 보고된 최대 규모의 모델은 PaLM-2입니다.

혼합 훈련은 반드시 동시에 혼합할 필요는 없지만 순차적으로 쌓을 수 있다는 점은 주목할 가치가 있습니다.

예를 들어 Flan-T5는 처음에 1Tspan 손상 토큰에 대해 교육을 받은 다음 명령 미세 조정 전에 100B 토큰의 접두사 언어 모델링 작업으로 전환합니다.

어떻게 보면 이는 노이즈 제거/언어 모델링 대상 하이브리드 모델이라고 할 수 있습니다.

Yi Tay는 또한 비공식 경험을 공유했습니다. 대상의 노이즈 제거를 통해 학습된 표현은 특정 작업 범주에서 더 나은 성능을 발휘하고 때로는 더 효율적인 방식으로 샘플링됩니다.

이 목표로 훈련된 미세 조정 모델은 일반적으로 특히 소규모 규모에서 더 나은 SFT 모델을 생성합니다.

단일 작업 미세 조정에 관해 말하면 PaLM-1 62B 모델이 더 작은 T5에 의해 패배하는 것을 볼 수 있습니다.

양방향 주의 + 노이즈 제거 대상은 상대적으로 작은 범위에서 큰 역할을 할 수 있습니다! 나는 지금 많은 실무자들이 이러한 상황을 목격하고 있다고 생각합니다. 특히 생산 분야에서는 더욱 그렇습니다.

인코더/디코더 아키텍처의 장점과 단점

인코더-디코더 아키텍처는 실제로 일반 디코더 전용 모델에 비해 몇 가지 장점이 있습니다.

인코더 측은 자동 회귀 설계의 한계에 대해 걱정하지 않고 공격적인 풀링이나 모든 형태의 선형 주의를 사용하여 주의 레이어를 미친 듯이 쌓을 수 있을 정도로 인과 마스크의 제약을 받지 않습니다.

이는 덜 중요한 "컨텍스트"를 인코더에 전달하는 좋은 방법입니다. 인코더를 더 작게 만들 수도 있는데, 그것도 좋은 일입니다.

Charformer의 예는 인코더-디코더 아키텍처의 필요성을 보여줍니다. 바이트 수준에서 인코딩할 때 속도 단점을 완화하기 위해 인코더에 대해 큰 소란을 피울 수 있습니다.

그러나 동시에 PrefixLM에 비해 인코더-디코더의 한 가지 단점은 입력과 대상이 고정된 할당 길이를 가져야 한다는 것입니다.

예를 들어 미리 결정된 입력 길이가 1024 토큰인 경우 인코더 측을 이 값으로 채워야 하므로 많은 계산 낭비가 발생할 수 있습니다.

이에 비해 PrefixLM에서는 입력과 대상을 직접 연결할 수 있으므로 이러한 문제가 완화됩니다.

오늘날의 모델과의 관련성 및 주요 시사점

모델 아키텍처 관점에서든 사전 훈련 관점에서든 유능한 LLM 연구원 및 실무자가 되려면 추론을 위해 귀납적 편향을 사용하는 능력이 필수적입니다. 다양한 모델 아키텍처 간의 근본적인 차이를 이해하면 향후 혁신에 도움이 될 수 있습니다.

Yi Tay는 다음과 같은 핵심 내용을 공유했습니다.

인코더-디코더 모델과 디코더 전용 모델은 모두 자동 회귀 모델이지만 구현 수준에는 차이가 있으며 각각 장점과 단점이 있습니다. 귀납적 편향은 미묘하게 다르며 실제로 최고의 사용법은 다운스트림 사용 사례와 상당한 애플리케이션 제한 사항에 따라 달라집니다. 대부분의 LLM 애플리케이션 및 틈새 사용 사례에서 BERT 스타일 인코더 전용 모델은 대부분 더 이상 사용되지 않는 것으로 간주됩니다.
잡음 제거 목표는 주로 사전 훈련의 "보조 목표"로서 CLM을 보완하는 것으로, 일반적으로 어느 정도 도움이 됩니다. 이는 코드 모델(예: 코드 스터핑)에서 자주 발생하지만 오늘날의 범용 모델에서는 사전 학습을 위한 일부 노이즈 제거 목표와 함께 CLM을 사용하는 것이 일반적입니다(요구 사항은 아니지만).
양방향 주의 메커니즘은 소규모에서는 많은 도움이 되지만 대규모 모델에서는 옵션일 뿐인 경우가 많습니다. Yi Tay는 Transformer 아키텍처의 다른 많은 유형의 수정과 마찬가지로 양방향 주의에도 귀납적 편향이 있다고 믿습니다.

마지막으로 요약하자면, xBERT의 성공적인 확장을 본 적이 없습니다. BERT 모델은 보다 유연한 노이즈 제거(자동 회귀) T5 모델을 위해 더 이상 사용되지 않습니다.

이는 주로 패러다임의 통일에 기인하며, 모두가 업무별 모델보다는 일반 모델을 사용하기를 원합니다.

동시에 자동회귀 노이즈 제거는 부수적인 훈련 목표로 CLM에 포함되기도 합니다.

작가에 대해

이태이는 현재 AI 스타트업 레카(Reka)의 공동창업자이자 수석과학자이다. Reka는 최첨단 생성 모델을 구축하고 인공 지능 연구를 발전시키는 데 전념하고 있습니다.

그 전에는 Google Brain의 수석 연구원으로 LLM 및 AI 관련 작업에 참여했으며 Google Research에서 미국 연구팀의 기술 이사를 역임하여 Transformer 확장 및 아키텍처 작업을 수행했습니다.

Google에 근무하는 동안 Yi Tay는 약 20개의 제품 출시에 기여했습니다.

Yi Tay가 Google에서 연구 과학자로 재직하는 동안 그가 출판한 대부분의 작품은 특히 효율성, 확장성 및 아키텍처 연구와 관련된 Transformer를 중심으로 이루어졌습니다.

블로그 활동 외에도 클래식 음악도 좋아하는 이태는 “연구원이 아니었다면 전문 음악가가 되고 싶었을 것”이라고 말했다. 흥미롭게도 그는 그와 관련하여 졸업장을 받았습니다.

이태가 다시 장거리 비행을 해서 블로그에 다시 업데이트하는 모습을 볼 수 있기를 기대합니다.

참고자료:

https://x.com/YiTayML/status/1813262126162845772

소식

전 Google 과학자 Yi Tay의 첫 번째 블로그 시리즈 "The Story of LLM": BERT가 사라진 이유는 무엇입니까?

소개

내 연락처 정보