그 유명한 BERT는 어디로 갔나요? 이 질문에 대한 대답은 LLM

그 유명한 BERT는 어디로 갔나요?이 질문에 대한 대답은 LLM의 패러다임 전환을 나타냅니다.

2024-07-22

인코더 모델은 어디로 갔나요? BERT가 잘 작동한다면 확장해 보는 것은 어떨까요? 인코더-디코더 또는 인코더 전용 모델은 어떻습니까?

LLM(Large Language Model) 분야에서는 이제 디코더 모델(예: GPT 시리즈 모델)만이 독주하는 시대입니다. 인코더-디코더 또는 인코더 전용 모델의 개발은 어떻습니까? 한때 그렇게 유명했던 BERT가 왜 점점 더 많은 사람들의 관심을 끌게 됩니까?

최근 AI 스타트업 레카(Reka)의 수석 과학자이자 공동 창업자인 이태이(Yi Tay)는 자신의 견해를 공유하기 위해 블로그 게시물을 게재했다. Yi Tay는 Reka를 공동 창립하기 전 Google Research 및 Google Brain에서 3년 이상 근무했으며, PaLM, UL2, Flan-2, Bard 등 유명 LLM 개발과 Multi-modal 모델 개발에 참여했습니다. PaLI-X 및 ViT-22B가 작동합니다. 다음은 그의 블로그 글 내용이다.

기본 소개

일반적으로 지난 몇 년 동안의 LLM 모델 아키텍처는 주로 인코더 전용 모델(예: BERT), 인코더-디코더 모델(예: T5), 디코더 전용 모델(예: GPT 시리즈)의 세 가지 주요 패러다임으로 나뉩니다. 모델). 사람들은 종종 이러한 분류 방법과 구조를 혼동하고 오해합니다.

가장 먼저 이해해야 할 점은 인코더-디코더 모델이 실제로 자동 회귀 모델이라는 것입니다. 인코더-디코더 모델에서 디코더는 여전히 본질적으로 인과 디코더입니다. 디코더 모델을 미리 채우는 대신 일부 텍스트를 인코더로 오프로드한 다음 교차 주의를 통해 디코더로 보냅니다. 예, T5 모델도 언어 모델입니다!

이 유형의 모델의 변형은 접두어 언어 모델(Prefix Language Model, 줄여서 PrefixLM)입니다. 이 모델은 거의 동일한 방식으로 작동하지만 교차 주의(및 인코더/디코더 간의 공유 가중치 및 인코더 병목 현상 없음과 같은 기타 작은 세부 사항) 없이 작동합니다. PrefixLM은 비인과적 디코더라고도 합니다. 간단히 말해서 인코더-디코더 모델, 디코더 전용 모델, PrefixLM 간에는 전체적으로 큰 차이가 없습니다!

형원님의 최근 훌륭한 강의에서 그는 이러한 모델들 간의 관계를 전문적으로 설명합니다. 자세한 내용은 Machine Heart의 보고서 "AI 연구의 주요 원동력은 무엇입니까?"를 참조하십시오. ChatGPT 팀 연구원: 컴퓨팅 비용 절감》

동시에 BERT와 같은 인코더 전용 모델의 노이즈 제거 방법은 다르며(즉, 내부) 사전 학습 후 인코더 전용 모델이 실제로 역할을 수행하려면 어느 정도 필요합니다. 분류 "작업" 헤더에 의존합니다. 나중에 T5와 같은 모델은 시퀀스 간 형식을 사용하는 노이즈 제거 타겟의 "수정된" 버전을 채택했습니다.

이를 위해 T5의 노이즈 제거는 새로운 목적 함수(기계 학습 의미에서)가 아니라 입력 전체에 대한 데이터 변환입니다. 즉, 손상된 목표에 대해 훈련된 인과 디코더를 사용할 수도 있습니다( 스팬 손상 목적).

사람들은 항상 인코더-디코더 모델이 잡음 제거 모델이어야 한다고 가정합니다. 부분적으로는 T5가 매우 대표적이기 때문입니다. 그러나 항상 그런 것은 아닙니다. 일반 언어 모델링 작업(예: 인과 언어 모델링)을 사용하여 인코더-디코더를 훈련할 수 있습니다. 결과적으로, 인과 디코더는 범위 손상 작업을 사용하여 훈련될 수도 있습니다. 앞서 말했듯이 이는 기본적으로 데이터 변환입니다.

주목할 만한 또 다른 점은 일반적으로 2N 매개변수가 있는 인코더-디코더는 계산상 N 매개변수가 있는 디코더 전용 모델과 동일하므로 매개변수 수에 대한 FLOP의 비율이 다릅니다. 이는 입력과 목표 사이에 "모델 희소성"을 배포하는 것과 같습니다.

이것은 새로운 것이 아니며 제가 직접 생각해낸 것도 아닙니다. 2019년 T5 논문에도 있었고, UL2 논문에서도 이 점을 다시 강조했습니다.

지금으로서는 이 점을 분명히 할 수 있어서 기쁩니다. 이제 목표를 달성하세요.

노이즈 제거 목표에 관해(작동하지 않나요? 확장이 안 되나요? 아니면 너무 쉬운가요?)

여기서 노이즈 제거 대상은 "스팬 손상" 작업의 모든 변형을 나타냅니다. 이를 "채우기" 또는 "빈칸 채우기"라고도 합니다. 범위 길이, 무작위성, 센티넬 토큰 등 이를 표현하는 방법은 다양합니다. 당신은 핵심을 이해했을 것입니다.

BERT 스타일 모델의 노이즈 제거 목표는 기본적으로 제자리에 있지만(예: 분류 헤드는 마스크 토큰에 있음) "T5 스타일"은 더 현대적입니다. 즉, 인코더-디코더 또는 디코더 전용을 통해 데이터 변환을 처리하는 모델입니다. 이러한 데이터 변환에서 모델이 예측을 할 수 있도록 마스킹된 토큰은 간단히 "뒤로 이동"됩니다.

사전 훈련의 주요 목표는 가능한 가장 효율적이고 효과적인 방법으로 다운스트림 작업과 일치하는 내부 표현을 구축하는 것입니다. 내부 표현이 좋을수록 학습된 표현을 후속 작업에 사용하는 것이 더 쉬워집니다. 우리 모두는 간단한 다음 단어 예측이 "인과 언어 모델링" 목표에 매우 효과적이며 LLM 혁명의 핵심이 되었다는 것을 알고 있습니다. 이제 문제는 노이즈 제거 대상이 똑같이 좋은지 여부입니다.

공개 정보를 바탕으로 우리는 T5-11B가 정렬 및 감독된 미세 조정 후에도 꽤 잘 작동한다는 것을 알고 있습니다(Flan-T5 XXL의 MMLU 점수는 55+로 당시 이 크기의 모델에 꽤 좋았습니다). . 따라서 우리는 잡음 제거 대상의 전달 프로세스(사전 훈련 → 정렬)가 이 규모에서 상대적으로 잘 작동한다는 결론을 내릴 수 있습니다.

제 생각에는 노이즈 제거 대상이 잘 작동하지만 그 자체로 대상이 되기에는 충분하지 않다는 것입니다. 큰 단점은 소위 "손실 노출"이 적다는 것입니다. 잡음 제거 대상에서는 소수의 토큰만 마스킹되고 학습됩니다(즉, 손실 시 고려됩니다). 반대로 일반 언어 모델링에서는 이는 100%에 가깝습니다. 이는 FLOP당 샘플을 매우 비효율적으로 만들고, 이는 플롭 기준 비교에서 노이즈 제거 대상을 상당한 단점에 놓이게 합니다.

잡음 제거 목표의 또 다른 단점은 입력/출력의 형식을 이상한 방식으로 다시 지정하므로 일반 언어 모델링보다 덜 자연스러워서 소수 학습에 적합하지 않다는 것입니다. (그러나 이러한 모델을 조정하여 Few-Shot 작업에서 합리적으로 좋은 성능을 발휘하도록 하는 것은 여전히 가능합니다.) 따라서 노이즈 제거 목표는 일반 언어 모델링의 보완적인 목표로만 사용해야 한다고 생각합니다.

화합 초기와 BERT형 모델이 사라진 이유

BERT와 같은 모델은 점차 사라지고 있으며 더 이상 이에 대해 이야기하는 사람이 많지 않습니다. 이는 현재 대규모 BERT 모델을 볼 수 없는 이유를 설명할 수도 있습니다. 이유는 무엇입니까? 이는 주로 작업/모델링 패러다임의 통합 및 이동에 기인합니다. BERT 스타일 모델은 번거롭지만 BERT 모델이 더 이상 사용되지 않는 실제 이유는 사람들이 모든 작업을 한 번에 수행하기를 원했기 때문에 자동 회귀 모델을 사용하여 노이즈를 제거하는 더 나은 방법이 채택되었습니다.

2018~2021년에는 단일 작업 미세 조정에서 대규모 다중 작업 모델로 암묵적인 패러다임 전환이 있었습니다. 이로 인해 오늘날 우리가 볼 수 있는 보편적인 모델인 통합 SFT 모델이 탄생하게 되었습니다. 이는 BERT로는 수행하기 어렵습니다. 나는 이것이 "노이즈 제거"와 큰 관련이 없다고 생각합니다. 여전히 그러한 모델(예: T5)을 사용하려는 사람들을 위해 노이즈 제거 사전 훈련 작업을 재구성하는 방법을 찾았습니다. 이로 인해 BERT 스타일 모델은 더 나은 대체 계획이 있기 때문에 기본적으로 더 이상 사용되지 않습니다.

보다 정확하게는 인코더-디코더 및 디코더 전용 모델을 작업별 분류 헤더 없이도 다양한 작업에 사용할 수 있습니다. 인코더-디코더의 경우 연구원과 엔지니어는 인코더를 포기한 효과가 BERT 인코더의 효과와 유사하다는 사실을 발견하기 시작했습니다. 또한 이는 양방향 관심의 장점을 보존합니다. 이는 BERT가 소규모(종종 생산 규모)에서 GPT와 경쟁할 수 있게 만드는 장점입니다.

노이즈 제거 대상의 값

잡음 제거 사전 훈련 대상은 일반 언어 모델링과 유사한 방식으로 다음 단어를 예측하는 방법도 학습합니다. 그러나 기존의 인과 언어 모델링과 달리 이를 위해서는 모델이 단순히 왼쪽에서 오른쪽으로 자연 텍스트를 예측하는 것이 아니라 "빈칸 채우기" 방법을 학습할 수 있도록 시퀀스에 대한 데이터 변환을 사용해야 합니다.

노이즈 제거 대상은 때때로 "패딩 작업"이라고 불리며 사전 훈련 과정에서 일반 언어 모델링 작업과 혼합되는 경우도 있다는 점은 주목할 가치가 있습니다.

정확한 구성 및 구현 세부 사항은 다를 수 있지만 오늘날의 최신 LLM은 언어 모델링 및 패딩의 일부 조합을 사용할 수 있습니다. 흥미롭게도 이러한 "언어 모델 + 패딩"의 하이브리드는 실제로 같은 기간(예: UL2, FIM, GLM, CM3)에 확산되었으며 많은 팀이 고유한 하이브리드 솔루션을 가져왔습니다. 덧붙여서, 이러한 방식으로 훈련된 알려진 가장 큰 모델은 아마도 PaLM-2일 것입니다.

사전 학습 작업 혼합도 순서대로 쌓을 수 있으며 반드시 동시에 혼합할 필요는 없습니다. 예를 들어 Flan-T5는 처음에 1T 범위의 손상된 토큰에 대해 학습한 다음 전환했습니다. 피드포워드 언어 모델링 대상에 대해 100B 토큰으로 그런 다음 flan 명령을 미세 조정합니다. 어느 정도 이는 하이브리드 노이즈 제거/LM 대상 모델에 적합합니다. 명확하게 말하면 접두사 언어 모델링 목표(아키텍처와 혼동하지 말 것)는 순전히 인과적 언어 모델링이며, 분할 지점이 무작위로 결정되어 입력으로 전송됩니다(손실 및 비인과적 마스킹 없음).

덧붙여서, 패딩은 "공백 채우기"가 코드 작성에 필요한 기능에 더 가까운 코드 LLM 분야에서 유래했을 수 있습니다. 한편, UL2의 동기는 소음 제거 목표와 양방향 LLM이 뛰어난 작업 범주를 요약 또는 개방형 생성과 같은 본질적으로 생성 작업과 통합하는 것입니다. 자동 회귀 디코딩의 이러한 "역방향 이동"의 장점은 모델이 장거리 종속성을 학습할 수 있을 뿐만 아니라 명시적이지 않은 양방향 주의로부터 암묵적으로 이점을 얻을 수 있다는 것입니다(빈칸을 채우기 위해 미래를 보았습니다).

전설적인 경험이 있습니다. 노이즈 제거 대상을 통해 학습된 표현은 특정 작업 범주에서 더 나은 성능을 발휘하고 때로는 더 높은 샘플 효율성을 갖습니다. U-PaLM 논문에서 우리는 BIG-Bench 작업 세트에서 소량의 범위 손상 업 트레이닝이 행동과 출현 현상을 어떻게 변화시키는지 보여줍니다. 이를 바탕으로 이 목표로 훈련된 모델을 미세 조정하면 특히 규모가 작을 때 더 나은 감독 미세 조정 모델이 생성되는 경우가 많습니다.

단일 작업 미세 조정 측면에서 보면 PaLM-1 62B 모델이 훨씬 작은 T5 모델에 의해 패배하는 것을 볼 수 있습니다. 비교적 작은 규모에서는 "양방향 주의 + 노이즈 제거 대상"이 아름다운 조합 펀치입니다! 나는 많은 실무자들도 특히 프로덕션 애플리케이션에서 이러한 상황을 발견했다고 생각합니다.

양방향 관심은 어떻습니까?

양방향 주의는 언어 모델에 대한 흥미로운 "귀납적 편향"입니다. 사람들은 종종 목표 및 모델 백본과 혼동합니다. 유도 바이어스는 다양한 컴퓨팅 영역에서 다르게 사용되며 확장 곡선에 서로 다른 영향을 미칠 수 있습니다. 그렇긴 하지만, 양방향 주의는 작은 규모보다 큰 규모에서 덜 중요할 수 있거나 다양한 작업이나 양식에 다른 영향을 미칠 수 있습니다. 예를 들어 PaliGemma는 PrefixLM 아키텍처를 사용합니다.

형원은 또한 자신의 강연에서 다음과 같이 지적했습니다. PrefixLM 모델(양방향 주의를 사용하는 디코더 전용 모델)에도 캐싱 문제가 있는데, 이는 이러한 유형의 아키텍처에 내재된 결함입니다. 그러나 이 결함을 해결하는 방법은 여러 가지가 있다고 생각하지만 이는 이 기사의 범위를 벗어납니다.

인코더-디코더 아키텍처의 장단점

인코더-디코더 아키텍처는 디코더 전용 모델에 비해 장점과 단점이 있습니다. 첫 번째 경우는 인코더 측이 원인 마스크에 의해 제한되지 않는다는 것입니다. 어느 정도까지는 Attention 레이어에서 손을 떼고 자기회귀의 설계 한계에 대해 걱정하지 않고 풀링이나 모든 형태의 선형 Attention을 공격적으로 수행할 수 있습니다. 이는 덜 중요한 "컨텍스트"를 인코더로 오프로드하는 좋은 방법입니다. 인코더를 더 작게 만들 수도 있는데, 이는 또한 장점입니다.

필수 인코더-디코더 아키텍처의 예로는 인코더를 과감하게 사용하고 바이트 수준 모델의 속도 단점을 완화하는 Charformer가 있습니다. 인코더 측면의 혁신은 인과 마스킹의 심각한 함정에 대해 걱정하지 않고도 빠른 이점을 얻을 수 있습니다.

동시에 PrefixLM과 비교하여 인코더-디코더의 단점은 입력과 대상에 고정된 예산을 할당해야 한다는 것입니다. 예를 들어 입력 예산이 1024개의 토큰인 경우 인코더 측에서 이 값을 채워야 하므로 많은 계산이 낭비될 수 있습니다. 이에 비해 PrefixLM에서는 입력과 대상을 직접 연결할 수 있으므로 이러한 문제가 완화됩니다.

오늘날의 모델과의 관련성 및 주요 시사점

오늘날의 시대에 자격을 갖춘 LLM 연구원 및 실무자가 되기 위한 핵심 능력은 아키텍처 측면과 사전 교육 측면 모두에서 귀납적 편견을 추론할 수 있는 것입니다. 미묘한 차이점을 이해하면 사람들이 추정하고 계속 혁신하는 데 도움이 될 수 있습니다.

주요 내용은 다음과 같습니다.

인코더-디코더 모델과 디코더 전용 모델은 모두 자동 회귀 모델이며 구현 수준이 다르며 고유한 장점과 단점이 있습니다. 그것들은 약간 다른 귀납적 편향입니다. 어느 것을 사용할지는 다운스트림 사용 사례와 애플리케이션 제약 조건에 따라 다릅니다. 동시에 BERT 스타일 인코더 모델은 대부분의 LLM 사용 사례 및 틈새 사용 사례에서 더 이상 사용되지 않는 것으로 간주될 수 있습니다.

노이즈 제거 대상은 주로 인과 언어 모델에 대한 보충 자료로 사용될 수 있습니다. 그들은 훈련 단계에서 "지원 대상"으로 성공적으로 사용되었습니다. 노이즈 제거 대상을 사용하여 인과 언어 모델을 훈련하는 것은 어느 정도 도움이 되는 경우가 많습니다. 이는 코드 모델(즉, 코드 스터핑) 세계에서 매우 일반적이지만 오늘날 범용 모델에서는 인과 언어 모델과 사전 학습을 위한 일부 노이즈 제거 목표를 사용하는 것도 일반적입니다.

양방향 주의는 작은 모델에 큰 도움이 될 수 있지만 큰 모델에는 필요하지 않습니다. 이것은 대부분 소문입니다. 나는 양방향 주의가 Transformer 모델의 다른 많은 유형의 수정과 유사하게 귀납적 편향을 가지고 있다고 생각합니다.

마지막으로 요약입니다. 현재 작동 중인 BERT 모델의 대규모 버전은 없습니다. BERT 모델은 더 이상 사용되지 않으며 보다 유연한 노이즈 제거(자동 회귀) T5 모델로 대체되었습니다. 이는 주로 패러다임 통일에 기인합니다. 즉, 사람들은 다양한 작업을 수행하기 위해 (작업별 모델을 사용하는 대신) 일반 모델을 사용하는 것을 선호합니다. 동시에 자동회귀 노이즈 제거는 인과 언어 모델의 부차적 목표로 사용될 수도 있습니다.

원본 링크: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

소식

그 유명한 BERT는 어디로 갔나요?이 질문에 대한 대답은 LLM의 패러다임 전환을 나타냅니다.

소개

내 연락처 정보