소식

ACL2024: Yuntian Lifei SPACE 엔진 공개, 대형 모델 추론이 새로운 단계에 진입할 수 있음

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

지난 8월 11일부터 16일까지 제62차 전산언어학협회(ACL) 연차총회가 태국 방콕에서 개최되었습니다.
Yuntian Lifei의 대규모 모델 팀이 작성한 "세대가 검증을 충족합니다: 스마트 병렬 자동 수정 디코딩을 통한 대규모 언어 모델 추론 가속화"라는 논문이 ACL24 결과 장편 논문으로 승인되었습니다. 이것은 Yuntian Lifei의 대형 모델에 대한 연구 결과 중 일부를 단계적으로 표시한 것입니다.
ACL 연차학술대회는 전산언어학 및 자연어처리 분야 세계 최고 수준의 학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하며 매년 개최되는 추천학술대회에 A급 학술대회로 등재되어 있다. 중국 컴퓨터 연맹(CCF) 목록.
Yuntian Lifei가 선정한 논문에서는 대규모 모델 추론의 무손실 가속화를 달성하는 혁신적인 솔루션인 SPACE 엔진을 제안했습니다. 다양한 유형의 대형 모델에 대한 테스트 결과에 따르면SPACE 엔진을 사용한 후 HumanEval 테스트 세트의 모델 추론 속도가 270%-400% 증가했습니다., 추론 결과의 품질은 그대로 유지되며 "빠른 계산"과 "정확한 계산"을 모두 달성할 수 있습니다.
Yuntian Lifei 대형 모델 팀의 선정 논문
주류 추론 솔루션이 "필요와 욕구"를 모두 달성하는 것은 어렵습니다.
공간은에스아랄렐에이우토-기음정답은 D이자형코딩의 약어는 "지능형 병렬 자동 오류 정정 디코딩"을 의미합니다.
이 추론 체계는 두 가지 주요 특징을 가지고 있습니다. 첫째, 다음을 채택합니다.반자기회귀두 번째는 추론 속도를 크게 높이는 추론 모델입니다.확인하다이 방법은 추론의 정확성을 보장하면서 추론 속도를 향상시킬 수 있습니다.
"반자동회귀"란 무엇입니까? 이러한 문제를 설명하기 전에 먼저 현재 대규모 모델이 "작동"하는 방식을 이해해야 합니다.
빅 언어 모델의 앱을 열고 대화 상자에 "빅 모델은 무엇입니까?"라고 입력하면 빅 모델은 다음과 같은 대답을 출력합니다. "빅 모델은 수천만 개의 딥 러닝 모델입니다. 매개변수입니다." 이 답변의 프로세스는 매우 간단해 보입니다. 그러나 실제로 대형 모델은 뒤에서 여러 번의 "자동 회귀" 주기를 경험했습니다.
먼저, 대형 모델은 먼저 입력 내용을 기반으로 출력의 첫 번째 단어인 "big"을 예측한 다음 "big"이라는 단어를 다시 입력 끝으로 가져오고, 다음 단어를 기반으로 출력되어야 하는 단어를 예측합니다. "큰"이라는 단어. 물론, 이 "예측"은 허공에서 나온 "맹목적인 추측"은 아니지만 모델은 이전 훈련 과정에서 본 데이터를 기반으로 종합적인 판단을 내리고 확률이 가장 높은 단어를 다음 출력 단어로 선택합니다. .
이 경우 두 번째 출력 단어는 "module"입니다. 두 번째 단어를 출력한 후 빅 모델은 "big modulus"라는 단어를 다시 입력 터미널로 가져와 세 번째 생성된 단어를 예측합니다. 이 주기는 완전한 문장이 끝날 때까지 계속됩니다.
이 프로세스가 "자동 회귀"입니다.
현재 자동회귀는 대규모 모델 추론에 사용되는 주류 솔루션입니다.ChatGPT든 오픈소스 Llama든 많은 국내 대형 모델이든 주로 자동회귀 추론 솔루션을 사용합니다.
자기회귀 방식의 개략도
자기회귀 방식의 장점과 단점도 매우 분명합니다. 장점은 생성된 콘텐츠가 정확하고 의미가 있으며 상황에 맞게 일관성을 유지한다는 것입니다. 단점은 높은 계산 비용과 긴 추론 지연입니다.
이러한 문제를 극복하기 위해 업계에서 제안하는 솔루션은 다음과 같습니다."반자기회귀"그리고"추측해독"
"반자기회귀"는 "자기회귀"와 "비자기회귀" 사이의 절충안입니다. 위에서 언급한,"자기회귀"생성된 단어를 사용하여 다음 단어를 예측합니다."비자기회귀"전체 문장을 한 번에 예측하는 '자동회귀'의 반대입니다."비자기회귀"솔루션은 추론의 효율성을 향상시킬 수 있지만 출력의 정확도는 크게 떨어집니다. "반자기회귀" 솔루션은 "자기회귀"와 "비자기회귀"의 장점과 단점을 종합적으로 고려하여 대규모 모델 추론의 속도와 정확성 요구 사항의 균형을 맞춥니다.
그러나 "반자동회귀" 솔루션을 사용하면 새로운 문제가 발생했습니다. 첫째, 대부분의 대형 모델을 사용할 수 없으며, 둘째, 정확도가 업계 요구 사항을 충족할 수 없습니다.주류 대형 모델은 자동 회귀 추론 모드에 따라 구축됩니다. 반자동 회귀 솔루션을 사용하려면 대형 모델을 처음부터 다시 학습해야 합니다. 대형 모델을 훈련하려면 많은 전력, 컴퓨팅 성능, 인력이 필요합니다. 추론 체계를 변경하기 위해 최종적으로 훈련된 대형 모델을 뒤집어 놓고 다시 시작하는 사람은 거의 없습니다.
또 다른 옵션은 "추측적 디코딩"입니다.이 계획은 다음을 기반으로 합니다."초안 - 검증"프로세스 작업을 위해서는 먼저 상대적으로 적은 수의 매개변수를 사용하는 보조 모델을 도입해야 합니다. 소형 모델은 먼저 후보 답변을 "초안"한 다음 대형 모델에서 후보 답변이 올바른지 여부를 확인합니다. 작은 모델은 큰 모델보다 추론 속도가 빠르고, 큰 모델이 동시에 여러 후보 답변을 확인할 수 있기 때문에 이 디코딩 방법은 출력 결과의 정확성을 보장할 뿐만 아니라 추론 속도도 높일 수 있습니다.
그러나 이 솔루션에는 단점도 있습니다. 첫째, 먼저 매우 '신뢰할 수 있는' 작은 모델을 만들고, 신속하고 정확하게 답을 '작성'할 수 있어야 하는데, 그 자체가 어렵다. 둘째, 두 모델은 두 모델 간에 "동일한 텍스트, 동일한 트랙, 동일한 시스템"을 가져야 합니다. 단어 분할기 및 단어 목록 측면에서 높은 수준의 일관성을 달성해야 검증 결과를 보장할 수 있습니다.
SPACE 추론 엔진 - 작은 수정으로 큰 속도 향상
여러 솔루션이 "필요와 원하는 것"을 모두 달성할 수 없기 때문에 장점만 유지하고 단점을 피할 수 있는 솔루션이 있습니까? 이것이 바로 Yuntian Lifei 대형 모델 팀이 제안한 SPACE 추론 엔진입니다. SPACE는 "반자동 회귀 지도 미세 조정"과 "자동 수정 디코딩"이라는 두 가지 솔루션을 결합하여 대형 모델이 한 번의 추론으로 여러 결과를 생성하고 동시에 결과 검증을 완료하여 생성된 결과의 품질을 보장할 수 있도록 합니다. 동시에,이 추론 엔진은 모든 대형 모델에 적합합니다.. 모델의 미세 조정 및 최적화를 통해 대형 모델이 이 추론 엔진을 채택하면 추가 보조 모델을 훈련할 필요가 없을 뿐만 아니라 추론 효율성이 향상되고 GPU와 같은 병렬 컴퓨팅 리소스를 최대한 활용하며 높은 컴퓨팅 파워 활용도를 달성합니다.
자기회귀 방식(왼쪽)과 SPACE 방식(오른쪽)의 차이점
위에서 언급했듯이 대부분의 대규모 언어 모델에는 고유한 "자동 회귀" 속성이 있으며 "반자동 회귀" 솔루션을 직접 적용할 수 없습니다. 이와 관련하여 SPACE는 "반자동회귀 감독 미세 조정" 방법을 채택합니다. 지도 학습을 통해 모델은 특수 [MASK] 마크를 만날 때 일련의 가능한 후보 단어를 제안하는 방법을 학습합니다(위 그림 참조). . 이를 통해 모델은 추론 중에 "추측"과 유사한 작업을 수행하고 가장 정확할 가능성이 있는 몇 가지 후보 단어를 출력할 수 있으므로 반자기회귀 추론 기능을 사용할 수 있습니다.
간단히 말하면, "반자동회귀 감독 미세 조정" 방식의 지원을 통해 대형 모델은 추론 중에 자체적으로 "추측"을 수행하고 정답일 가능성이 있는 여러 단어를 후보 답변으로 출력할 수 있습니다.
다만, 시험과 마찬가지로 초안에도 많은 내용이 기재될 수 있으나, 시험지에는 정답을 반드시 기재해야 합니다. 이것이 올바른지 어떻게 확인합니까? 이를 위해서는 결과의 검증이 필요하며 이것이 "자동 수정 디코딩"이 하는 일입니다.
구체적으로 추론하는 동안에는 이전 추론 단계에서 대형 모델이 생성한 후보 단어도 모델에 입력하여 모델이 자체 점검하고 이러한 후보 답변이 올바른지 판단할 수 있도록 합니다.
판단 방법도 매우 간단합니다. 모델에서 생성된 단어가 이전 후보 답변과 일치하면 해당 후보 단어가 올바른 것으로 간주됩니다. 검토하려면 전통적인 자동 회귀 추론에서 단어가 정확하면 다음 단어를 추론하기 위해 해당 단어를 언어 모델에 다시 입력해야 합니다.
하지만 여기 SPACE에서는 이것이 필수가 아닙니다. 모델에 미리 후보 단어를 입력하고, 후보 단어가 맞는지 검증하였기 때문에, 이때 올바른 후보 단어로부터 새로운 답을 직접 얻을 수 있어, 답을 다시 입력할 필요가 없습니다. 모델에 들어간 다음 추론의 시간을 진행합니다. 따라서 이 메커니즘의 장점은 후보 단어가 올바른 것으로 검증되면 다음 답을 생성하기 위해 이를 모델에 피드백할 필요가 없으므로 추론 시간이 단축된다는 것입니다.
비유하자면, 전통적인 자기회귀 추론은 4×100미터 계주 경주에 비유될 수 있습니다. 정규 대회에서는 4명의 선수가 전체 경주를 완주하기 위해 한 명씩 배턴을 맡아야 합니다. 이는 자기회귀 계획과 같습니다. 그리고 축어적 추론이 필요합니다. SPACE의 계획에서는 4명의 선수가 동시에 달리기를 시작하여 첫 번째 선수가 100미터를 질주하여 종점에 도달하면 다른 선수들도 각자의 100미터 무대의 종점에 도달했습니다. 단, 결승선에 도달한 후 첫 번째 선수를 인증해야 하며, 인증을 통과하면 두 번째 선수의 점수를 확인한 다음 두 번째 선수를 인증하는 식으로 진행됩니다.
선수가 확인을 통과하지 못하면 100m 출발선으로 돌아가 다시 출발하여 경주를 완료해야 합니다. 최선의 경우, 4명의 선수가 각각 검증을 통과할 수 있다면 이 그룹은 게임을 완료하는 데 정규 게임 시간의 1/4만 소비하면 되며 최악의 경우 가속 효과를 얻을 수 있습니다. 모든 선수가 검증을 통과하지 못한 경우 소요 시간은 일반 대회와 동일합니다. 검증을 통과할 수 있는지 여부는 주로 후보자 답변의 정확성에 달려 있습니다.
동시에 SPACE 모델의 추론 프로세스 중에 특수 [MASK] 식별자를 입력에 삽입하여 대형 모델이 후보 답변의 업데이트된 버전을 생성하도록 안내합니다. 이 메커니즘에 따라 추론 모델의 각 라운드는 이전 라운드에서 생성된 후보 단어의 정확성을 검증할 뿐만 아니라 다음 추론을 위한 새로운 후보 단어를 제공합니다.
이 디자인의 목적은후보 단어의 정확성 향상, 새로운 답변이 나타날 때마다 업데이트를 통해 원래 후보 단어가 더욱 정확해지기 때문입니다. 이 과정은 일기예보와 같습니다. 우리는 매일 다음 주의 기상 상황을 예측하고, 시간이 지남에 따라 미래의 특정 날짜에 대한 일기 예보의 정확도가 점차 높아집니다. 이는 시간이 지남에 따라 더 많은 센서 데이터를 축적하여 보다 정확한 날씨 예측을 제공할 수 있기 때문입니다.
전통적인 검증 및 수정 방법은 위에서 언급한 "추측적 디코딩"입니다. 즉, 먼저 신뢰할 수 있는 작은 모델을 훈련한 다음 큰 모델을 사용하여 이를 검증해야 합니다. 작은 모델의 생성 품질이 최종 결과에 큰 영향을 미칩니다.
그러나 SPACE는 소형 모델을 사용하지 않고도 생성 및 검증 목적을 달성할 수 있고, 검증 작업과 생성 작업을 동시에 수행할 수 있는 새로운 솔루션을 제안했다. 이러한 방식으로 추론의 효율성과 정확성을 크게 향상시킬 수 있습니다.
초기 예로 돌아가서 SPACE 추론 모드에서 "대형 모델이란 무엇입니까?"라고 입력하면 먼저 "대형 모델에는 수천만 개의 매개변수가 있습니다"라는 단어가 자동으로 생성됩니다. 디코딩 알고리즘은 생성된 단어를 하나씩 즉시 확인하고 올바른 확인 결과가 있는 단어만 최종 답변으로 유지함으로써 순방향 추론 과정에서 여러 단어를 생성하는 효과를 달성합니다. 가속의 목적을 달성하는 대형 모델.
마지막으로 SPACE의 효과를 살펴보겠습니다.
우리는 60억에서 700억까지 다양한 매개변수 크기를 가진 주류 대형 언어 모델을 포함하는 다양한 오픈 소스 대형 언어 모델에 대한 실험을 수행했습니다.아래 표에서 볼 수 있듯이 SPACE는 매개변수가 더 큰 모델에서 더 확실한 가속 효과를 나타냅니다.
또한 SPACE는 연속 일괄 처리, 플래시 주의, KV 캐시, 양자화 등과 같은 다른 추론 가속 기술과 함께 사용하여 더 빠른 추론 속도를 가져올 수도 있습니다.
이러한 관점을 검증하기 위해 우리는 주류 추론 프레임워크인 TGI에 SPACE를 구현했으며, 다른 추론 가속 기술과 결합하면 SPACE가 가져오는 가속 효과도 뛰어난 것으로 실험을 통해 입증되었습니다.
대형 모델은 수천 개의 산업에 진출했으며 "추론"이 중요합니다.
훈련과 추론은 대형 모델 수명 주기의 두 가지 핵심 단계입니다. 훈련은 "처음부터 대형 모델 생성" 문제를 해결하는 반면, 추론은 대형 모델을 수천 개의 산업에 적용하는 방법에 대한 문제를 해결합니다.
지난해를 대형 모델 폭발의 원년으로 정의한다면, 올해는 대형 모델 애플리케이션 구현의 원년이다. 이에 따라 대형 모델의 추론 능력이 더욱 주목을 받고 있다.
Yuntian Lifei는 대형 모델의 적용을 가속화하기 위해 많은 노력을 기울였습니다. 컴퓨팅 파워 측면에서는 지난해 대형 모델 에지 추론 칩인 DeepEdge10을 출시했고, 최근에는 언어, 비전, 다중 모델 등 다양한 대형 모델의 추론 가속에 적용할 수 있는 IPU-X6000 가속기 카드를 출시했다. 양식.
알고리즘 측면에서 Yuntian Lifei는 대규모 모델 추론 속도를 크게 향상시키는 SPACE 추론 엔진을 제안했습니다. 적용 측면에서 Yuntian Lifei가 자체 개발한 대규모 모델 Yuntian Tianshu는 스마트 정부 업무, 도시 거버넌스, 스마트 보안, 스마트 교통, 스마트 비즈니스, 스마트 교육 등과 같은 많은 산업에 적용되어 산업을 탐색하고 창출합니다. 벤치마크.
앞으로도 Yuntian Lifei는 계속 열심히 노력하여 대형 모델 관련 기술의 연구 개발, 응용 및 홍보에 더 큰 기여를 할 것입니다.
보고/피드백