소식

대형 모델의 방향이 바뀌었고, OpenAI 애플은 유턴했다

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
작성자ZeR0
편집자 모 잉

생성적 AI에는 눈에 보이지 않는 패턴이 있는 것 같습니다. 가끔씩 충격적인 대규모 '자동차 충돌' 사건이 발생합니다.

올해만 해도 구글 제미니 1.5 프로(Google Gemini 1.5 Pro) 모델이 출시됐고, 오픈AI(OpenAI) 영상 생성 모델 소라(Sora)가 출시됐고, 구글 I/O 개발자 컨퍼런스에서는 오픈AI GPT-4o가 공개돼 전 세계 구경꾼들에게 치열한 경쟁의 냄새를 맡게 했다. 대형 모델 사이의 패권. 화약 냄새.

이전의 모든 우연이 OpenAI가 의도적으로 Google을 가로채었다는 것을 암시한다면 지난 주 4일 이내에 Hugging Face, OpenAI, Mistral 및 Apple이 가장 강력한 경량 모델을 연속으로 출시했는데 이는 확실히 AI 업계의 최신 트렌드입니다.

이제 AI 대형 모델은 더 이상 경주에만 국한되지 않습니다."더 크고 더 강하다", 그리고 격렬하게 굴러갔습니다."작은 일을 하고 좋은 일을 하라"

GPT-4o를 능가하는 것은 더 이상 유일한 KPI가 아닙니다. 대형 모델은 시장 경쟁을 위한 중요한 게임 기간에 들어섰습니다. 사용자에게 감동을 주기 위해서는 기술력을 과시하는 것뿐만 아니라 자체 모델이 더 비싸다는 것을 증명해야 합니다. -효과적인--동일한 성능으로 모델이 더 작고, 동일한 매개변수로 성능이 높아져 비용이 절약됩니다.


▲지난주 새로 출시된 경량 모델인 GPT-4o mini와 Mistral NeMo는 가성비 면에서 매우 앞서 있다. (출처:인공분석)

실제로 이러한 '대형 모델의 소형화' 기술 트렌드는 지난해 하반기부터 본격화됐다.

게임 체인저(Game Changer)는 두 회사입니다. 하나는 프랑스의 AI 스타트업 미스트랄 AI(Mistral AI)다. 지난해 9월 70억 개의 매개변수를 가진 대형 모델을 이용해 130억 개의 매개변수를 가진 라마 2를 물리쳤고, 다른 하나는 중국의 AI 스타트업이다. Face the Wall Intelligence는 올해 2월 더욱 집중된 엔드사이드 모델인 MiniCPM을 출시하여 단 24억 개의 매개변수만으로 Llama 2 13B를 능가하는 성능을 달성했습니다.

두 스타트업 모두 개발자 커뮤니티에서 잘 알려져 있으며, 많은 모델이 오픈 소스 인기 목록에서 1위를 차지했습니다. 특히, 칭화대학교 자연어 처리 연구소에서 탄생한 Wall-Facing Intelligence는 올해 미국 최고의 대학 팀이 다중 모드 모델을 "제거"하면서 소란을 일으켰습니다. 국내외 학계에서 독창적인 작품을 인정받아 국내 오픈소스 AI 모델이 긍지를 갖게 됐다.

애플은 지난해부터 휴대폰에 더 잘 적응할 수 있는 단말기측 모델 연구도 시작했다. 광범위하고 폭력적인 확장의 길을 따라온 OpenAI는 비교적 놀라운 신규 진입자입니다. 지난 주 경량 모델 GPT-4o mini가 출시된 것은 빅 모델 형제가 주도적으로 "제단"에서 물러나고 업계 동향을 따르기 시작하여 더 저렴하고 구하기 쉬운 모델을 사용하려고 노력했다는 의미입니다. 더 넓은 시장.

2024년은 대형 모델의 '소형화'에 있어 중요한 해가 될 것입니다!


▲2024년에 새로 출시된 경량 일반 언어 모델의 불완전한 통계는 기기 ​​측에 배포할 수 있는 매개변수 양이 8B 이하인 일반 언어 모델에만 포함되고 다중 모드 모델은 포함되지 않습니다. (출처: Zhidongxi)

1. 대형 모델 시대의 '무어의 법칙': 효율성만이 지속가능성을 가져온다

현재 대형 모델 연구 및 개발은 관성에 빠지고 있습니다.힘차게 기적을

2020년 OpenAI의 논문에서는 모델 성능과 규모 사이에 강한 상관관계가 있음을 확인했습니다. 더 많은 고품질 데이터를 활용하고 더 큰 모델을 훈련하면 더 높은 성능을 얻을 수 있습니다.


이 간단하면서도 효과적인 경로를 따라 지난 2년 동안 전 세계적으로 더 큰 모델을 추구하는 급속한 경쟁이 진행되었습니다. 이는 알고리즘 헤게모니의 숨겨진 위험을 낳습니다. 충분한 자금과 컴퓨팅 능력을 갖춘 팀만이 오랫동안 경쟁에 참여할 수 있는 자본을 갖습니다.

작년에 OpenAI CEO인 Sam Altman은 GPT-4를 훈련하는 데 드는 비용이 최소한1억 달러 . 고수익 비즈니스 모델이 없으면 자금이 풍부한 대형 기술 기업이라도 비용에 관계없이 장기 투자를 감당하기 어려울 것입니다. 생태환경은 이런 끝없는 돈벌이 게임을 용납할 수 없습니다.

상위 대형 언어 모델 간의 성능 격차가 눈에 띄게 줄어들고 있습니다. GPT-4o가 확고하게 1위를 차지했지만 Claude 3 Opus와 Gemini 1.5 Pro의 벤치마크 점수 차이는 변함이 없습니다. 일부 기능에서는 수백억 개의 대형 모델이 더 나은 성능을 달성할 수도 있습니다. 모델 크기는 더 이상 성능에 영향을 미치는 유일한 결정적인 요소가 아닙니다.

최고의 대형 모델이 매력적이지 않은 것이 아니라, 경량 모델이 더 비용 효율적이라는 것입니다.

아래 그림은 AI 엔지니어 Karina Ngugen이 올해 3월 말 소셜 플랫폼에서 공유한 AI 추론 비용 추세 차트로, MMLU 벤치마크에서 대규모 언어 모델의 성능과 2022년 이후 비용 간의 관계를 명확하게 보여줍니다. 시간이 지나면 언어 모델은 더 높은 MMLU 정확도 점수를 얻고 관련 비용이 크게 감소합니다. 새 모델의 정확도는 약 80%에 달하며, 가격 대비 성능은 불과 몇 년 전보다 훨씬 낮아졌습니다.


세상은 매우 빠르게 변화하고 있으며 지난 몇 달 동안 비용 효율적인 새로운 경량 모델이 대거 등장했습니다.


▲작은 크기의 모델은 더 낮은 비용으로 뛰어난 성능을 발휘할 수 있다. (출처: 임베디드 AI)

"대규모 언어 모델 크기에 대한 경쟁이 심화되고 있습니다." AI 기술 전문가인 Andrej Karpathy는 다음과 같이 말했습니다. "우리는 아주 아주 작은 모델이 매우 잘 그리고 안정적으로 '생각'하는 것을 보게 될 것입니다."

모델 능력 ¼ 계산에 포함된 모델 매개변수 = 지식 밀도 , 이 측정 차원은 동일한 매개변수 척도를 가진 모델이 강력한 지능을 가질 수 있음을 나타내는 데 사용될 수 있습니다. 2020년 6월에 출시된 대형 GPT-3 모델에는 1,750억 개의 매개변수가 있습니다.올해 2월에는 동일한 성능을 구현한 벽걸이형 지능형 MiniCPM-2.4B 모델의 매개변수 크기가 24억개로 줄어들었는데, 이는 지식밀도가 약 2배 증가한 것과 같다.86회


이러한 추세를 바탕으로 칭화대학교 컴퓨터과학과 상임 부교수이자 벽면 지능 수석 과학자인 Liu Zhiyuan은 최근 다음과 같은 흥미로운 관점을 제시했습니다.대형모델 시대에도 '무어의 법칙'이 있다

특히,데이터, 컴퓨팅 성능 및 알고리즘의 조화로운 개발을 통해 대형 모델의 지식 밀도는 계속 증가하여 평균 8개월마다 두 배로 증가합니다.


▲OpenCompass 목록의 변화를 보면 작은 매개변수와 고성능 모델이 추세가 된 것을 알 수 있습니다

칩의 회로 밀도를 높임으로써 동일한 컴퓨팅 성능을 갖춘 컴퓨팅 장치는 여러 방에 들어갈 수 있는 슈퍼컴퓨터에서 주머니에 넣고 다닐 수 있는 휴대폰으로 진화할 것입니다. Liu Zhiyuan은 자신이 제안한 지도법을 "벽면법"이라고 명명했습니다.

이런 추세가 계속된다면,1,000억 개의 매개변수가 있는 모델을 훈련하려면 8개월 안에 500억 개의 매개변수가 있는 모델의 기능을 달성할 수 있으며, 8개월 후에는 250억 개의 매개변수만 사용하여 달성할 수 있습니다.

2. 세력은 여러 방향으로 나누어져 있습니다. 폐쇄 소스 가격 전쟁이 본격화되고 있으며, 오픈 소스 중국, 미국, 유럽이 서로 경쟁하고 있습니다.

현재 대형 모델 경량급 대회에 참가하는 선수들은 여러 그룹으로 나누어진다.

OpenAI, Google 및 Anthropic은 모두 비공개 소스 경로를 택했습니다. GPT-4o, Claude 3.5 Sonnet 및 Gemini 1.5 Pro와 같은 주력 모델은 가장 강력한 성능 수준을 제어하며 이러한 모델의 매개변수 규모는 수천억 또는 심지어 수조에 이릅니다.

경량 모델은 주력 모델의 축소 버전입니다. 지난 주 OpenAI 출시 이후 GPT-4o mini는 Gemini Flash를 능가하는 성능 덕분에 10B 미만 시장에서 가장 비용 효율적인 옵션이 되었으며, To C는 사용자가 무료로 사용할 수 있도록 GPT-3.5를 대체했습니다. ToB는 API 가격을 대폭 인하해 대형 모델 기술 도입 문턱을 낮췄다.


"Machine Learning Engineering"의 저자인 Andriy Burkov는 GPT-4o mini의 매개변수 사양이 가격을 기준으로 약 7B 수준이라고 추론합니다. Wall-facing Intelligence CEO인 Li Dahai는 GPT-4o mini가 장치 측 모델이 아닌 많은 전문가가 포함된 "광역 MoE" 모델로 자리매김하여 산업 비용을 크게 줄일 수 있다고 추측합니다. 대형 모델을 구현하는 데 드는 비용.

오픈소스 경량 모델 캠프는 중국, 미국, 유럽의 대표 플레이어로 더욱 규모가 커졌습니다.

국내 Alibaba, Wall-Facing Intelligence, SenseTime 및 Shanghai Artificial Intelligence Laboratory는 모두 일부 경량 모델을 오픈 소스로 제공했습니다.그중 Alibaba의 Qwen 시리즈 모델은 경량 모델 벤치마크 테스트에 자주 사용되며 벽면 지능의 MiniCPM 시리즈 모델도 작은 매개변수를 사용하여 몇 초 만에 대형 모델을 뛰어넘는 예이며 오픈 소스 커뮤니티에서 높은 평가를 받고 있습니다.

Face Wall Intelligence는 2020년에 중국에서 대규모 모델 경로를 주도적으로 활용하여 훈련 비용을 절감하기 위한 방법을 탐색하기 시작했습니다. 지난해 초 AI 에이전트를 출시했으며 8월에는 1,000억 개 이상의 AI 에이전트를 출시했습니다. 모달 대형 모델, 금융, 교육, 정부 업무, 지능형 터미널 및 기타 시나리오에 대형 모델 및 에이전트 기술을 적용하여 장치 방향을 공식화합니다. 연말에는 클라우드 협업을 추진하고 올해에는 다양한 고효율, 저에너지 소비 기기측 모델을 집중적으로 출시할 예정입니다.

지난 6개월 동안 Wallface Intelligence는 기본 모델 MiniCPM 2.4B 및 MiniCPM 1.2B, 긴 텍스트 모델 MiniCPM-2B-128k, 다중 모드 모델 MiniCPM-V 2.0 및 GPT-4V 성능 수준 MiniCPM-을 출시했습니다. Llama3-V 2.5. 하이브리드 전문가 모델 MiniCPM-MoE-8x2B 등 지금까지 MiniCPM 시리즈의 전체 다운로드 수는 별 12,000개와 함께 거의 950,000개에 달했습니다.

이 스타트업은 또한 효율적인 희소 아키텍처를 통해 보다 에너지 효율적인 MiniCPM-S 1.2B 모델을 구현했습니다. 지식 밀도는 동일한 규모의 밀집 모델 MiniCPM 1.2B의 2.57배, Mistral-7B의 12.1배에 도달하여 추가 추론을 수행했습니다. "벽면 법칙"을 통해 대규모 모델 추론 비용을 대폭 절감할 수 있습니다.


▲벽면을 향한 지능형 MiniCPM 시리즈 모델은 지식 밀도를 빠르게 반복하고 향상시킵니다.

미국 경량 오픈소스 모델 진영에는 메타, 마이크로소프트, 구글, 애플, 스태빌리티 AI 등 주요 기술 기업들의 참여도가 높고, '뒤의 파도가 앞의 파도를 두드린다'는 이야기가 나온다. Down on the beach'가 자주 공연된다.

Hugging Face는 지난주에 135M, 360M, 1.7B의 세 가지 매개변수 사양을 갖춘 SmolLM 모델을 출시했습니다. 동일한 크기의 모델과 비교했을 때 1.7B 버전은 여러 벤치마크 테스트에서 Microsoft Phi-1.5를 능가했습니다. , Google MobileLLM-1.5B 및 Alibaba Qwen2-1.5B.

'폐쇄'로 유명한 애플은 AI 분야에서 잘 알려진 오픈소스 학교다. 지난해 10월 페렛(Ferret) 멀티모달 모델을 출시한 데 이어 올해 4월에는 4개의 OpenELM 사전 훈련을 출시했다. 27억~300억 범위의 매개변수를 가진 모델 최신 DCLM 모델 중 버전 6.9B의 성능은 Mistral 7B를 능가하고 버전 1.4B의 MMLU 점수는 SmolLM-1.7B를 능가합니다.


▲Apple은 DCLM-Baseline을 사용하여 모델(주황색)을 훈련하는데, 이는 폐쇄 소스 모델(십자가) 및 기타 오픈 소스 데이터 세트 및 모델(원)에 비해 좋은 성능을 보여줍니다.

유럽의 대표주자는 바로 프랑스의 대형 모델 유니콘 미스트랄 AI다.지난 주에 128k 컨텍스트 처리를 지원하는 Mistral Nemo 12B 소형 컵 모델을 출시했습니다. 성능은 Google Gemma 2 9B 및 Llama 2 8B를 능가하며 동일한 규모의 오픈 소스 모델 중에서 가장 강력합니다. .

이러한 발전은 대형 모델의 소형화에 대한 응용 가능성을 보여주고 있습니다.

Hugging Face의 공동 창립자이자 CEO인 Clem Delangue는 다음과 같이 예측했습니다.더 작고, 더 저렴하고, 더 빠르고, 더 개인화된 모델이 사용 사례의 99%를 포괄합니다. . 매일 출근하기 위해 백만 달러짜리 포뮬러 1 자동차가 필요하지 않으며, 삶의 의미를 알려주기 위해 은행 고객 챗봇도 필요하지 않습니다! "

3. 어떻게 대형모델 업계의 돈절약 전문가가 되셨나요?

대형 모델의 되감기와 소형화는 AI가 모든 사람에게 혜택을 주는 피할 수 없는 추세입니다.

모든 애플리케이션에 가장 강력한 대형 모델이 필요한 것은 아닙니다. 비즈니스 경쟁에서는 비용 효율성을 고려하고 고품질과 저렴한 가격을 강조합니다. 시나리오와 비즈니스에 따라 출력 품질과 비용 효율성에 대한 요구가 매우 다릅니다.

매우 큰 규모의 모델은 개발자에게 엄청난 학습 비용을 가져오고, 훈련부터 배포까지 많은 어려움을 겪게 됩니다. 보다 간소화된 모델은 입출력 비율을 낮추고 자금, 데이터, 하드웨어 리소스 및 교육 주기를 줄여 경쟁력 있는 모델을 구축함으로써 인프라 비용을 줄이고 접근성을 향상시키며 모델 배포 및 애플리케이션 구현 속도를 높이는 데 도움이 됩니다.


▲Apple DataComp-LM 논문에 따르면 모델 매개변수가 적을수록 컴퓨팅 성능과 훈련에 필요한 시간이 줄어듭니다.

특정 애플리케이션의 경우 경량 모델에는 더 적은 데이터가 필요하므로 특정 작업에 맞게 더 쉽게 미세 조정하여 요구 사항을 충족하는 성능과 효율성을 달성할 수 있습니다. 간소화된 아키텍처로 인해 이 유형의 모델에는 더 적은 저장 용량과 컴퓨팅 성능이 필요합니다. 최종 하드웨어에 대한 설계를 최적화한 후 짧은 대기 시간, 쉬운 액세스 및 보호 기능을 통해 랩톱, 스마트폰 또는 기타 소형 장치에서 로컬로 실행할 수 있습니다. 개인 정보 보호 및 보안 이점은 개인 데이터가 외부로 전송되지 않도록 보장합니다.

경량 고성능 모델은 작지만, 반드시 "제한된 컴퓨팅 성능과 에너지 소비를 사용하여 지식을 더 작은 매개변수의 모델로 압축합니다.“기술적 문턱은 낮지 않아요.

훈련 과정은먼저 커졌다가 작아졌다 , 복잡한 대형 모델에서 지식의 본질을 추출합니다. 예를 들어, Google의 소형 컵 다중 모드 모델인 Gemma-2는 27B 모델의 지식을 사용하여 개선되었습니다.

그러나 특정 기술 경로 측면에서는 플레이어마다 접근 방식이 다릅니다.

예를 들어훈련 데이터 반면 Meta는 Llama 3 15T 토큰 교육 데이터를 자랑스럽게 제공했습니다. Microsoft, Apple 등은 훈련 데이터 세트 최적화 및 데이터 방법 혁신에 중점을 두고 있습니다. Microsoft Phi-3은 3.3T 토큰만 사용하고 Apple DCLM 7B는 2.6T 토큰만 사용합니다. Apple DataComp-LM 논문에 따르면,교육 데이터 세트를 개선하면 계산과 성능 간의 균형을 유지하여 교육 비용을 줄일 수 있습니다. . 지난주에 새로 출시된 Mistral NeMo는 고급 철권 태거를 사용하여 이전 모델보다 텍스트와 코드를 더 효율적으로 압축합니다.

"더 작아지는 것"은 여전히 ​​​​필요합니다아키텍처 혁신 . 예를 들어, Apple의 OpenELM 모델은 하드웨어 병목 현상에 대한 계층적 미세 조정 설계를 수행하여 엔드 측의 운영 효율성을 향상시킵니다. 벽면 지능형 MiniCPM-S 1.2B 효율적인 스파스 모델은 거의 88%의 희소성을 달성하여 전체 링크 레이어를 허용합니다. 소모량은 84%로 감소하고, 성능 저하 없이 해당 Dense 모델에 비해 디코딩 속도는 2.8배 더 높습니다.


▲자원 효율적인 대형 언어 모델 구현을 위한 기술적 분류 (출처: "Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models" 논문)

대형 모델은 탐구가 필요한 체계적인 프로젝트입니다."인공지능 과학"방향, 즉알고리즘, 아키텍처, 데이터 거버넌스 및 다중 모드 융합과 같은 기술 솔루션의 지속적인 반복을 통해 모델을 보다 안정적이고 예측 가능하며 더 높은 품질로 교육할 수 있습니다., 대형 모델의 지식 밀도를 지속적으로 향상시킵니다.

모델을 신속하게 학습하고 최적화하려면 효율적인 생산 라인을 구축해야 합니다.전체 프로세스 도구 모음 플랫폼을 구축하고 효율적이고 확장 가능한 모델 교육 전략을 수립하는 것이 필요합니다. . 예를 들어 벽면 모델 샌드박스 메커니즘은 소형 모델을 사용하여 대형 모델의 성능을 예측하고 대형 모델과 소형 모델 간에 하이퍼파라미터 체계를 공유함으로써 모델 기능의 신속한 형성을 달성합니다.


▲MiniCPM 1.2B와 MiniCPM-S 1.2B 추론 디코딩 속도의 실제 비교

Facewall Intelligence는 스마트 단말기에서 대형 모델의 사용을 가속화하기 위해 최근 업계 최초의 즉시 사용 가능한 클라이언트 측 대형 모델 도구 세트인 "MobileCPM"을 오픈 소스로 공개하고 개발자가 대형 모델을 통합할 수 있도록 보모 스타일의 튜토리얼을 제공했습니다. 한 번의 클릭으로 앱에 들어갑니다.


▲벽면형 지능형 단말기측 대형 모델 툴 세트 'MobileCPM'

올해는 기기 측 AI가 폭발적으로 증가하는 해입니다. Intel, Nvidia, AMD, Qualcomm과 같은 거대 칩 기업부터 주요 AI PC 및 스마트폰 제조업체까지 모두 다양한 기기 측 AI 애플리케이션을 홍보하고 있습니다. 단말기 제조업체는 일반 모델 제조업체와 협력하여 광범위한 최종 장치에서 경량 모델 구현을 촉진하기 시작했습니다.

엔드사이드 칩의 성능이 더욱 강력해지고 모델 지식의 밀도가 높아짐에 따라 엔드사이드 장치에서 로컬로 실행될 수 있는 모델이 더 크고 더 좋아집니다.이제 GPT-4V는 터미널 측에서 실행될 수 있다고 Liu Zhiyuan은 예측합니다.향후 1년 동안 기기측에서는 GPT-3.5급 모델이 가동될 수 있고, 향후 2년 동안은 단말측에서 GPT-4o급 모델이 가동될 수 있다.

결론: 미친 돈을 쓰지 않는 대규모 모델 경쟁을 시작하십시오

기술의 세계에서는 더 작아지고, 저렴해지고, 사용하기 쉬워지는 역사적 추세가 항상 반복되고 있습니다. 메인프레임 시대에 컴퓨터는 부자와 엘리트만이 접근할 수 있는 고급 사치품이었습니다. 미니컴퓨터 시대로 접어들면서 기술의 발전으로 컴퓨팅 장치는 휴대성과 사용이 더욱 간편해졌고, PC와 휴대폰은 일반 대중의 일상 업무와 생활 속으로 들어왔습니다.

엄청난 컴퓨팅 성능을 갖춘 슈퍼컴퓨터와 일반 사람들이 주머니에 넣을 수 있는 휴대폰이 필요한 것처럼, 생성 AI 시대에는 사용자에게 더 가깝고 비용 효율적이며 특정 애플리케이션을 충족할 수 있는 매우 지능적인 대형 모델이 필요합니다. 수요 모델.

OpenAI GPT-4o는 여전히 가장 강력한 AI 대형 모델의 정점에 있지만 더 이상 이전만큼 무적은 아닙니다. 다수의 GPT-4 수준 대형 모델이 유사한 성능을 달성했습니다. 동시에, 더 작고 효율적인 대형 모델은 "큰 것이 더 좋다"는 개념에 도전하고 있습니다. "작은 것을 사용하여 크게 만든다"는 새로운 추세는 AI 개발 방식을 바꾸고 구현을 위한 새로운 가능성을 열어줄 것으로 예상됩니다. 기업 및 소비자 환경에서의 AI.

소형화로의 전환은 AI 산업에 큰 변화를 의미합니다. 대형 모델 경쟁은 성능 향상에 초점을 맞추는 것에서 실제 세계의 보다 세부적인 요구에 초점을 맞추는 것으로 전환되기 시작했습니다. 이러한 열풍 속에서 벽을 향한 지능으로 대표되는 중국의 오픈소스 파워는 일련의 기술 혁신을 통해 보다 경제적으로 실현 가능한 방식으로 대형 모델의 지식 밀도 법칙을 검증하고 궁극적으로 활용을 촉진하고 있습니다. 실제 적용 시나리오의 대규모 모델.