소식

더 작고 더 강력한 GPT-4o mini 뒤에 있는 AI 모델의 미래는 더 이상 클수록 좋다는 것이 아닙니다.

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

지난주 오픈AI 늦은 밤에 큰 움직임을 발표하고,GPT-4o 미니는 GPT-3.5 Turbo를 은퇴에서 몰아냈고, 대형 모델 분야인 LMSYS에서도 GPT-4를 능가했습니다.
이번주 메타 출시 대형 모델의 경우 첫 번째 에셜론의 405B 크기가 여전히 예상된다면 새 버전의 8B 및 70B 크기는 더 많은 놀라움을 가져옵니다.
그리고 이것이 소형 모델 경쟁의 끝이 아니라 새로운 출발점이 될 가능성이 더 높습니다.
대형 모델이 감당하기 어려운 것은 아니지만, 소형 모델이 더 비용 효율적입니다.
AI 집단의 광대한 세계에서 작은 모델에는 항상 자신만의 전설이 있었습니다.
겉으로 보기에는 지난해 블록버스터 미스트랄 7B가 출시되자마자 '최고의 7B 모델'이라는 호평을 받은 바 있다. 여러 평가 벤치마크에서 13B 매개변수 모델인 라마 2를 제치고 추론, 수학, 코드 생성에서 라마 34B를 능가했다. .
올해 Microsoft는 가장 강력한 소형 매개변수 대형 모델 phi-3-mini도 오픈소스화했습니다. 매개변수 수는 3.8B에 불과하지만 성능 평가 결과는 동일한 매개변수 규모 수준을 훨씬 초과하며 GPT-와 같은 대형 모델과 비교할 수 있습니다. 3.5 및 클로드-3 소네트.
내부를 살펴보면 Wall Intelligence는 2월 초에 2B 매개변수만 사용하는 Side-to-Side 언어 모델인 MiniCPM을 출시했습니다. 이 모델은 더 작은 크기를 사용하여 더 강력한 성능을 달성하며, 인기 있는 프랑스 모델인 Mistral-7B를 능가합니다. 리틀 스틸 ". 총".
얼마 전까지만 해도 매개변수 크기가 8B에 불과한 MiniCPM-Llama3-V2.5도 멀티모달 종합 성능과 OCR 기능 측면에서 GPT-4V, Gemini Pro 등 대형 모델을 능가했다는 평가를 받았습니다. 스탠포드 대학교 AI 팀.
지난 주까지 심야 폭격을 가했던 OpenAI는 "가장 강력하고 비용 효율적인 소형 매개변수 모델"이라고 설명하는 GPT-4o mini를 출시하여 모두의 관심을 소형 모델로 다시 가져왔습니다.
OpenAI가 긴 맥락에서 롤링 매개변수, 에이전트, 가격 전쟁에 이르기까지 생성적 AI의 상상 속으로 세상을 끌어들인 이후 국내외 개발은 항상 하나의 논리를 중심으로 진행되었습니다. 즉, 상용화를 향해 현장에 머물겠다는 것입니다. .카드 테이블 위에.
그래서 여론계에서 가장 눈길을 끄는 것은 가격을 인하한 OpenAI가 가격 전쟁에 돌입하는 것 같다는 점이다.
많은 사람들이 GPT-4o mini의 가격에 대해 명확한 생각을 갖고 있지 않을 수도 있습니다. 100만 입력당 GPT-4o mini토큰 가격은 15센트이며, 100만개 출력 토큰당 가격은 60센트로 GPT-3.5 터보보다 60% 이상 저렴하다.
즉, GPT-4o mini는 단 60센트에 2500페이지 분량의 책을 생성합니다.
OpenAI CEO 샘 알트만(Sam Altman)도 X에 대해 2년 전 가장 강력한 모델이었던 GPT-4o mini와 비교하면 성능 격차가 클 뿐만 아니라 사용 비용도 지금보다 100배나 높다고 한탄했다.
대형 모델의 가격 전쟁이 점점 치열해지는 가운데 일부 효율적이고 경제적인 오픈소스 소형 모델이 시장의 관심을 끌 가능성이 더 높다. 결국 대형 모델을 사용할 수 없는 것이 아니라 소형 모델이 비용 대비 효율적이기 때문이다. .
한편으로, 전 세계 GPU가 매진되거나 심지어 재고가 없는 경우, 훈련 및 배포 비용이 낮은 소규모 오픈 소스 모델이 점차 우위를 점하기에 충분합니다.
예를 들어 Mianbi Intelligence가 출시한 MiniCPM은 더 작은 매개변수로 추론 비용을 절벽처럼 낮출 수 있으며, 지속적인 매개변수 훈련을 위한 머신 한 대와 매개변수 미세 조정을 위한 그래픽 카드만 있으면 됩니다. 비용도 지속적으로 개선됩니다.
성숙한 개발자라면 작은 모델을 직접 구축해 법률 분야의 수직적 모델을 훈련할 수도 있고, 추론 비용도 대형 모델을 미세 조정하는 비용의 1000분의 1에 불과할 수도 있습니다.
일부 터미널 측 "소형 모델" 애플리케이션의 구현을 통해 많은 제조업체는 수익성의 새벽을 볼 수 있었습니다. 예를 들어, Facewall Intelligence는 심천 중급 인민 법원이 인공 지능 지원 재판 시스템을 출시하여 시장에 기술의 가치를 입증하는 데 도움을 주었습니다.
물론, 우리가 보게 될 변화는 대형 모델에서 소형 모델로의 전환이 아니라, 단일 모델 카테고리에서 모델 포트폴리오로의 전환이라고 말하는 것이 더 정확합니다. 조직의 특정 요구 사항, 작업의 복잡성 및 사용 가능한 리소스에 따라 달라집니다.
반면 소형 모델은 모바일 장치, 내장형 시스템 또는 저전력 환경에 배포하고 통합하기가 더 쉽습니다.
소형 모델의 매개변수 규모는 대형 모델에 비해 상대적으로 작으며 컴퓨팅 리소스(예: AI 컴퓨팅 성능, 메모리 등)에 대한 수요가 낮으며 제한된 엔드사이드 장치에서 더 원활하게 실행할 수 있습니다. 자원. 또한 최종 측 장비는 일반적으로 에너지 소비, 열 발생 및 기타 문제에 대해 더 극단적인 요구 사항을 가지고 있습니다. 특별히 설계된 소형 모델은 최종 측 장비의 한계에 더 잘 적응할 수 있습니다.
Honor CEO Zhao Ming은 클라이언트 측의 AI 컴퓨팅 성능 문제로 인해 매개변수가 1B에서 10B 사이일 수 있으며 대규모 네트워크 모델이 될 수 있다고 말했습니다.클라우드 컴퓨팅능력은 100억~1000억 또는 그 이상에 도달할 수 있습니다. 이 능력은 둘 사이의 격차입니다.
전화기는 매우 제한된 공간에 있습니다. 그렇죠? 제한된 배터리, 제한된 열 방출, 제한된 저장 환경에서 70억을 지원한다는 것은 제약이 많다고 상상한다면 가장 어려울 것입니다.
애플의 스마트폰을 운영하는 비하인드 히어로들도 공개됐다. 그 중 미세조정된 3B 소형 모델은 어댑터의 축복으로 그 성능이 월등하다. Gemma-7B는 휴대폰 단말기에서 실행하기에 적합합니다.
따라서 전 OpenAI 전문가인 Andrej Karpathy는 최근 모델 크기 경쟁이 점점 더 커지는 것이 아니라 누가 더 작고 더 유연한 "역진화"가 될 것이라고 판단한 것을 알 수 있습니다.
작은 모델이 작은 모델로 큰 모델을 이길 수 있는 이유는 무엇입니까?
Andrej Karpathy의 예측은 근거가 없는 것이 아닙니다.
데이터 중심 시대에 모델은 급속히 규모가 커지고 복잡해지고 있습니다. 대용량 데이터로 훈련된 초대형 모델(GPT-4 등)의 대부분은 실제로 관련 없는 수많은 세부 사항, 즉 정보를 기억하는 데 사용됩니다. 기계적으로.
그러나 미세 조정된 모델은 특정 작업에서 "작은 것으로 큰 것을 승리"할 수도 있으며 그 유용성은 많은 "초대형 모델"과 비슷합니다.
Hugging Face CEO Clem Delangue도 작은 모델을 사용하면 사용 사례의 최대 99%를 해결할 수 있다고 제안했으며, 2024년은 작은 언어 모델의 해가 될 것이라고 예측했습니다.
그 이유를 알아보기 전에 먼저 과학지식을 대중화해야 합니다.
2020년 OpenAI는 논문에서 유명한 법칙인 스케일링 법칙을 제안했습니다. 이는 모델의 크기가 증가할수록 성능도 향상된다는 의미입니다. GPT-4와 같은 모델이 도입되면서 스케일링 법칙의 장점이 점차 부각되었습니다.
AI 분야의 연구자와 엔지니어들은 모델의 매개변수 수를 늘리면 모델의 학습 능력과 일반화 능력이 더욱 향상될 수 있다고 굳게 믿고 있습니다. 이러한 방식으로 우리는 모델 규모가 수십억 개의 매개변수에서 수천억 개로 증가하고 심지어 수조 개의 매개변수가 있는 모델로 증가하는 것을 목격했습니다.
AI의 세계에서는 모델의 크기가 지능을 측정하는 유일한 기준이 아닙니다.
반대로, 잘 설계된 소형 모델은 알고리즘 최적화, 데이터 품질 개선, 고급 압축 기술 채택을 통해 특정 작업에서 대형 모델과 비슷하거나 그보다 더 나은 성능을 나타내는 경우가 많습니다.
작은 것을 활용하여 더 큰 결과를 얻는 전략은 AI 분야의 새로운 트렌드로 자리잡고 있습니다.그 중 데이터 품질을 향상시키는 것은 작은 모델이 큰 모델을 이길 수 있는 방법 중 하나입니다.
Coalesce의 CTO이자 공동 창립자인 Satish Jayanthi는 모델에서 데이터의 역할을 다음과 같이 설명했습니다.
17세기에 있었다면 법학 석사 , 우리는 ChatGPT에게 지구가 둥글거나 평평한지 물었고 지구는 평평하다고 대답했습니다. 이는 우리가 제공한 데이터가 이것이 사실이라고 확신했기 때문일 것입니다. 우리가 LLM에 제공하는 데이터와 이를 훈련하는 방법은 결과에 직접적인 영향을 미칩니다.
고품질 결과를 생성하려면 대규모 언어 모델을 특정 주제 및 도메인에 대한 고품질의 타겟 데이터로 교육해야 합니다. 학생들이 배우기 위해 양질의 교과서가 필요한 것처럼 LLM에도 양질의 데이터 소스가 필요합니다.
기적을 이루기 위해 열심히 노력하는 전통적인 폭력 미학을 버리고, 칭화대학교 컴퓨터과학과 영구 부교수이자 벽면 지능 수석 과학자인 Liu Zhiyuan은 최근 대형 시대의 벽면 법칙을 제안했습니다. 즉, 모델의 지식 밀도는 계속 증가하여 평균 8개월마다 두 배로 증가합니다.
그 중 지식 밀도 = 모델 능력/계산에 관련된 모델 매개변수입니다.
Liu Zhiyuan은 100개의 IQ 테스트 문제가 주어졌을 때 점수는 얼마나 많은 질문에 올바르게 답했는지뿐만 아니라 이러한 질문을 완료하는 데 사용하는 뉴런의 수에 따라 결정된다고 생생하게 설명했습니다. 더 적은 수의 뉴런으로 더 많은 작업을 수행할수록 IQ가 높아집니다.
이것이 바로 지식 밀도가 전달하는 핵심 아이디어입니다.
두 가지 요소가 있습니다. 한 요소는 이 모델의 능력입니다. 두 번째 요소는 이 능력에 필요한 뉴런의 수 또는 해당 컴퓨팅 전력 소비입니다.
OpenAI가 2020년 공개한 1,750억 개의 매개변수 GPT-3와 비교하면, 2024년에는 GPT-3와 성능은 동일하지만 매개변수가 24억 개에 불과한 MiniCPM-2.4B를 출시해 지식밀도가 약 86배 증가했다.
토론토 대학의 연구에 따르면 모든 데이터가 필요한 것은 아니며 원본 데이터 세트의 모든 정보와 다양성을 처리하고 유지하기가 더 쉬운 대규모 데이터 세트에서 고품질 하위 세트를 식별합니다.
훈련 데이터의 최대 95%가 제거되더라도 특정 분포 내에서 모델의 예측 성능은 크게 영향을 받지 않을 수 있습니다.
가장 최근의 예는 의심할 여지 없이 Meta Llama 3.1 대형 모델입니다.
Meta가 Llama 3을 훈련할 때 15T 토큰 훈련 데이터를 공급했지만 Llama2와 Llama3의 훈련 후 작업을 담당하는 Meta AI 연구원인 Thomas Scialom은 다음과 같이 말했습니다. 이 정보는 컴퓨팅 리소스 낭비입니다.
Llama 3의 사후 학습에는 사람이 작성한 답변이 없습니다. Llama 2의 순수 합성 데이터만 활용했을 뿐입니다.
또한, 지식 증류는 '작은 것으로 큰 것을 정복'하는 중요한 방법 중 하나이기도 합니다.
지식 증류는 크고 복잡한 "교사 모델"을 사용하여 작고 간단한 "학생 모델"의 훈련을 안내하는 것을 의미하며, 이는 대형 모델의 강력한 성능과 우수한 일반화 능력을 보다 가볍고 계산적인 비용이 드는 소형 모델로 이전할 수 있습니다. 더 적은.
Llama 3.1이 출시된 후 Meta CEO Zuckerberg는 자신의 장문 기사 "Open Source AI Is the Path Forward"에서 작은 모델을 미세 조정하고 정제하는 것의 중요성을 강조하기도 했습니다.
우리는 우리 자신의 모델을 훈련하고, 미세 조정하고, 정제해야 합니다. 모든 조직에는 다양한 규모와 특정 데이터를 사용하여 훈련되거나 미세 조정된 모델을 사용하여 가장 효과적으로 충족할 수 있는 다양한 요구 사항이 있습니다.

이제 귀하는 최첨단 Llama 모델을 사용하여 귀하의 데이터에 대해 계속 교육한 다음 당사나 다른 사람이 귀하의 데이터를 볼 필요 없이 귀하의 요구에 가장 적합한 모델 크기로 추출할 수 있습니다.
업계에서는 메타라마 3.1의 8B와 70B 버전이 초대형 컵을 증류해 나온 것으로 전체적인 성능이 크게 향상됐고, 모델 효율도 높아졌다는 게 업계 전반의 통념이다.
또는 모델 아키텍처 최적화도 핵심입니다. 예를 들어 MobileNet 설계의 원래 의도는 모바일 장치에서 효율적인 딥 러닝 모델을 구현하는 것입니다.
깊이별 분리 가능한 컨볼루션을 통해 모델의 매개변수 수를 크게 줄입니다. ResNet과 비교하여 MobileNetV1은 매개변수 수를 약 8~9배 줄입니다.
MobileNet은 매개변수 수가 줄어들기 때문에 계산상 더 효율적입니다. 이는 모바일 장치와 같이 리소스가 제한된 환경에 특히 중요합니다. 성능을 너무 많이 희생하지 않고도 컴퓨팅 및 스토리지 요구 사항을 크게 줄일 수 있기 때문입니다.
기술적 수준의 진전에도 불구하고 AI 산업 자체는 여전히 장기 투자와 높은 비용이라는 과제에 직면해 있으며, 복귀 주기도 상대적으로 길다.
'매일경제신문'의 불완전한 통계에 따르면, 올해 4월 말 기준으로 중국에서는 총 305개 정도의 대형 모델이 출시됐지만, 5월 16일 현재 아직 출시되지 않은 대형 모델이 165개 정도인 것으로 나타났다. 등록이 완료되었습니다.
Baidu 창립자 Robin Li는 현재 많은 기본 모델의 존재가 자원 낭비라고 공개적으로 비판했으며, 모델을 산업과 결합할 가능성을 탐색하고 차세대 슈퍼 애플리케이션을 개발하기 위해 자원을 더 많이 사용해야 한다고 제안했습니다.
모델 수의 증가와 실제 적용 사이의 불균형적인 모순은 현재 AI 산업의 핵심 문제이기도 합니다.
이러한 과제에 직면하면서 업계의 초점은 점차 AI 기술 적용을 가속화하는 쪽으로 바뀌었고, 배포 비용이 낮고 효율성이 높은 소형 모델이 더욱 적합한 돌파점이 되었습니다.
대형 요리 모델, 라이브 스트리밍용 대형 모델 등 특정 분야에 초점을 맞춘 일부 소형 모델도 등장하기 시작했습니다. 비록 이 이름들이 약간 허풍스러워 보일 수도 있지만, 그들은 정확히 올바른 길을 가고 있습니다.
요컨대, 미래의 AI는 더 이상 하나의 거대한 존재가 아니라 더욱 다양해지고 개인화될 것입니다. 소형 모델의 등장은 이러한 추세를 반영합니다. 특정 작업에 대한 뛰어난 수행 능력은 '작지만 아름다운 것'도 존경과 인정을 받을 수 있음을 입증합니다.
하나 더
아이폰에서 미리 모델을 실행해 보고 싶다면 허깅페이스(Hugging Face)에서 출시한 '허깅챗(Hugging Chat)'이라는 iOS 앱을 사용해 보는 것도 좋을 것 같다.
Magic 및 Outer Zone App Store 계정으로 앱을 다운로드하면 사용자는 Phi 3, Mixtral, Command R+ 및 기타 모델을 포함하되 이에 국한되지 않는 다양한 오픈 소스 모델에 액세스하고 사용할 수 있습니다.
더 나은 경험과 성능을 위해 최신 세대의 iPhone Pro 버전을 사용하는 것이 좋습니다.