소식

Microsoft와 NVIDIA는 소형 모델에 베팅하고 있습니다. 대형 모델은 더 이상 인기가 없나요?

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

인공지능 개발에서 기술 거대 기업들은 한때 대규모 언어 모델 개발을 위해 경쟁했지만 이제는 새로운 추세가 나타났습니다. 작은 언어 모델(SLM)이 점차 등장하여 "클수록 좋다"는 과거 개념에 도전하고 있습니다.

비주얼 차이나

현지 시간으로 8월 21일, Microsoft와 NVIDIA는 최신 소형 언어 모델인 Phi-3.5-mini-instruct와 Mistral-NeMo-Minitron8B를 차례로 출시했습니다. 두 모델의 주요 판매 포인트는 컴퓨팅 리소스 사용과 기능적 성능 간의 적절한 균형을 제공한다는 것입니다. 어떤 면에서는 성능이 더 큰 모델과 맞먹을 수도 있습니다.

인공지능 스타트업 Hugging Face의 CEO인 Clem Delangue는 사용 시나리오의 최대 99%가 SLM으로 해결될 수 있다고 지적하며 2024년은 SLM의 해가 될 것이라고 예측했습니다. 불완전한 통계에 따르면 메타(Meta), 마이크로소프트(Microsoft), 구글(Google) 등 거대 기술 기업들은 올해 9개의 소형 모델을 출시했다.

대형 모델 훈련 비용 증가

SLM의 등장은 우연이 아니며, 성능 향상과 자원 소비 측면에서 대형 모델(LLM)의 과제와 밀접한 관련이 있습니다.

AI 스타트업 Vellum과 Hugging Face가 4월에 발표한 성능 비교에 따르면 LLM 간의 성능 격차가 빠르게 줄어들고 있으며, 특히 객관식 문제, 추론, 수학적 문제 등 상위 모델 간의 차이가 극도로 큰 특정 작업에서 그렇습니다. . 작은. 예를 들어, 객관식 질문에서는 Claude3 Opus, GPT-4 및 Gemini Ultra가 모두 83% 이상의 정확도를 달성한 반면, 추론 작업에서는 Claude3 Opus, GPT-4 및 Gemini 1.5Pro가 모두 83% 이상의 정확도를 달성했습니다. 92% 이상.

우버 AI 전 대표 게리 마커스는 “모두가 GPT-4가 GPT-3.5보다 한발 앞서 있다고 말하겠지만, 그 이후 1년이 넘도록 질적 도약은 없었다”고 지적했다.

제한된 성과 향상에 비해 LLM 교육 비용은 지속적으로 증가하고 있습니다. 이러한 모델을 교육하려면 엄청난 양의 데이터와 수억, 심지어 수조 개의 매개변수가 필요하므로 리소스 소비가 극도로 높아집니다. LLM을 교육하고 실행하는 데 필요한 컴퓨팅 성능과 에너지 소비가 엄청나기 때문에 소규모 조직이나 개인이 핵심 LLM 개발에 참여하기가 어렵습니다.

국제에너지기구(International Energy Agency)는 2026년까지 데이터센터, 암호화폐, 인공지능(AI)과 관련된 전력 소비량이 일본 전체 전력 소비량과 거의 맞먹을 것으로 추정하고 있다.

OpenAI CEO Altman은 MIT 행사에서 GPT-4를 훈련하는 데 최소 1억 달러가 소요될 것이라고 말한 적이 있으며, Anthropic CEO Dario Amodei는 모델 훈련 비용이 향후 1,000억 달러에 이를 수 있다고 예측했습니다.

또한 LLM을 사용하는 데 필요한 도구와 기술의 복잡성으로 인해 개발자 학습 곡선도 추가됩니다. 훈련부터 배포까지 전체 프로세스에 시간이 오래 걸리므로 개발 속도가 느려집니다. 캠브리지 대학의 연구에 따르면 기업이 기계 학습 모델을 배포하는 데 90일 이상이 소요될 수 있습니다.

LLM의 또 다른 주요 문제점은 "환상"에 취약하다는 것입니다. 즉, 모델에 의해 생성된 출력이 합리적으로 보이지만 실제로는 올바르지 않습니다. 이는 LLM이 정보를 실제로 이해하는 것이 아니라 데이터의 패턴을 기반으로 다음으로 가능성이 높은 단어를 예측하도록 훈련되었기 때문입니다. 결과적으로 LLM은 자신있게 잘못된 진술을 생성하거나, 사실을 조작하거나, 관련 없는 개념을 터무니없는 방식으로 결합할 수 있습니다. 이러한 "환상"을 감지하고 줄이는 방법은 신뢰할 수 있고 신뢰할 수 있는 언어 모델을 개발하는 데 있어 지속적인 과제입니다.

소형 모델로 비용 절감

LLM의 막대한 에너지 수요와 기업에 보다 다양한 AI 옵션을 제공할 수 있는 시장 기회에 대한 우려로 인해 기술 회사는 점차 SLM에 관심을 돌리게 되었습니다.

'매일경제뉴스' 기자들은 Arcee, Sakana AI, Hugging Face 등의 AI 스타트업과 기술 대기업 모두 SLM과 보다 경제적인 방법을 통해 투자자와 고객을 유치하고 있음을 주목했습니다.

이전에 Google, Meta, OpenAI 및 Anthropic은 모두 주력 LLM보다 더 작고 유연한 소형 모델을 출시했습니다. 이는 개발 및 배포 비용을 절감할 뿐만 아니라 상업 고객에게 더 저렴한 솔루션을 제공합니다. AI 벤처의 높은 비용과 불확실한 수익에 대한 투자자들의 우려가 커지면서 더 많은 기술 기업이 이 길을 선택할 수 있습니다. 이제 Microsoft와 NVIDIA도 자체 소형 모델(SLM)을 출시했습니다.

SLM은 더 적은 매개변수와 더 단순한 설계를 갖춘 간소화된 버전의 LLM이며 필요한 데이터 및 교육 시간이 단 몇 분 또는 몇 시간입니다. 이를 통해 SLM을 더 효율적이고 소형 장치에 쉽게 배포할 수 있습니다. 예를 들어, 슈퍼컴퓨팅 리소스를 차지하지 않고 휴대폰에 내장할 수 있으므로 비용이 절감되고 응답성이 크게 향상됩니다.

SLM의 또 다른 주요 장점은 특정 애플리케이션에 대한 전문화입니다. SLM은 특정 작업이나 영역에 중점을 두므로 실제 애플리케이션에서 더욱 효율적입니다. 예를 들어, SLM은 감정 분석, 명명된 엔터티 인식 또는 도메인별 질문 답변에서 범용 모델보다 성능이 뛰어난 경우가 많습니다. 이러한 사용자 정의를 통해 기업은 특정 요구 사항을 효율적으로 충족하는 모델을 만들 수 있습니다.

또한 SLM은 일반적으로 모델이 해당 작업과 가장 관련 있는 패턴과 정보를 학습하는 데 도움이 되는 더 좁고 더 표적화된 데이터 세트에 대해 교육을 받기 때문에 특정 도메인 내에서 "환각"에 덜 취약합니다. SLM의 집중된 특성은 관련이 없거나 예상치 못한 또는 일관성 없는 출력이 생성될 가능성을 줄여줍니다.

작은 크기에도 불구하고 SLM의 성능은 일부 측면에서 대형 모델보다 열등하지 않습니다. Microsoft의 최신 Phi-3.5-mini-instruct에는 38억 개의 매개변수만 있지만 Llama3.18B 및 Mistral7B보다 매개변수가 훨씬 높은 모델보다 성능이 좋습니다. 노스이스턴 대학(미국 매사추세츠 주 보스턴에 위치한 최고의 사립 연구 대학)의 언어 모델 연구 전문가인 Aaron Mueller는 매개변수 수를 늘리는 것이 더 높은 품질의 데이터로 모델 성능을 향상시킬 수 있는 유일한 방법은 아니라고 지적했습니다. 도 비슷한 결과를 낳습니다.

OpenAI CEO 알트만(Altman)은 지난 4월 한 행사에서 우리가 거대 모델 시대의 끝에 와 있다고 믿으며 "우리는 다른 방식으로 성능을 향상시킬 것"이라고 말했습니다.

그러나 SLM의 전문화는 큰 장점이지만 한계도 있다는 점에 유의해야 한다. 이러한 모델은 특정 교육 영역 밖에서는 제대로 수행되지 않을 수 있고 광범위한 지식 기반이 부족하며 LLM에 비해 광범위한 주제에 대한 관련 콘텐츠를 생성할 수 없습니다. 이러한 제한으로 인해 사용자는 다양한 수요 영역을 처리하기 위해 여러 SLM을 배포해야 하므로 AI 인프라가 복잡해질 수 있습니다.

AI 분야의 급속한 발전에 따라 소형 모델에 대한 기준도 계속해서 바뀔 수 있다. 도쿄에 본사를 둔 소형 모델 스타트업 Sakana의 공동 창립자이자 CEO인 David Ha는 몇 년 전에는 거대해 보였던 AI 모델이 이제는 "보통"처럼 보인다고 말했습니다. David Ha는 "크기는 항상 상대적입니다."라고 말했습니다.

매일 경제 뉴스

보고/피드백