소식

빅모델의 시대는 끝났는가?빅 보스 Qi는 AI 모델을 확장하기 전에 먼저 축소해야 할 수도 있다고 예측합니다.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

새로운 지혜 보고서

편집자: 귀

[새로운 지혜 소개]소형 모델의 등장으로 '대형 모델 시대'는 종말을 맞이하게 될까요?

'소형모델위크'가 지나고, 소형모델들의 최신 전장이 막 열렸다.

지난주에는 GPT-4o mini와 Mistral NeMo가 연이어 출시됐다. "작지만 내장기관을 모두 갖춘" 소형 모델이 업계 선두주자들이 주목하는 새로운 방향이 됐다.

그렇다면 스케일링 법칙이 곧 효력을 잃게 될까요?

전직 OpenAI 및 Tesla AI 연구원인 Andrej Karpathy는 최근 AI 교육에 입문했습니다. "Teacher K"는 최근 업계를 안내하는 트윗을 게시하여 거대 기술 기업이 소형 모델 연구 및 개발로 전환하는 이면의 새로운 추세, 즉 대형 AI 모델 경쟁을 공개했습니다. 역전되려고 합니다.

그는 미래의 모델은 더 작지만 여전히 더 똑똑해질 것이라고 예측합니다.

AI 거대 기업과 일부 새로운 유니콘은 최근 경쟁사보다 더 작고 강력하며 저렴한 인공 지능 모델을 출시했습니다. 최신 사례는 OpenAI의 GPT-4o mini입니다.

Karpathy는 이러한 추세가 계속될 것이라고 예측합니다. “우리는 매우 작은 크기로 효율적이고 안정적으로 생각하는 모델을 많이 보게 될 것이라고 확신합니다.”라고 그는 썼습니다.

작은 모델: 거인의 어깨 위에 서다

LLM 개발 초기 단계에서는 더 많은 데이터를 처리하고 모델을 더 크게 만드는 것은 피할 수 없는 추세입니다. 이는 주로 다음과 같은 이유에 근거합니다.

첫째, 데이터 기반 요구사항입니다.

데이터가 폭발적으로 증가하는 시대에 살고 있는 만큼, 풍부하고 다양한 대량의 데이터를 처리하고 이해하려면 더욱 강력한 모델이 필요합니다.

대규모 모델은 방대한 양의 데이터를 수용하고 처리할 수 있는 능력을 갖추고 있으며, 대규모 데이터 트레이닝을 통해 심층적인 패턴과 법칙을 발견할 수 있습니다.

둘째, 컴퓨팅 파워의 향상이다.

하드웨어 기술의 지속적인 발전과 GPU 등 고성능 컴퓨팅 장비의 개발은 대형 모델 학습을 위한 강력한 컴퓨팅 성능을 지원합니다. 크고 복잡한 모델을 훈련할 수 있습니다.

더욱이, 보다 높은 성능과 정확성을 추구합니다.

대형 모델은 일반적으로 언어 이해, 생성, 이미지 인식 등 여러 분야에서 탁월한 성능을 발휘할 수 있으며, 더 많이 이해할수록 생성되는 결과가 더 정확해집니다.

마지막으로 일반화 능력이 더 강해졌습니다.

대형 모델은 이전에 볼 수 없었던 새로운 문제와 작업을 더 잘 처리할 수 있고, 이전에 학습한 지식을 기반으로 합리적인 추측과 대답을 할 수 있으며, 더 강력한 일반화 기능을 가질 수 있습니다.

AI 분야의 치열한 경쟁과 맞물려 다양한 연구 기관과 거대 기업들은 자신들의 기술적 강점과 선두 위치를 입증하기 위해 더 크고 강력한 모델을 개발하는 데 전념하고 있습니다. 볼륨 모델의 크기는 자연스럽게 LLM의 일반적인 개발 방향이 되었습니다.

Karpathy는 또한 현재 가장 강력한 모델의 규모를 훈련 데이터의 복잡성에 기인하며 대규모 언어 모델은 인간의 기억 능력을 능가하는 메모리 성능이 뛰어나다고 덧붙였습니다.

비유하자면, 기말고사 주간에 비공개 시험을 치러야 한다면 시험에서는 처음 몇 단어를 바탕으로 책의 특정 단락을 암송해야 합니다.

이것이 오늘날 대형 모델의 사전 학습 목표입니다. Karpathy는 오늘날의 대형 모델은 사용 가능한 모든 데이터를 삼키려는 탐욕스러운 뱀과 같다고 말했습니다.

공통 숫자에 대한 SHA 시리즈 해싱 알고리즘을 암송할 수 있을 뿐만 아니라 크고 작은 모든 분야에 대한 지식도 기억할 수 있습니다.

하지만 이런 학습 방법은 시험을 위해 도서관 전체와 인터넷에서 모든 것을 외우는 것과 같습니다.

이런 기억력을 갖춘 사람이 천재임은 부정할 수 없지만, 결국 시험에서는 한 페이지만 사용하게 됐다!

이러한 영재 학생들의 경우, 데이터를 훈련하는 과정에서 사고 시연과 지식이 함께 "얽혀" 있기 때문에 LLM이 더 잘하기가 어렵습니다.

더욱이, 한편으로 실제 적용의 관점에서 대형 모델은 배포 및 실행 시 컴퓨팅 리소스, 스토리지 리소스 및 에너지 소비를 포함하여 높은 비용과 리소스 소비에 직면합니다.

소형 모델은 다양한 장치 및 시나리오에 배포하기가 더 쉬우므로 사용 편의성 및 저전력 소비 요구 사항을 충족합니다.

반면, 기술적 성숙도의 관점에서 볼 때, 대형 모델을 통해 문제의 본질과 법칙을 완전히 탐색하고 이해한 후에는 이러한 지식과 패턴을 정제하여 소형 모델의 설계 및 최적화에 적용할 수 있습니다.

이를 통해 소형 모델은 대형 모델과 동일하거나 더 나은 성능을 유지하면서 규모와 비용을 줄일 수 있습니다.

대형 모델의 개발에 병목 현상이 발생하고 소형 모델이 점차 새로운 추세가 되었지만 Karpathy는 효과적으로 훈련되지 않더라도 대형 모델이 여전히 필요하지만 소형 모델은 대형 모델에서 응축되어 있음을 강조했습니다.

Karpathy는 "완벽한 훈련 세트"가 나올 때까지 각 모델이 계속해서 개선되어 다음 모델에 대한 훈련 데이터를 생성할 것이라고 예측합니다.

15억 개의 매개변수가 있는 GPT-2와 같은 기본 모델이라도 이 완벽한 훈련 세트로 GPT-2를 훈련하면 오늘날의 기준으로 볼 때 매우 강력하고 지능적인 모델이 될 수 있습니다.

완벽한 훈련 세트로 훈련된 이 GPT-2는 예를 들어 초등 수학, 미국 역사, 컴퓨터 과학, 법, 법률 등 57개 과제를 다루는 대규모 다중 작업 언어 이해(MMLU) 테스트에서 약간 낮은 점수를 받을 수 있습니다. 등을 활용하여 대형 모델의 기본 지식 범위와 이해 능력을 평가합니다.

그러나 미래에는 더 똑똑한 인공지능 모델이 양에 의존하지 않고 더 확실하게 정보를 검색하고 사실을 확인할 수 있게 될 것입니다.

오픈북 시험을 치르는 우등생처럼 비록 모든 지식을 완전히 이해하지는 못하더라도 정답을 정확하게 찾아낼 수 있습니다.

보도에 따르면 OpenAI의 Strawberry 프로젝트는 이 문제를 해결하는 데 중점을 두고 있습니다.

"푹신한" 대형 모델의 "슬리밍 다운"


Karpathy가 말했듯이, 대규모 데이터로 훈련된 대부분의 초대형 모델(예: GPT-4)은 실제로 관련 없는 세부 사항을 대량으로 기억하는 데, 즉 정보를 암기하는 데 사용됩니다.

이는 모델 사전 학습의 목적과 관련이 있으며, 사전 학습 단계에서 모델은 다음 내용을 최대한 정확하게 암기해야 하며, 이는 텍스트를 암기하는 것과 같습니다. 점수.

모델은 반복되는 지식을 학습할 수 있지만 때로는 데이터에 오류와 편향이 있기 때문에 모델은 이를 미세 조정하기 전에 먼저 이를 모두 기억해야 합니다.

Karpathy는 고품질 교육 데이터 세트가 있으면 더 작고, 더 유능하고, 더 유능한 모델을 교육할 수 있다고 믿습니다.

매우 큰 모델의 도움으로 더 높은 품질의 교육 데이터 세트를 자동으로 생성하고 정리할 수 있습니다.

GPT-4o mini와 유사하게 GPT-4로 정리된 데이터를 사용하여 훈련됩니다.

먼저 모델을 더 크게 만든 다음 이를 토대로 "크기를 줄이십시오". 이는 모델 개발의 새로운 추세일 수 있습니다.

생생한 비유를 하자면, 현재의 대형 모델은 데이터 세트가 너무 많고 너무 뚱뚱하다는 문제가 있는 것 같습니다. 데이터 정리와 광범위한 훈련을 거친 후 근육이 적은 소형 모델로 변환됩니다.

이 프로세스는 단계별 진화와 같으며, 각 세대의 모델은 최종적으로 "완벽한 훈련 세트"를 얻을 때까지 차세대 훈련 데이터를 생성하는 데 도움이 됩니다.

오픈AI CEO 샘 알트만(Sam Altman)도 비슷한 발언을 해 이르면 2023년 4월 대형 AI 모델의 '시대 종말'을 선언했다.

더욱이, 실제 데이터이든 합성 데이터이든 데이터 품질이 AI 훈련의 핵심 성공 요인이라는 인식이 점점 더 커지고 있습니다.

Altman은 AI 시스템이 어떻게 더 적은 데이터로 더 많은 것을 배울 수 있는지가 핵심 질문이라고 믿습니다.

Microsoft 연구원들도 Phi 모델을 개발할 때 동일한 판단을 내렸습니다. Hugging Face AI 연구원들도 고품질 데이터 세트 추구에 동의하고 고품질 교육 데이터 세트를 공개했습니다.

이는 더 이상 맹목적인 확장이 거대 기술 기업의 유일한 기술적 목표가 아니라는 것을 의미합니다. 소규모의 고품질 모델이라도 더 많고, 더 다양하며, 더 높은 품질의 데이터를 활용할 수 있습니다.

더 작고 더 효율적인 모델로 돌아가는 것은 다음 통합 단계의 목표로 볼 수 있으며 OpenAI의 모델 출시는 향후 개발 방향을 명확하게 나타냅니다.

댓글 영역: 정확하고, 적절하고, 피비린내 나는

Karpathy는 자율주행 네트워크에 대한 Tesla의 유사한 접근 방식도 언급했습니다.

Tesla에는 이전의 약한 모델을 실행하여 더욱 깨끗한 훈련 데이터를 생성하는 "오프라인 추적기"라는 기능이 있습니다.

머스크는 테슬라의 기술이 시대를 앞서간다는 말을 듣자마자 댓글 영역으로 달려갔다.

댓글란의 네티즌들도 Karpathy의 선견지명에 감사를 표했고 저도 동의합니다!

미래의 일반 인공지능을 위해 더 작고 효율적인 인공지능 모델은 인공지능의 '지능'을 재정의하고 '클수록 좋다'는 가정에 도전할 수 있습니다.

"Python Machine Learning"의 저자인 Sebastian Raschka는 이것이 큰 27B 모델에서 Gemma-2와 같은 작은 모델을 증류하는 지식 증류와 같다고 믿습니다.

그는 또한 MMLU와 같은 객관식 시험은 지식을 테스트할 수 있지만 실제 능력을 완전히 반영할 수는 없다는 점을 상기시켰습니다.

일부 네티즌들은 상상력도 풍부합니다. 소형 모델이 잘 작동한다면 해당 분야에 전문성이 있는 것입니다. 더 작은 모델을 사용하여 하나씩 답변을 생성해 보는 것은 어떨까요?

AI 조수 10명을 소환한 뒤 가장 똑똑한 사람에게 최종 요약을 하게 하는 것은 그야말로 AI 버전의 싱크탱크다.

그렇다면 AGI는 하나의 전능한 대형 모델인가요, 아니면 여러 소형 모델의 협업에서 나온 것인가요?