소식

Jia Yangqing: 대형 모델 크기가 CNN의 이전 경로로 돌아가고 있습니다. Musk: Tesla에서도 마찬가지입니다.

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

집은 아오페이 사원(Aofei Temple)에서 유래되었습니다.
Qubits 공개 계정 QbitAI

Transformer의 대형 모델 크기가 변경되어 CNN의 이전 경로로 돌아갑니다!

모두가 LLaMA 3.1에 매력을 느끼는 모습을 보니,지아 양칭그런 감정.



대형 모델 크기의 개발과 CNN의 개발을 비교해 보면 다음과 같은 분명한 추세와 현상을 찾을 수 있습니다.

ImageNet 시대에 연구원과 기술 실무자는 매개변수 크기의 급속한 성장을 목격한 후 더 작고 더 효율적인 모델로 이동하기 시작했습니다.

GPT의 모델 매개변수 확장과 같은 소리인가요? 업계에서는 일반적으로 Scaling Law에 동의하다가 GPT-4o mini, Apple DCLM-7B, Google Gemma 2B가 등장합니까?

지아양칭은 "빅모델 이전의 이야기라 잘 기억하지 못하는 분들도 많을 것 같다"고 웃었다.



게다가 이것을 인식한 사람은 Jia Yangqing만이 아닙니다.AI 마스터 카파시도 그렇게 생각한다

  • 대형 모델 크기에 대한 경쟁이 증가하고 있지만 롤은 반대 방향으로 가고 있습니다!
  • 모델은 "더 작은" 것을 추구하기 전에 먼저 "더 큰 것"을 추구해야 합니다. 왜냐하면 훈련 데이터를 이상적인 합성 형식으로 재구성하는 데 도움이 되는 이 프로세스가 필요하기 때문입니다.

그는 심지어 우리가 사고에 적합하고 신뢰할 수 있는 모델을 보게 될 것이라고 확신합니다.

그리고 매개변수 규모는 매우 작습니다.



Musk조차도 Kapasi의 논평 영역에서 다음과 같이 반복해서 말했습니다.



위의 내용은 아마도 "큰 남자도 같은 것을 본다"라고 부를 수 있습니다.

펼치고 이야기하기

Jia Yangqing의 감동은 단 하루 동안만 최강의 왕좌에 머물렀던 LLaMA 3.1에서 시작됩니다.

'최강 오픈소스 모델=최강 모델'이 최초로 실현된 것이어서 많은 관심을 끌었다.

그러나 Jia Yangqing은 이때 다음과 같은 점을 제시했습니다.

"하지만 나는 생각해,업계는 작은 수직형 모델로 정말 번성할 것입니다.。”

작은 수직 모델이 무엇인지에 대해 Jia Yangqing은 Patrouns AI의 Iynx(환각 작업에서 GPT-4o를 능가하는 회사의 환각 감지 모델)로 대표되는 훌륭한 중소형 모델과 같이 매우 명확하게 설명했습니다.



Jia Yangqing은 개인적으로 1000억 매개변수 모델을 매우 좋아한다고 말했습니다.

그러나 실제로 그는 매개변수 범위가 7B에서 70B 사이인 대규모 모델이 모든 사람이 사용하기 더 쉽다는 것을 관찰했습니다.

  • 호스팅하기가 더 쉽고 수익성을 높이기 위해 막대한 트래픽이 필요하지 않습니다.
  • 명확한 질문을 하는 한, 이전의 믿음과는 달리 괜찮은 품질의 결과물을 얻을 수 있습니다.

동시에 그는 OpenAI의 더 빠른 최신 모델이 "최첨단" 대형 모델보다 작아지기 시작했다는 소식을 들었습니다.



"내 이해가 정확하다면 이는 확실히 업계 동향을 나타내는 것입니다." Jia Yangqing은 "즉, 현실 세계에서 적용 가능하고 비용 효율적이며 여전히 강력한 모델을 사용하는 것"이라는 자신의 관점을 직접적으로 밝혔습니다.

이후 Jia Yangqing은 CNN의 발전 과정을 간략하게 정리했습니다.

우선 CNN의 부상 시대이다.

AlexNet(2012)을 출발점으로 약 3년간의 모델 규모 성장 기간이 시작되었습니다.

2014년에 등장한 VGGNet은 매우 강력한 성능과 규모를 갖춘 모델입니다.

둘째, 축소기간이 있다.

2015년 구글넷은 모델 크기를 'GB'에서 'MB' 수준으로 100배 축소했지만, 이로 인해 모델 성능이 크게 떨어지지는 않았지만 좋은 성능을 유지했다.

유사한 추세를 따르면 2015년에 출시된 SqueezeNet 모델이 있습니다.

한동안 개발의 초점은 균형을 추구하는 것이었습니다.

ResNet(2015), ResNeXT(2016) 등과 같은 후속 연구에서는 적당한 모델 크기를 유지했습니다.

모델 크기를 제어한다고 해서 계산량이 줄어들지는 않는다는 점은 주목할 가치가 있습니다. 실제로 모든 사람은 기꺼이 더 많은 컴퓨팅 리소스를 투자하고 "동일한 매개변수이지만 더 효율적인" 상태를 추구합니다.

그 뒤를 이어 CNN이 옆에서 춤을 추는 기간이 이어졌습니다.

예를 들어, MobileNet은 Google이 2017년에 시작한 흥미로운 노력입니다.

흥미로운 점은 리소스를 거의 차지하지 않지만 성능이 뛰어나다는 것입니다.

지난 주에 누군가 Jia Yangqing에게 다음과 같이 언급했습니다. "와~ 우리는 MobileNet이 기기에서 실행될 수 있고 뛰어난 기능 내장 일반성을 가지고 있기 때문에 여전히 MobileNet을 사용하고 있습니다."

마지막으로 Jia Yangqing은 Ghimire et al.의 "효율적인 컨볼루셔널 신경망 및 하드웨어 가속에 대한 조사"에서 사진을 빌렸습니다.



그리고 다시 한 번 그에게 이렇게 질문했습니다.

대형 모델 크기가 CNN 시대와 동일한 추세를 따를까요?

네티즌들은 어떻게 생각하나요?

실제로 GPT-4o mini가 '크지는 않지만 작은' 대형 모델의 개발 경로를 택한 사례는 많다.

위에서 언급한 사람들이 이러한 견해를 표명하자 일부 사람들은 즉시 고개를 끄덕이고 비슷한 경향을 보았다는 것을 증명하기 위해 다른 유사한 예를 제시했습니다.

누군가가 즉시 따라갔습니다.

  • 여기에 새로운 긍정적인 예가 있습니다! Gemma-2는 매개변수 크기가 27B인 모델 지식을 더 작은 버전으로 추출합니다.



일부 네티즌들은 더 큰 모델을 개발한다는 것은 더 작고 수직적인 모델의 후속 세대에 대한 훈련을 '강화'하는 것을 의미한다고 말했습니다.

이러한 반복 프로세스는 궁극적으로 "완벽한 훈련 세트"를 생성합니다.

이러한 방식으로 더 작은 대형 모델은 특정 분야에서 거대한 매개변수를 사용하는 오늘날의 대형 모델만큼 똑똑하거나 심지어 더 똑똑할 수 있습니다.

간단히 말해서,모델을 더 작게 만들기 전에 먼저 더 크게 만들어야 합니다.



이 관점을 논의한 대부분의 사람들은 여전히 ​​이러한 추세에 동의합니다. 어떤 사람들은 "이것은 좋은 일이고 '내 모델이 당신의 모델보다 크다' 매개 변수 경쟁보다 더 실용적이고 유용합니다"라고 직설적으로 말했습니다.

하지만 물론!

온라인 댓글 섹션을 탐색하면서,다른 사람들은 다른 소리를 냈습니다.

예를 들어, 이 친구는 Jia Yangqing의 트윗에 다음과 같은 메시지를 남겼습니다.

  • 가장 경쟁력 있는 모델을 보유한 회사인 Mistral Large(뒤에 있는 회사인 Mistral AI), LLaMA 3.1(뒤에 있는 회사인 Meta) 및 OpenAI가 현재 모두 더 큰 모델을 훈련하고 있을 수 있습니다.
  • "더 작은 모델을 통한 기술적 혁신" 추세는 보이지 않습니다.



이 질문에 Jia Yangqing은 즉각 대답했습니다.

그가 말한 내용은 다음과 같습니다. "맞습니다. 큰 모델 크기가 CNN의 이전 경로를 따를 수 있다고 말할 때 모든 사람에게 더 큰 모델 훈련을 중단하라고 요구하려는 것은 아닙니다."

그는 또한 이 말의 원래 의도는 기술(CNN 및 대형 모델 포함)이 점점 더 광범위하게 구현됨에 따라 모든 사람들이 보다 비용 효율적인 모델에 점점 더 많은 관심을 기울이기 시작했다는 것이라고 설명했습니다. "



따라서 아마도 더 효율적인 소형 및 대형 모델은 AI의 "지능"을 재정의하고 "더 클수록 좋다"는 가정에 도전할 수 있습니다.

당신은 이 견해에 동의합니까?

참조 링크:
[1]https://x.com/jiayq/상태/1818703217263624385
[2]https://x.com/fun000001/상태/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497