소식

Llama 3.1이 사전에 유출되어 GPT-4o가 왕좌에서 떨어졌다고요?더 빠르고 10배 저렴

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

텍스트 | 창민샤오(Chang Minxiao)와 위안잉량(Yuan Yingliang)

편집자|아니타 탕

오픈소스 모델의 천정이 되는 것이 라마의 대형 모델의 운명이라면, '비극적 유출'은 라마가 극복해야 할 재앙이다.

2023년 3월 라마 2가 사전 유출됐고, 메타는 해당 모델을 오픈소스로 공개해야 했다.

오늘날 역사는 다시 반복되고 있습니다.

태평양 표준시 기준 7월 12일, Meta 직원은 Meta가 현지 시간으로 2024년 7월 23일에 현재까지 Llama의 가장 큰 매개변수 규모 버전인 Llama 3.1 405B를 출시할 계획이라고 밝혔습니다. 그는 405B가 Llama 시리즈의 첫 번째 다중 모드 모델이 될 것이라고 밝혔습니다.

그러나 출시 예정일 하루 전인 태평양 표준시 기준 7월 22일, Reddit 등 기술 커뮤니티에서 Llama 3.1의 모델 및 벤치마크 결과가 유출되었고, Llama 3.1의 마그넷 링크(문서 다운로드에 사용되는 프로그램)가 유출되었습니다. HuggingFace 등의 커뮤니티에서 유포되었습니다.

유출된 결과로 판단하면,Llama 3.1의 성능은 OpenAI의 GPT-4o와 비슷합니다!

일부 AI 블로거들은 Llama 3.1의 출시가 AI 세계의 운명을 바꾸는 또 다른 날이 될 것이라고 칭찬했습니다.


△출처:X

유출된 벤치마크 결과에 따르면 Llama 3.1에는 8B, 70B 및 405B의 세 가지 크기가 있습니다. 매개변수 수가 가장 적은 70B 모델은 여러 측면에서 GPT-4o에 필적하는 성능을 가지고 있습니다.


△위 사진은 Llama 3.1의 각 버전과 OpenAI GPT-4o, 그리고 Llama 3 8B/70B의 비교를 보여줍니다. 그 중 규모의 중간에 있는 70B 버전도 여러 면에서 GPT-4o를 능가합니다. 이미지 출처: X 사용자 @mattshumer_

일부 네티즌들은 이 벤치마크를 기반으로 하면 Llama 3.1 405B ≒ GPT-4o, Llama 3.1 70B가 OpenAI를 이길 수 있는 최초의 경량 모델이자 GPT-4o mini가 될 것이라고 지적했습니다.


△사진출처 : X유저 @corbtt

그러나 '얼리 어답터'를 위한 모델을 다운로드한 많은 네티즌들은 유출된 Llama 3.1 405B 버전의 파일 크기가 약 820GB이며, 전체 정확도를 유지하는 Llama 2(약 280GB)의 거의 3배에 달하는 메모리가 필요하다는 사실을 발견했습니다.

즉, 집에 광산이 있고 충분한 GPU를 감당할 수 없다면 개별 개발자가 자신의 컴퓨터에서 Llama 3.1을 실행하기 어려울 것입니다. 일부 네티즌들은 라마 3.1이 개인을 위한 것이 아니라 기관이나 기업을 위한 것이라고 추측하고 있다.

아직 공식적으로 발표되지 않은 라마 3.1도 찬물을 끼얹었다. 많은 네티즌들은 Llama 3.1의 GPU 요구 사항이 너무 높고 옆집 OpenAI의 GPT-4o mini만큼 좋지 않다고 불평했습니다.


△X에 대한 네티즌의 댓글. 이미지 출처: X 사용자 @_Talesh


함수 반복, 지표 최적화 및 컴퓨팅 리소스 절감

유출된 모델 정보에 따르면 Llama 3.1은 더 긴 컨텍스트 창, 다중 언어 입력 및 출력, 개발자 및 타사 도구 통합 가능 등을 포함하여 2024년 4월 19일에 출시될 Llama 3보다 더 많은 기능 반복을 제공합니다.

데이터 교육: Llama 3.1은 공개 소스의 15T개 이상의 토큰을 사용하여 교육되었습니다. 미세 조정 데이터에는 공개적으로 사용 가능한 명령 조정 데이터 세트(Llama-3과 달리!)와 합성으로 생성된 2,500만 개가 넘는 예제가 포함됩니다. 다국어 대화: Llama 3.1은 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 8개 언어를 지원합니다. 안타깝게도 중국어로는 사용할 수 없지만 개발자는 지원되는 8개 언어 이외의 언어에 대해 Llama 3.1 모델을 미세 조정할 수 있습니다. 컨텍스트 창: 각 버전의 컨텍스트 길이는 8k에서 128k로 확장됩니다. 이는 모델이 한 번에 96,000단어(원작 "해리포터" 전체의 거의 전체)를 기억, 이해 및 처리할 수 있는 것과 대략 동일합니다.

많은 네티즌들은 Llama 3.1을 이 모델의 "전임자"와 경쟁시키려는 열망을 갖고 있으며 지표가 크게 개선되었을 뿐만 아니라 컴퓨팅 리소스도 많이 절약되었다는 사실을 발견했습니다.

네티즌 테스트에 따르면 Llama 3에 비해 Llama 3.1의 기능이 크게 향상되었습니다. 그중 human_eval과 Truthfulqa_mc1은 상당한 발전을 이루었습니다. 이는 프로그래밍 코드 생성 능력이 더욱 강력해지고 질문에 대한 답변이 더욱 확실해졌음을 의미합니다.

동시에 기본 모델과 비교하여 Llama 3의 지시 모델은 신속한 학습, 상황별 학습 및 효율적인 매개변수 미세 조정과 같은 지표가 크게 향상되었습니다.

이는 기본 모델이 일반적으로 특정 작업에 맞게 미세 조정되지 않은 반면 지시 모델은 지침을 따르거나 특정 작업을 완료하도록 특별히 훈련되었기 때문에 합리적입니다. 일반적으로 지시 모델의 지표가 더 잘 수행됩니다.

이로 인해 사람들은 Llama3.1의 공식 출시를 더욱 기대하게 되었습니다. 현재 유출된 Llama3.1 모델 테스트 결과는 기본 모델에만 해당되며, 지시 모델이 더 나은 성능을 발휘할 수 있습니다!


△사진출처 : X유저 @thenameless7741


△사진출처 : X유저 @thenameless7741

놀랍게도 벤치마크 테스트 결과에서 Llama 3.1 70B 모델은 GPT-4o와 동률이거나 심지어 이겼고, Llama 3.1 8B 모델은 Llama 3 70B 모델의 성능에 근접했습니다. 일부 네티즌들은 이것이 모델 증류 기술을 사용했을 가능성이 있다고 추측했습니다. 즉, 8B 및 70B 모델은 가장 큰 모델인 405B에서 단순화되어 대형 모델을 '더 작게' 만든 것입니다.

모델 증류 기술은 학생이 교사로부터 배우는 것으로 볼 수 있습니다. 크고 강력한 모델(교사 모델)은 교사이고, 작고 단순한 모델(학생 모델)은 학생입니다. 학생 모델은 교사 모델을 "모방"하여 학습하고 교사 모델의 출력에 최대한 가까운 출력을 만들어 유사한 지식과 능력을 학습합니다.

증류를 통해 훈련된 학생 모델은 높은 성능과 상당한 정확성을 유지하면서 모델 크기와 컴퓨팅 리소스 요구 사항을 줄일 수 있습니다.


△출처: 레딧


모든 사람이 실행할 수는 없지만 가격은 합리적입니다.

Llama 3.1이 예상대로 오픈 소스가 될지는 아직 알려지지 않았습니다. 하지만 오픈 소스라 하더라도 Llama 3.1을 사용하려면 집에 광산이 있어야 합니다.

Llama 3.1을 실행하려면 가장 기본적인 입장권은 충분한 GPU입니다.

유출된 문서에 따르면 H100-80GB 유형 하드웨어에서 Llama 3.1 405B의 훈련 시간은 30.84M GPU 시간입니다. 즉, 시간당 H100-80GB 하나만 사용한다고 가정하면 Llama 3.1 405B를 실행하는 데 30.84M 시간이 소요됩니다. 모델이 실행되기까지 3500년이 걸립니다!


△출처: 레딧

비공개로 배포하려는 경우 기업에서 한 달 내에 Llama 3.1 405B를 성공적으로 실행하려면 H100-80GB를 최소 43,000개 예약해야 합니다. H100 단가 US$40,000를 기준으로 계산,Llama 3.1 405B 컴퓨팅 파워 티켓을 사용하면 가격이 17억 달러(125억 위안에 해당)에 달합니다.

하지만 좋은 소식은 Llama 3.1의 추론 비용이 더 저렴할 수 있다는 것입니다.

인공 분석에 따르면 100만 개의 토큰을 처리하는 데 필요한 비용인 Llama 3.1 405B는 유사한 품질의 최첨단 모델(GPT-4o 및 Claude 3.5 Sonnet)보다 저렴하고 비용 효율적입니다.


△사진출처: X유저 @ArtificialAnlys

또한 일부 네티즌들은 소스파일 코드를 통해 라마 3.1 405B가 멤버십 상품이 될 수도 있고, 이용 시 비용을 지불해야 할 수도 있다는 추측을 내놨다. 하지만 실제 상황에 대해서는 아직 공식 발표를 기다려야 할 것 같습니다.


△사진출처: X유저 @testingcatalog

(36Kr 저자 Zhou Xinyu도 이 기사에 기여했습니다)

소통에 오신 것을 환영합니다

소통에 오신 것을 환영합니다