대형 모델 업계에는 '진짜' 오픈소스가 전혀 없나요?

2024-08-01

작가｜ 월요일의 미소
이메일 ｜ [email protected]

최근 오픈소스 대형 모델 시장이 매우 활발하다. 먼저 애플이 70억 매개변수 소형 모델 DCLM을 오픈소스화한 데 이어, 헤비급 메타의 라마 3.1과 미스트랄 라지 2가 잇달아 벤치마크 테스트를 거쳐 오픈소스화됐다. 비공개 소스 SOTA 모델을 능가했습니다.

그러나 오픈소스와 클로즈드소스 세력 간의 논쟁은 멈출 기미를 보이지 않는다.

메타는 라마 3.1 출시 이후 "이제 우리는 오픈소스가 주도하는 새로운 시대를 열고 있다"고 밝혔고, 다른 한편으로는 샘 알트먼이 '워싱턴포스트'에 글을 올려 모순을 직접적으로 제기했다. 오픈소스와 클로즈드소스 사이에서 국가와 형태적 수준까지.

얼마 전 세계 인공 지능 컨퍼런스에서 Robin Li는 "오픈 소스는 실제로 일종의 IQ 세금"이라고 솔직하게 말했습니다. 왜냐하면 폐쇄 소스 모델이 분명히 더 강력하고 추론 비용이 더 낮기 때문입니다. 이는 다시 한번 논의를 촉발시켰습니다.

나중에 Fu Sheng은 오픈 소스와 폐쇄 소스라는 두 진영이 서로 경쟁하며 함께 발전한다고 믿었다는 의견도 표명했습니다. 그는 또한 “오픈소스가 사실상 IQ세의 일종이다”는 견해에 대해 “오픈소스 대형언어 모델은 무료인데 IQ세는 어떻게 얻었고 세금은 누가 걷느냐”, “요즘 기업들이 사용한다면 유료 폐쇄 소스 빅 언어 모델, 이른바 'IQ 세금', 특히 모델 라이센스 비용과 API 비용이 매우 높아 연간 수억 달러가 소요되고 결국 장식용으로 다시 구입하여 직원들조차 사용할 수 없게 되었습니다. 전혀 (모델들).”

이 논쟁의 핵심은 다양한 이해관계자의 견해와 입장을 반영하는 기술 개발의 방향과 모델에 관한 것입니다. 대규모 언어 모델의 오픈 소스와 폐쇄 소스에 대해 이야기하기 전에 "오픈 소스"와 " 폐쇄 소스". 두 가지 기본 개념.

"오픈 소스"라는 용어는 소프트웨어 분야에서 유래되었으며, 소프트웨어 개발 과정에서 소스 코드를 공개하여 누구나 보고, 수정하고, 배포할 수 있도록 하는 것을 의미합니다.오픈 소스 소프트웨어소프트웨어 개발은 일반적으로 상호 협력 및 동료 생산의 원칙을 따르며 생산 모듈, 통신 파이프라인 및 대화형 커뮤니티의 개선을 촉진합니다. 대표적인 예로는 Linux 및 Mozilla Firefox가 있습니다.

비공개 소스 소프트웨어(독점 소프트웨어) 상업적인 이유나 기타 이유로 인해 소스코드는 공개되지 않으며, 컴퓨터에서 읽을 수 있는 프로그램(바이너리 형식 등)만 제공됩니다. 소스코드는 개발자만이 소유하고 통제할 수 있습니다. 대표적인 대표자로는 Windows와 Android가 있습니다.

오픈 소스는 개방성, 공유 및 협업을 기반으로 하는 소프트웨어 개발 모델로, 모든 사람이 소프트웨어 개발 및 개선에 참여하도록 장려하고 기술의 지속적인 발전과 광범위한 적용을 촉진합니다.

비공개 소스로 개발된 소프트웨어는 안정적이고 집중적인 제품일 가능성이 높지만, 비공개 소스 소프트웨어는 대개 비용이 들고, 버그나 누락된 기능이 있으면 개발자가 문제를 해결할 때까지 기다려야 합니다.

오픈소스 빅 모델이 무엇인지에 대해 업계에서는 오픈소스 소프트웨어처럼 명확한 합의에 도달하지 못했습니다.

대규모 언어 모델의 오픈 소스와 소프트웨어 오픈 소스는 둘 다 개방성, 공유 및 협업을 기반으로 하며 커뮤니티가 개발 및 개선에 참여하도록 장려하고 기술 진보를 촉진하며 투명성을 향상시키는 개념이 유사합니다.

그러나 구현 및 요구 사항에는 상당한 차이가 있습니다.

소프트웨어 오픈 소스는 주로 응용 프로그램과 도구를 목표로 하며 오픈 소스는 리소스 요구 사항이 낮은 반면, 대규모 언어 모델의 오픈 소스는 많은 양의 컴퓨팅 리소스와 고품질 데이터를 포함하며 사용 제한이 더 많을 수 있습니다. 따라서 두 오픈 소스 모두 혁신과 기술 확산을 촉진하는 것을 목표로 하는 반면, 대규모 언어 모델 오픈 소스는 더 많은 복잡성에 직면하고 커뮤니티 기여 형태도 다릅니다.

Robin Li는 또한 둘 사이의 차이점을 강조했습니다. 오픈 소스 모델은 오픈 소스 코드를 의미하지 않습니다. "오픈 소스 모델은 많은 매개 변수만 얻을 수 있으며 SFT(감독 미세 조정) 및 보안 정렬을 수행해야 합니다. 해당 소스 코드를 얻으면 얻을 수 없습니다." 이러한 매개변수를 훈련하는 데 사용된 데이터의 양과 비율을 알면 모든 사람이 불에 연료를 추가하는 것이 가능하지 않습니다. 이러한 것을 얻는다고해서 허용되지는 않습니다. 거인의 어깨 위에 서서 계속해서 발전하는 것입니다."

대규모 언어 모델의 전체 프로세스 오픈 소스에는 데이터 수집, 모델 설계, 교육부터 배포까지 모델 개발의 전체 프로세스를 개방적이고 투명하게 만드는 것이 포함됩니다. 이 접근 방식에는 데이터 세트 및 모델 아키텍처 공개가 포함될 뿐만 아니라 교육 프로세스의 코드 공유 및 사전 교육된 모델 가중치 릴리스도 포함됩니다.

작년에는 대규모 언어 모델의 수가 엄청나게 증가했으며 많은 사람들이 오픈 소스라고 주장하지만 실제로는 얼마나 개방적입니까?

네덜란드 Radboud University의 인공 지능 연구 학자인 Andreas Liesenfeld와 전산 언어학자인 Mark Dingemanse도 "오픈 소스"라는 용어가 널리 사용되지만 많은 모델은 기껏해야 "오픈 가중치"에 불과하다는 사실을 발견했습니다. 시스템 구축 모든 측면이 숨겨져 있습니다.

예를 들어 Meta 및 Microsoft와 같은 기술은 대규모 언어 모델을 "오픈 소스"로 마케팅하지만 기본 기술과 관련된 중요한 정보를 공개하지 않습니다. 그들이 놀란 것은 자원이 적은 AI 기업과 기관의 성과가 더욱 칭찬할 만하다는 점이었다.

연구팀은 인기 있는 일련의 "오픈 소스" 대규모 언어 모델 프로젝트를 분석하고 코드, 데이터, 가중치, API 및 문서와 같은 다양한 측면에서 실제 개방성을 평가했습니다. 또한 이 연구에서는 OpenAI의 ChatGPT를 폐쇄 소스에 대한 참조 지점으로 사용하여 "오픈 소스" 프로젝트의 실제 상태를 강조했습니다.

✔는 열림, ~는 부분적으로 열림, X는 닫힘을 의미합니다.

결과에 따르면, 이 순위에 따르면 Allen Institute for AI의 OLMo가 가장 오픈소스 모델이고, BigScience의 BloomZ가 뒤를 잇고 있으며, 둘 다 비영리 단체에서 개발되었습니다.

논문에서는 Meta의 Llama와 Google DeepMind의 Gemma가 오픈 소스 또는 공개라고 주장하지만 실제로는 외부 연구원이 사전 훈련된 모델에 액세스하고 사용할 수 있지만 모델을 검사하거나 사용자 정의할 수 없으며 방법을 알지 못한다고 명시합니다. 모델은 특정 작업을 목표로 합니다.

최근 출시된 LLaMA 3와 Mistral Large 2가 많은 관심을 끌었습니다. 모델 개방성 측면에서 LLaMA 3은 모델 가중치를 노출합니다. 사용자는 이러한 사전 훈련 및 명령 미세 조정 모델 가중치에 액세스하고 사용할 수 있습니다. 또한 Meta는 모델 사전 훈련 및 명령 미세 조정을 위한 몇 가지 기본 코드도 제공합니다. 그러나 완전한 훈련 코드는 제공되지 않으며 LLaMA 3의 훈련 데이터는 공개되지 않습니다. 그러나 이번에는 LMeta가 LLaMA 3.1 405B에 관한 93페이지 분량의 기술 보고서를 가져왔습니다.

Mistral Large 2의 상황도 비슷합니다. 모델 가중치와 API 측면에서는 높은 개방성을 유지하지만, 완전한 코드와 학습 데이터 측면에서는 개방성이 낮습니다. 상업적 이익과 개방성의 균형을 맞추는 전략을 채택합니다. 상업적 이용을 제한하여 연구 사용을 허용합니다.

구글은 모델을 설명할 때 회사가 "언어가 매우 정확"하다고 말했으며 오픈 소스가 아닌 오픈 소스인 Gemma라고 불렀습니다. "기존 오픈소스 개념이 항상 AI 시스템에 직접적으로 적용되는 것은 아닙니다."

이 연구의 중요한 맥락은 EU의 인공지능법입니다. 이 법이 발효되면 공개로 분류된 모델에 대해 보다 느슨한 규제를 부과하므로 오픈 소스에 대한 정의가 더욱 중요해질 수 있습니다.

연구원들은 혁신을 위한 유일한 방법은 모델을 조정하는 것이며 이를 위해서는 자신만의 버전을 구축하기 위한 충분한 정보가 필요하다고 말합니다. 그뿐만 아니라, 모델을 면밀히 조사해야 합니다. 예를 들어, 모델이 다수의 테스트 샘플에 대해 학습된 경우 특정 테스트를 통과하는 것이 성과가 아닐 수도 있습니다.

그들은 또한 수많은 오픈 소스 대안의 출현에 기뻐하며 ChatGPT는 너무 인기가 많아서 훈련 데이터나 기타 비하인드 트릭에 대해 잊어버리기 쉽습니다. 이는 모델을 더 잘 이해하거나 이를 기반으로 애플리케이션을 구축하려는 사람들에게는 함정이지만, 오픈 소스 대안은 중요한 기초 연구를 가능하게 합니다.

Silicon Star는 또한 일부 국내 오픈소스 대형 언어 모델의 오픈소스 상황에 대한 통계를 작성했습니다.

해외의 상황과 마찬가지로, 보다 철저한 오픈소스 모델은 기본적으로 연구기관이 주도하고 있음을 알 수 있는데, 이는 주로 연구기관의 목표가 과학적 연구 발전과 산업 발전을 촉진하는 데 있기 때문이며, 그보다 더 중요하기 때문입니다. 연구 결과를 공개하려는 경향이 있습니다.

상업 기업은 리소스 이점을 활용하여 보다 강력한 모델을 개발하고 적절한 오픈 소스 전략을 통해 경쟁 우위를 확보합니다.

GPT-3에서 BERT에 이르기까지 오픈 소스는 대규모 모델 생태계에 중요한 추진력을 가져왔습니다.

아키텍처와 교육 방법을 공개함으로써 연구자와 개발자는 이러한 기반을 더욱 탐색하고 개선하여 더욱 최첨단 기술과 애플리케이션을 개발할 수 있습니다.

오픈소스 대형 모델의 등장으로 개발 문턱이 크게 낮아졌으며, 개발자와 중소기업은 처음부터 모델을 구축할 필요 없이 이러한 고급 AI 기술을 활용하여 많은 시간과 리소스를 절약할 수 있습니다. 이를 통해 보다 혁신적인 프로젝트와 제품을 신속하게 구현하여 전체 산업의 발전을 촉진할 수 있습니다. 개발자는 오픈소스 플랫폼에서 최적화 방법과 적용 사례를 적극적으로 공유하며 기술 성숙도와 적용도 촉진합니다.

교육 및 과학 연구를 위해 오픈 소스 대규모 언어 모델은 귀중한 리소스를 제공합니다. 이러한 모델을 연구하고 사용함으로써 학생과 초보 개발자는 고급 AI 기술을 빠르게 익히고 학습 곡선을 단축하며 업계에 새로운 활력을 불어넣을 수 있습니다.

그러나 대규모 언어 모델의 개방성은 단순한 이진 속성이 아닙니다. Transformer 기반 시스템 아키텍처와 그 훈련 과정은 매우 복잡하고 단순히 개방형 또는 폐쇄형으로 분류하기 어렵습니다. 오픈 소스 빅 모델은 단순한 라벨이 아니라 완전 오픈 소스부터 부분 오픈 소스까지 다양한 정도의 스펙트럼에 가깝습니다.

대규모 언어 모델의 오픈 소스는 복잡하고 세심한 작업이며 모든 모델이 오픈 소스일 필요는 없습니다.

또한 "도덕적 납치" 형태의 완전한 오픈 소스를 요구해서는 안 됩니다. 왜냐하면 여기에는 많은 기술, 자원 및 보안 고려 사항이 필요하고 개방성과 보안, 혁신 및 책임 간의 균형이 필요하기 때문입니다. 기술의 다른 측면과 마찬가지로 다양한 기여 방법을 통해 더욱 풍부한 기술 생태계가 구축됩니다.

오픈 소스와 폐쇄 소스 모델의 관계는 소프트웨어 산업에서 오픈 소스와 폐쇄 소스 소프트웨어의 공존에 비유할 수 있습니다.

오픈 소스 모델은 기술의 광범위한 보급과 혁신을 촉진하고 연구원과 기업에 더 많은 가능성을 제공하는 반면, 폐쇄 소스 모델은 전체 산업의 표준 개선을 촉진합니다. 둘 사이의 건전한 경쟁은 지속적인 개선을 불러일으키고 사용자에게 다양한 선택을 제공합니다.

오픈 소스와 독점 소프트웨어가 오늘날의 소프트웨어 생태계를 공동으로 형성해 온 것처럼,오픈 소스와 폐쇄 소스 대형 모델 사이에는 이분법적 대립이 없습니다. 이 둘의 공존은 AI 기술의 지속적인 발전과 다양한 애플리케이션 시나리오의 요구 사항을 충족하는 데 중요한 원동력입니다. 결국 사용자와 시장은 자신에게 맞는 선택을 하게 됩니다.

소식

대형 모델 업계에는 '진짜' 오픈소스가 전혀 없나요?

소개

내 연락처 정보