소식

로봇에 "웜 브레인"을 장착한다고요? 비변압기 액체 신경망!

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

c. elegans에서 영감을 받은 새로운 아키텍처인 세 가지 "컵 모양"은 모두 sota 성능을 달성할 수 있으며 리소스가 매우 제한된 환경에 배포할 수 있습니다. 모바일 로봇에는 버그의 두뇌가 필요할 수 있습니다.

대형 모델 시대에 google의 2017년 세미나 논문 "attention is all you need"에서 제안된 transformer는 주류 아키텍처가 되었습니다.

그러나 mit 컴퓨터 과학 및 인공 지능 연구소(csail)의 전직 연구원들이 공동 설립한 스타트업인 liquid ai는 다른 길을 택했습니다.

liquid ai는 자신들의 목표가 "기본 생성형 사전 훈련된 변환기(gpt)를 넘어서 모델을 구축하는 방법을 탐색하는 것"이라고 말합니다.

이 목표를 달성하기 위해 liquid ai는 최초의 다중 모드 ai 모델인 lfm(liquid foundation models)을 출시했습니다. 이는 1b, 3b 및 40b lfm을 사용하여 더 작은 메모리 공간과 더 효율적인 추론을 유지하면서 모든 규모에서 sota 성능을 달성하는 첫 번째 원칙에 따라 구축된 차세대 생성 ai 모델입니다.

liquid ai 사후 교육 책임자인 maxime labonne은 x에서 lfm이 자신의 경력에서 가장 자랑스러운 버전이라고 말했습니다. lfm의 핵심 장점은 메모리를 덜 차지하면서 transformer 기반 모델보다 뛰어난 성능을 발휘할 수 있다는 것입니다.

어떤 사람들은 lfm이 트랜스포머의 터미네이터라고 말합니다.

일부 네티즌들은 lfm을 게임 체인저라고 칭찬했다.

일부 네티즌들은 "이제 트랜스포머를 포기해야 할 때가 됐다. 이 새로운 아키텍처는 매우 유망해 보인다"고 믿고 있다.

liquid ai, 세 가지 모델 출시

lfm 제품군은 세 가지 크기와 변형으로 제공됩니다.

  • 집약적 lfm 1.3b(최소), 리소스가 매우 제한된 환경에 이상적입니다.

  • 에지 배포에 최적화된 고밀도 lfm 3b입니다.

  • 보다 복잡한 작업을 처리하도록 설계된 lfm 40.3b moe 모델(미스트랄과 유사한 최대 규모의 전문 하이브리드 모델)

sota 성능

lfm-1b와 동급 규모 모델의 비교. lfm-1b는 모든 벤치마크 테스트에서 최고 점수를 획득하여 해당 규모에서 가장 진보된 모델이 되었습니다. gpt가 아닌 아키텍처가 transformer 기반 모델보다 훨씬 뛰어난 성능을 발휘하는 것은 이번이 처음입니다. 예를 들어 lfm 1.3b는 타사 벤치마크에서 meta의 llama 3.2-1.2b 및 microsoft의 phi-1.5보다 성능이 뛰어났습니다.

lfm-3b는 3b 트랜스포머 모델, 하이브리드 모델, rnn 모델과 비교하여 1위를 차지하며 놀라운 성능을 달성합니다. 또한 여러 벤치마크 테스트에서 phi-3.5-mini와 비슷하면서도 크기는 18.4% 더 작습니다. lfm-3b는 모바일 및 기타 가장자리 텍스트 애플리케이션에 이상적이라는 것을 알 수 있습니다.

lfm-40b는 모델 크기와 출력 품질 간의 새로운 균형을 달성합니다. 런타임에 12b 매개변수를 활성화할 수 있으며 더 큰 모델과 비슷한 성능을 제공하며 moe 아키텍처는 더 높은 처리량을 지원하고 보다 비용 효율적인 하드웨어에 배포할 수 있습니다.

메모리 효율성

lfm은 transformer 아키텍처에 비해 메모리를 덜 차지합니다. transformer 기반 llm의 kv 캐시는 시퀀스 길이에 따라 선형적으로 증가하므로 긴 입력의 경우 특히 그렇습니다. 입력을 효율적으로 압축함으로써 lfm은 동일한 하드웨어에서 더 긴 시퀀스를 처리할 수 있습니다. lfm은 다른 클래스 3b 모델에 비해 메모리를 가장 적게 차지합니다. 예를 들어 lfm-3b에는 16gb의 메모리만 필요한 반면 meta의 llama-3.2-3b에는 48gb 이상의 메모리가 필요합니다.

lfm은 실제로 컨텍스트 길이를 활용합니다.

아래 표는 다양한 컨텍스트 길이에서 여러 모델의 성능을 비교합니다.

이 효율적인 컨텍스트 창은 처음으로 에지 장치에서 긴 컨텍스트 작업을 가능하게 합니다. 개발자에게는 문서 분석 및 요약, 상황 인식 챗봇과의 보다 의미 있는 상호 작용, 향상된 rag(검색 증강 생성) 성능을 포함한 새로운 애플리케이션의 잠금을 해제합니다.

이러한 모델은 원시 성능 벤치마크뿐만 아니라 운영 효율성 측면에서도 경쟁력이 있어 엔터프라이즈급 애플리케이션부터 금융 서비스, 생명 공학 및 가전 제품 배포에 이르기까지 다양한 사용 사례에 이상적입니다.

사용자는 lambda chat이나 perplexity ai 등을 통해 액세스할 수 있습니다.

liquid가 gpt(generative pre-trained transformer)를 뛰어 넘는 방법

liquid는 동적 시스템 이론, 신호 처리 및 수치 선형 대수학 이론에 깊이 뿌리를 둔 계산 단위의 혼합을 사용합니다. 그 결과 비디오, 오디오, 텍스트, 시계열 및 신호를 포함한 모든 유형의 시퀀스 데이터를 시뮬레이션하여 새로운 lfm을 훈련하는 데 사용할 수 있는 범용 ai 모델이 개발되었습니다.

이미 작년 초 liquid ai는 lnn(liquid neural networks)이라는 방법을 사용했습니다. 복잡한 작업을 수행하기 위해 수천 개의 뉴런이 필요한 기존 딥 러닝 모델과 달리 lnn은 혁신적인 수학 공식과 결합하여 더 적은 수의 뉴런으로도 동일한 결과를 얻을 수 있음을 보여줍니다. 결과.

liquid ai의 새로운 모델은 이러한 적응성의 핵심 이점을 유지하여 기존 모델과 관련된 계산 오버헤드 없이 추론 중에 실시간 조정이 가능합니다. 메모리 사용량을 최소화하면서 최대 100만 개의 토큰을 효율적으로 처리할 수 있습니다.

예를 들어, 추론 메모리 사용량 측면에서 lfm-3b 모델은 특히 토큰 길이가 확장될 때 google의 gemma-2, microsoft의 phi-3 및 meta의 llama-3.2와 같은 인기 모델보다 성능이 뛰어납니다.

다른 모델은 긴 컨텍스트를 처리할 때 메모리 사용량이 크게 증가하는 반면, lfm-3b는 훨씬 적은 공간을 차지하므로 문서 분석이나 챗봇과 같이 대량의 순차 데이터 처리가 필요한 애플리케이션에 이상적입니다.

liquid ai는 오디오, 비디오, 텍스트를 포함한 다양한 데이터 형식에 걸쳐 범용 모델로 기본 모델을 구축했습니다.

이러한 다중 모드 기능을 통해 liquid는 금융 서비스부터 생명 공학 및 가전 제품에 이르기까지 다양한 산업별 과제를 해결하는 것을 목표로 합니다.

liquid ai는 nvidia, amd, apple, qualcomm 및 cerebras를 포함한 여러 하드웨어 제조업체의 제품에 대한 모델을 최적화하고 있습니다.

liquid ai는 초기 사용자와 개발자를 초대하여 새로운 모델을 테스트하고 피드백을 제공합니다. 아직 모델이 완벽하지는 않지만 회사는 피드백을 활용하여 제품을 개선할 계획입니다. 그들은 2024년 10월 23일 mit에서 공식 출시 행사를 가질 예정입니다.

투명성을 유지하고 과학을 발전시키기 위한 노력의 일환으로 회사는 출시에 앞서 일련의 기술 블로그 게시물을 게시할 계획입니다. 또한 사용자가 레드팀 테스트를 수행하여 모델의 한계를 탐색하여 향후 버전을 개선하도록 권장합니다.

liquid ai가 도입한 lfm은 고성능과 효율적인 메모리 사용을 결합하여 기존 transformer 기반 모델에 대한 강력한 대안을 제공합니다. 이로 인해 liquid ai가 기본 모델 분야에서 중요한 역할을 할 것으로 기대됩니다.

liquid ai: 작은 버그로 시작하기

openai 및 기타 대형 언어 모델 회사와 공개적으로 경쟁하고 있는 이 스타트업은 mit 컴퓨터 과학 및 인공 지능 연구소 csail에서 인큐베이팅되었으며 2023년 3월에 설립되었습니다.

2023년 12월에 회사는 시드 라운드 파이낸싱에서 미화 3,750만 달러를 받았으며 평가액은 3억 달러에 달했습니다.

투자자로는 github 공동 창립자 tom preston werner, shopify 공동 창립자 tobias lütke, red hat 공동 창립자 bob young 등이 있습니다.

mit csail의 이사인 다니엘라 루스(daniela rus)는 회사 창립자 중 한 명으로, 이 유명한 로봇공학자이자 컴퓨터 과학자는 이 연구소의 최초 여성 이사이기도 합니다.

daniela rus 외에도 liquid ai의 다른 공동 창립자 3명은 모두 mit csail의 박사후 연구원이었습니다.

공동 창립자이자 ceo인 ramin hasani는 mit csail에서 박사후 연구에 참여하기 전에 미국 최대 펀드 관리 회사 중 하나인 vanguard의 수석 인공 지능 과학자였습니다.

공동 창업자이자 cto인 mathias lechner는 hasani가 비엔나 공과대학 학생이었을 때부터 선충류의 신경 구조를 연구했습니다.

공동 창립자이자 최고 과학 책임자인 alexander amini는 daniela rus의 박사 과정 학생이었습니다.

4명의 창립자(왼쪽부터) ceo ramin hasani, daniela rus, 최고 과학 책임자 alexander amini, cto mathias lechner

2017년 다니엘라 루스(daniela rus)는 하사니(hasani)와 레흐너(lechner)를 mit csail로 '파고', 러스와 그녀의 박사과정 학생인 아미니(amini)도 액체 신경망 연구에 합류했습니다.

다니엘라 루스(daniela rus)는 생성 ai는 안전성, 해석성, 컴퓨팅 능력 측면에서 명백한 한계를 갖고 있어 로봇 문제, 특히 모바일 로봇을 해결하는 데 사용하기 어렵다고 지적했습니다.

과학 연구 커뮤니티의 "단골 손님"인 선충류 caenorhabditis elegans의 신경 구조에서 영감을 받아 daniela rus와 그녀의 연구실에 있는 박사후 연구원들은 액체 신경망이라고도 알려진 새로운 유형의 유연한 신경망을 개발했습니다.

예쁜꼬마선충(caenorhabditis elegans)은 커넥톰 결정이 완료된 유일한 유기체이기도 합니다(2019년 기준). 뇌는 단순하지만 학습하고 환경에 적응하는 능력도 현재의 어떤 인공 지능 시스템보다 훨씬 뛰어납니다.

예쁜꼬마선충(caenorhabditis elegans)은 길이가 1mm에 불과하고 뉴런이 302개, 근육이 96개에 불과하지만 감지, 탈출, 먹이 찾기, 짝짓기 등 복잡한 지능적 행동을 할 수 있습니다.

생물학적 신경 메커니즘의 시뮬레이션을 통해 일반 인공지능을 구현하기 위한 가장 단순한 살아있는 지능이자 가장 작은 운반체입니다.

최근 몇 년 동안 과학 연구자들은 c. elegans 신경에 대한 연구 결과를 사용하여 컴퓨터 생물학적 시뮬레이션을 수행했습니다. c. elegans의 뇌가 어떻게 작동하는지 연구함으로써 daniela rus와 다른 사람들은 "유동 시상수 네트워크"를 설계했습니다.

비선형 게이트를 통해 서로 조절하는 여러 개의 단순 동적 시스템으로 구성된 연속시간 모델입니다.

표준 신경망이 댐의 각 층에 많은 밸브(가중치)가 설치된 균일한 간격의 댐 층과 같다고 말하면, 계산된 토렌트는 댐 층을 통과할 때마다 이 밸브를 통과해야 합니다. 다음 레벨로 달려가세요.

음, 액체 신경망에는 댐이 필요하지 않습니다. 각 뉴런이 미분 방정식(ode)에 의해 제어되기 때문입니다.

이 유형의 네트워크는 가변 시상수를 특징으로 하며 출력은 미분 방정식을 풀어 얻습니다. 연구에 따르면 안정성, 표현력, 시계열 예측 측면에서 기존 모델보다 성능이 뛰어난 것으로 나타났습니다.

나중에 daniela rus 등은 폐쇄형 솔루션을 사용하여 뉴런과 시냅스 간의 상호 작용을 효율적으로 시뮬레이션할 수 있는 근사 방법(폐쇄형 연속시간 신경망)을 제안했습니다. 이는 모델 속도 계산을 크게 향상시켰을 뿐만 아니라 더 나은 확장성을 보여주고 시계열 모델링에서 우수한 성능을 발휘하여 많은 고급 순환 신경망 모델보다 성능이 뛰어납니다.

liquid ai 팀원들은 이 아키텍처가 비디오 처리, 자율 주행, 뇌 및 심장 모니터링, 금융 거래(주식 시세), 일기 예보 등 시간이 지남에 따라 변동하는 모든 현상을 분석하는 데 적합하다고 주장했습니다.

액체처럼 유연할 뿐만 아니라 액체 신경망의 또 다른 특징은 수십억 개의 매개변수를 갖는 생성 ai 모델보다 규모가 훨씬 작다는 것입니다.

예를 들어, 리소스가 매우 제한된 환경에 배포할 수 있는 lfm 1.3b는 1.3b 매개변수만 갖고(gpt-2 최대 버전 1.5b와 유사) 더 작은 메모리 공간과 더 효율적인 추론을 유지하며 로봇 하드웨어 플랫폼의 다양한 run에 사용됩니다.

또한, 액체 신경망은 크기가 작고 구조가 단순하여 해석 가능성이 높다는 장점도 있습니다.

그러나 새로운 아키텍처가 openai와 같은 경쟁사의 주류 모델과 어떻게 경쟁할지는 아직 알 수 없습니다.

hasani는 현재 liquid ai가 소비자를 위한 chatgpt와 같은 애플리케이션을 개발할 계획이 없다고 말했습니다. 이 회사는 먼저 금융 및 의료 연구 모델을 찾는 기업 고객에게 초점을 맞추고 있습니다.

참조 링크:

https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/

https://arxiv.org/abs/2106.13898

https://arxiv.org/abs/2006.04439

https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai