컴퓨터 태블릿은 AI 클러스터를 형성하며 집에서 400B 규모의 대형 모델을 실행할 수 있습니다. GitHub는 2500개의 별을 확보합니다.

컴퓨터 태블릿이 AI 클러스터를 형성하고 집에서 400B 대형 모델을 실행할 수 있으며 GitHub는 2500개의 별을 수집했습니다.

2024-07-22

크레시는 아오페이 사원(Aofei Temple)에서 왔습니다.
큐빗(Qubits) 공개 계정 QbitAI

H100이 없으면 Apple 컴퓨터 3대가 400B 대형 모델을 구동할 수 있습니다.

그 뒤에 있는 영웅은 이미 2500개의 별을 받은 GitHub의 오픈 소스 분산 AI 추론 프레임워크입니다.

이 프레임워크를 사용하면 iPhone 및 iPad와 같은 일상적인 장치를 사용하여 단 몇 분 만에 자신만의 AI 컴퓨팅 클러스터를 구축할 수 있습니다.

이 프레임워크를 exo라고 합니다. 다른 분산 추론 프레임워크와 달리 p2p 연결 방식을 채택하고 장치가 네트워크에 연결되면 자동으로 클러스터에 참여할 수 있습니다.

개발자는 exo 프레임워크를 사용해 MacBook Pro 2대와 Mac Studio 1대를 연결했고, 컴퓨팅 속도는 110TFLOPS에 달했습니다.

동시에 개발자는 곧 출시될 Llama3-405B를 환영할 준비가 되었다고 말했습니다.

엑소 관계자 역시 "라마3-405B에 대한 지원을 최대한 빠른 시일(0일차)에 제공할 예정"이라고 밝혔다.

그리고 컴퓨터뿐만 아니라, exo는 iPhone, iPad 및 기타 장치가 로컬 컴퓨팅 네트워크에 연결되도록 할 수 있으며 심지어 Apple Watch도 이를 흡수할 수 있습니다.

버전의 반복을 통해 exo 프레임워크는 더 이상 Apple에만 국한되지 않으며(처음에는 MLX만 지원) 일부 사람들은 Android 휴대폰과 4090 그래픽 카드를 클러스터에 도입했습니다.

60초 만에 구성 완료

엑소는 다른 분산 추론 프레임워크와 달리 마스터-워커 아키텍처를 사용하지 않지만,피어 투 피어(p2p)장치를 연결하십시오.

장치가 동일한 LAN에 연결되어 있으면 자동으로 exo의 컴퓨팅 네트워크에 연결되어 모델을 실행할 수 있습니다.

여러 장치에 걸쳐 모델을 분할할 때 exo는 다양한 분할 전략을 지원합니다. 기본값은 링 메모리 가중치 분할입니다.

이는 장치 메모리에 비례하여 장치당 여러 모델 레이어를 사용하여 링에서 추론을 실행합니다.

그리고 그 모든 과정은수동 구성이 거의 필요하지 않음, 설치 및 시작 후 시스템은 LAN에서 실행 중인 장치에 자동으로 연결되며 향후 Bluetooth 연결도 지원할 예정입니다.

저자의 비디오 중 하나에서는 두 대의 새로운 MacBook에서 구성을 완료하는 데 약 60초밖에 걸리지 않았습니다.

약 60초 후에 프로그램이 백그라운드에서 실행되기 시작한 것을 볼 수 있습니다.

게다가 위 사진을 보면 엑소도 꼬마채팅을 지원하는 걸 알 수 있어요그래픽 인터페이스, OpenAI와도 호환됩니다.API。

그러나 이러한 작업은 클러스터의 테일 노드에서만 구현할 수 있습니다.

현재 엑소는 Apple MLX 프레임워크와 오픈소스 머신러닝 프레임워크를 지원합니다.타이니그래드, llama.cpp의 적응 작업도 진행 중입니다.

유일한 문제점은 iOS 구현 업데이트가 Python을 따라잡을 수 없어 프로그램에 많은 문제가 발생한다는 것입니다. 작성자는 일시적으로 exo 휴대폰과 iPad를 오프라인 상태로 만들었습니다. 요청하려면 작성자에게 이메일을 보내세요.

네티즌: 정말 그렇게 유용한가요?

대규모 모델을 실행하기 위해 로컬 장치를 사용하는 이 방법은 HakerNews에서도 광범위한 토론을 촉발시켰습니다.

현지화된 운영의 장점은 개인정보 보호가 더 보장되는 반면, 오프라인으로 모델에 액세스할 수 있고 개인화된 맞춤화도 지원한다는 점입니다.

일부에서는 대규모 모델 계산을 위한 클러스터 구축을 위해 기존 장비를 활용하는 데 드는 장기적 비용이 클라우드 서비스보다 낮다는 점을 지적하기도 했습니다.

하지만 엑소의 구체적인 프로젝트에 대해서는 많은 이들이 의구심을 드러냈다.

우선 일부 네티즌들은 기존 낡은 장비의 컴퓨팅 파워 수준이 전문 서비스 제공업체의 컴퓨팅 파워 수준과 천차만별이라는 점을 지적했다. 엣지 성능, 비용은 대형 플랫폼과 비교할 수 없습니다.

그리고 저자가 시연에 사용한 장비가 고급 하드웨어라고 하는 사람도 있다. 32GB 메모리를 탑재한 맥 장비라면 이 가격이면 3090 두 대를 사는 것이 더 낫다는 것이다.

그는 심지어 애플이 관여하고 있기 때문에 기본적으로 "저렴함"과는 아무런 관련이 없다고 말할 수 있다고 믿습니다.

이는 또 다른 질문으로 이어집니다. Exo 프레임워크는 어떤 장치와 호환됩니까? 애플만 지원하나요?

네티즌들의 질문은 좀 더 직접적이어서 라즈베리 파이가 지원되는지를 직설적으로 묻고 있다.

저자는 이론적으로는 가능하지만 아직 테스트되지 않았으며 다음에 시도하겠다고 답했습니다.

일부 사람들은 장치 자체의 컴퓨팅 성능 외에도 네트워크 전송 속도 병목 현상으로 인해 클러스터 성능이 제한될 것이라고 덧붙였습니다.

이에 대해 프레임워크 작성자는 개인적으로 다음과 같이 설명했습니다.

엑소에서 전송해야 할 것은 전체 모델 가중치가 아닌 작은 활성화 벡터입니다.
Llama-3-8B 모델의 경우 활성화 벡터는 약 10KB이고 Llama-3-70B는 약 32KB입니다.
로컬 네트워크 대기 시간은 일반적으로 낮으며(<5ms) 성능에 큰 영향을 미치지 않습니다.

저자는 프레임워크가 현재 Tinygrad를 지원하므로 테스트는 주로 Mac 기기에서 진행되지만 (이론적으로는) Tinygrad를 실행할 수 있는 모든 기기를 지원한다고 밝혔습니다.

현재 프레임워크는 아직 실험 단계에 있으며 향후 목표는 이 프레임워크를 Dropbox(네트워크 디스크)만큼 간단하게 만드는 것입니다.

그런데 엑소 관계자들은 현재 해결될 예정인 몇 가지 단점을 나열하고, 이러한 문제를 해결하는 사람들에게 100~500달러에 달하는 보너스를 제공할 것이라고 밝혔습니다.

GitHub：
https://github.com/exo-explore/exo
참조 링크:
https://x.com/ac_crypto/status/1814912615946330473

소식

컴퓨터 태블릿이 AI 클러스터를 형성하고 집에서 400B 대형 모델을 실행할 수 있으며 GitHub는 2500개의 별을 수집했습니다.

60초 만에 구성 완료

네티즌: 정말 그렇게 유용한가요?

소개

내 연락처 정보