소식

생성 AI는 다음 트렌드인 TTT 모델을 가져올 수 있습니다.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

차세대 생성 인공 지능(AI)의 초점은 테스트 시간 훈련 모델, 줄여서 TTT일 수 있습니다.

Transformers 아키텍처는 OpenAI의 비디오 모델 Sora의 기반이자 Anthropic의 Claude, Google의 Gemini 및 OpenAI의 플래그십 모델 GPT-4o와 같은 텍스트 생성 모델의 핵심입니다. 그러나 이제 이러한 모델의 진화는 기술적 장애물, 특히 컴퓨팅과 관련된 장애물에 부딪히기 시작했습니다. Transformer는 적어도 기성 하드웨어에서 실행할 때 대량의 데이터를 처리하고 분석하는 데 특히 효율적이지 않기 때문입니다. 기업은 Transformers의 요구 사항을 충족하기 위해 인프라를 구축하고 확장하며, 이로 인해 지속적으로 수요를 충족할 수 없을 정도로 전력 수요가 급격히 증가합니다.

이번 달 Stanford University, UC San Diego, UC Berkeley 및 Meta의 연구원들은 TTT 아키텍처를 개발하는 데 1년 반이 걸렸다고 공동으로 발표했습니다. 연구팀은 TTT 모델이 Transformers보다 훨씬 더 많은 데이터를 처리할 수 있을 뿐만 아니라 Transformers만큼 많은 컴퓨팅 성능을 소비하지 않는다고 주장합니다.

외부인들은 왜 TTT 모델이 Transformers보다 더 유망하다고 생각합니까? 가장 먼저 이해해야 할 것은 Transformers의 기본 구성 요소가 본질적으로 긴 데이터 목록인 "숨겨진 상태"라는 것입니다. Transformer가 무언가를 처리할 때 방금 처리한 내용을 "기억"하기 위해 숨겨진 상태에 항목을 추가합니다. 예를 들어, 모델이 책을 처리하는 경우 숨겨진 상태 값은 단어(또는 단어의 일부)의 표현이 됩니다.

앞서 언급한 TTT 연구에 참여한 스탠포드 대학의 박사후 연구원 유선은 최근 언론에 트랜스포머가 지능적인 개체로 간주된다면 룩업 테이블과 그 숨겨진 상태는 트랜스포머의 두뇌라고 설명했다. 이 두뇌는 상황별 학습과 같은 Transformer의 잘 알려진 기능 중 일부를 구현합니다.

숨겨진 상태는 Transformers를 강력하게 만드는 데 도움이 되지만 Transformers의 개발을 방해하기도 합니다. 예를 들어 Transformers는 방금 책을 읽었습니다. 이 책에서 한 단어라도 "말하려면" Transformers 모델은 전체 조회 테이블을 스캔해야 합니다. 이 계산 요구 사항은 전체 책을 다시 읽는 것과 같습니다.

그래서 Sun과 TTT의 다른 연구원들은 숨겨진 상태를 모델 내의 모델인 AI의 중첩 인형과 같은 기계 학습 모델로 대체하는 것을 생각했습니다. Transformers의 조회 테이블과 달리 TTT 모델의 내부 기계 학습 모델은 더 많은 데이터가 처리됨에 따라 커지지 않습니다. 대신 처리된 데이터를 가중치라는 대표 변수로 인코딩하므로 TTT 모델의 성능이 높습니다. TTT 모델이 처리하는 데이터의 양에 관계없이 내부 모델의 크기는 변하지 않습니다.

Sun은 미래의 TTT 모델이 단어에서 이미지, 녹음에서 비디오에 이르기까지 수십억 개의 데이터를 효율적으로 처리할 수 있다고 믿습니다. 이는 기존 모델의 기능을 훨씬 뛰어 넘는 것입니다. TTT의 시스템은 책을 X번 다시 읽어야 하는 복잡한 계산을 수행할 필요 없이 책에 X단어를 말할 수 있습니다. "소라와 같은 트랜스포머를 기반으로 한 대규모 비디오 모델은 룩업 테이블 '브레인'만 있기 때문에 10초짜리 비디오만 처리할 수 있습니다. 우리의 궁극적인 목표는 시각적 경험과 유사한 긴 비디오를 처리할 수 있는 시스템을 개발하는 것입니다. 인간의 삶에서”

TTT 모델이 결국 변압기를 대체하게 될까요? 언론은 이것이 가능하다고 믿고 있지만 아직 결론을 내리기에는 너무 이르다. 현재 TTT 모델은 Transformers를 직접 대체하지 않습니다. 연구원들은 연구를 위해 두 개의 작은 모델만 개발했기 때문에 현재 TTT를 일부 대형 Transformers 모델에서 얻은 결과와 비교하는 것은 어렵습니다.

앞서 언급한 TTT 연구에 참여하지 않은 King's College London의 정보학과 선임 강사인 Mike Cook은 TTT가 효율성을 향상시킬 수 있다는 아이디어를 뒷받침하는 매우 흥미로운 혁신이라고 말했습니다. , 하지만 그는 TTT가 기존 아키텍처보다 나은지 알 수 없습니다. Cook은 자신이 학부생이었을 때 나이 많은 교수가 종종 다음과 같은 농담을 했다고 말했습니다. 컴퓨터 공학에서 문제를 어떻게 해결합니까? 또 다른 추상화 계층을 추가합니다. 신경망에 신경망을 추가하자 이 농담에 대한 해결책이 떠올랐습니다.