소식

메타의 새로운 연구개발 방식: 언어와 확산 AI 모델을 통합하여 계산량 감소, 컴퓨팅 효율성 향상, 이미지 생성 최적화

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT하우스는 메타AI컴퍼니가 최근 언어 모델과 이미지 생성 모델을 통합 AI 시스템으로 결합할 수 있는 새로운 방식인 트랜스퓨전(Transfusion)을 출시했다고 24일 밝혔다.

IT Home은 Transfusion이 텍스트와 같은 개별 데이터를 처리하는 언어 모델의 장점과 이미지와 같은 연속 데이터를 생성하는 확산 모델의 기능을 결합한 것이라고 팀의 말을 인용했습니다.

Meta는 현재 이미지 생성 시스템이 일반적으로 사전 훈련된 텍스트 인코더를 사용하여 입력 단서 단어를 처리한 다음 별도의 확산 모델과 결합하여 이미지를 생성한다고 설명합니다.

많은 다중 모드 언어 모델은 유사하게 작동하여 사전 학습된 텍스트 모델을 다른 양식에 대한 특수 인코더와 연결합니다.

그러나 Transfusion은 모든 모드에 적합하고 텍스트 및 이미지 데이터에 대해 엔드 투 엔드 교육을 수행하는 단일 통합 Transformer 아키텍처를 사용합니다. 텍스트와 이미지는 서로 다른 손실 함수를 사용합니다. 텍스트는 다음 토큰 예측을 사용하고 이미지는 확산을 사용합니다.

텍스트와 이미지를 동시에 처리하기 위해 이미지는 일련의 이미지 조각으로 변환됩니다. 이러한 방식으로 모델은 텍스트 태그와 이미지 조각을 동시에 순서대로 처리할 수 있으며, 특수 주의 마스크를 사용하면 모델이 이미지 내의 관계를 캡처할 수 있습니다.

카멜레온(이미지를 개별 마커로 변환한 다음 텍스트와 동일한 방식으로 처리)과 같은 Meta의 기존 방법과 달리 Transfusion은 이미지의 연속적인 표현을 유지하고 양자화로 인한 정보 손실을 방지합니다.

실험에 따르면 Fusion은 유사한 방법보다 더 효율적으로 확장할 수 있는 것으로 나타났습니다. 이미지 생성 측면에서는 특수 모델과 유사한 결과를 달성하지만 훨씬 적은 계산 노력으로 결과를 얻을 수 있으며, 놀랍게도 이미지 데이터를 통합하면 텍스트 처리 기능도 향상됩니다.

연구원들은 2조 개의 텍스트 및 이미지 태그에 대해 70억 개의 매개변수 모델을 훈련했습니다. 이 모델은 텍스트를 처리하는 동시에 이미지 생성에서 DALL-E 2와 같은 성숙한 시스템과 유사한 결과를 달성합니다.