소식

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

편집자: Panda W

현재 차세대 토큰 예측 패러다임을 사용하는 자동회귀 대규모 언어 모델은 전 세계적으로 인기를 얻고 있으며 동시에 인터넷의 수많은 합성 이미지와 비디오는 이미 확산 모델의 힘을 보여주었습니다.

최근 MIT CSAIL 연구팀(그 중 한 명은 MIT 박사과정 학생인 Chen Boyuan)이 전체 시퀀스 확산 모델과 차세대 토큰 모델의 강력한 기능을 성공적으로 통합하고 훈련 및 샘플링 패러다임인 확산 강제(Diffusion Forcing)를 제안했습니다. DF).



  • 논문 제목: 확산 강제: 다음 토큰 예측과 전체 시퀀스 확산의 만남
  • 논문 주소: https://arxiv.org/pdf/2407.01392
  • 프로젝트 웹사이트: https://boyuan.space/diffusion-forcing
  • 코드 주소: https://github.com/buoyancy99/diffusion-forcing

아래에 표시된 것처럼 확산 강제는 일관성과 안정성 측면에서 전체 시퀀스 확산과 교사 강제보다 훨씬 뛰어난 성능을 발휘합니다.



이 프레임워크에서 각 토큰은 임의의 독립적인 노이즈 수준과 연관되어 있으며, 공유된 다음 토큰 예측 모델 또는 다음 토큰 예측 모델은 노이즈 제거를 위한 임의의 독립적인 토큰별 토큰에 따라 사용될 수 있습니다.

이 방법은 토큰에 노이즈를 추가하는 프로세스가 부분 마스킹의 한 형태라는 관찰에서 영감을 얻었습니다. 노이즈가 0이면 토큰이 마스크되지 않았음을 의미하고 완전한 노이즈는 토큰을 완전히 마스킹합니다. 따라서 DF는 모델이 노이즈가 있는 토큰의 변수 세트를 제거하는 마스크를 학습하도록 합니다(그림 2).



동시에, 예측 방법을 여러 다음 토큰 예측 모델의 조합으로 매개변수화함으로써 시스템은 서로 다른 길이의 시퀀스를 유연하게 생성하고 조합 방식으로 새로운 궤적을 일반화할 수 있습니다(그림 1).



팀은 시퀀스 생성을 위해 CDF(인과 확산 강제)로 DF를 구현했습니다. 여기서 미래 토큰은 인과 아키텍처를 통해 과거 토큰에 의존합니다. 그들은 시퀀스의 모든 토큰을 한 번에 제거하도록 모델을 훈련했습니다(각 토큰은 독립적인 노이즈 수준을 가짐).

샘플링하는 동안 CDF는 일련의 가우스 잡음 프레임을 깨끗한 샘플로 점차적으로 잡음을 제거합니다. 여기서 서로 다른 프레임은 각 잡음 제거 단계에서 서로 다른 잡음 수준을 가질 수 있습니다. 다음 토큰 예측 모델과 유사하게 CDF는 가변 길이의 시퀀스를 생성할 수 있습니다. 다음 토큰 예측과 달리 CDF의 성능은 다음 토큰, 미래의 수천 개의 토큰 또는 연속 토큰을 예측하든 매우 안정적입니다.

또한, 전체 시퀀스 확산과 유사하게 지침을 받을 수도 있어 높은 보상 생성이 가능합니다. 인과 관계, 유연한 범위 및 가변 노이즈 스케줄링을 공동으로 활용함으로써 CDF는 MCTG(Monte Carlo Tree Guidance)라는 새로운 기능을 지원합니다. 비인과적 전체 시퀀스 확산 모델과 비교하여 MCTG는 높은 보상 생성의 샘플링 속도를 크게 향상시킬 수 있습니다. 그림 1은 이러한 기능에 대한 개요를 제공합니다.











실험

팀은 비디오 및 시계열 예측, 계획 및 모방 학습을 포함한 다양한 응용 분야에서 생성 시퀀스 모델로서 확산 강제의 장점을 평가했습니다.

비디오 예측: 일관되고 안정적인 시퀀스 생성 및 무한 확장

비디오 생성 모델링 작업을 위해 그들은 Minecraft 게임 비디오 및 DMLab 탐색을 기반으로 인과 확산을 위한 컨벌루션 RNN 구현을 훈련했습니다.

그림 3은 기준선 대비 확산강제력의 정성적 결과를 보여줍니다.



확산 강제는 훈련 범위를 넘어서도 안정적으로 확장될 수 있는 반면 교사 강제 및 전체 시퀀스 확산 벤치마크는 빠르게 분기되는 것을 볼 수 있습니다.

확산 계획: MCTG, 원인 불확실성, 유연한 범위 제어

강압을 분산시키는 능력은 의사결정에 독특한 이점을 제공합니다. 팀은 표준 오프라인 강화 학습 프레임워크인 D4RL을 사용하여 새로 제안된 의사 결정 프레임워크를 평가했습니다.



정성적, 정량적 평가 결과를 Table 1에 나타내었다. 볼 수 있듯이 확산 강제는 6개 환경 모두에서 Diffuser 및 모든 기준선보다 성능이 뛰어납니다.

제어 가능한 시퀀스 조합 생성

팀은 단순히 샘플링 방식을 수정함으로써 훈련 시간에 관찰된 시퀀스의 하위 시퀀스를 유연하게 결합할 수 있음을 발견했습니다.

그들은 2D 궤적 데이터세트를 사용하여 실험을 수행했습니다. 정사각형 평면에서 모든 궤적은 한 모서리에서 시작하여 반대쪽 모서리에서 끝나 일종의 십자 모양을 형성합니다.

위의 그림 1에서 볼 수 있듯이 조합 동작이 필요하지 않은 경우 DF는 완전한 메모리를 유지하고 십자형 분포를 복제하도록 허용할 수 있습니다. 조합이 필요한 경우 MPC를 사용하여 메모리 없이 더 짧은 계획을 생성하는 데 모델을 사용할 수 있으며, 이를 통해 십자형 하위 궤적을 연결하여 V자형 궤적을 얻을 수 있습니다.

로봇 공학: 장거리 모방 학습 및 강력한 시각 운동 제어

확산 강제는 또한 실제 로봇의 시각적 모션 제어를 위한 새로운 기회를 제공합니다.

모방 학습은 전문가가 관찰한 행동의 매핑을 학습하는 일반적으로 사용되는 로봇 조작 기술입니다. 그러나 기억력 부족으로 인해 장거리 작업에 대한 모방 학습이 어려운 경우가 많습니다. DF는 이러한 단점을 완화할 수 있을 뿐만 아니라 모방 학습을 더욱 강력하게 만듭니다.

모방 학습을 위해 기억을 활용합니다. Franka 로봇을 원격으로 제어하여 팀은 비디오 및 모션 데이터 세트를 수집했습니다. 그림 4에서 볼 수 있듯이 작업은 세 번째 위치를 사용하여 사과와 오렌지의 위치를 ​​교환하는 것입니다. 과일의 초기 위치는 무작위이므로 두 가지 가능한 목표 상태가 있습니다.



또한 세 번째 위치에 과일이 있는 경우 현재 관찰에서 원하는 결과를 추론할 수 없습니다. 정책은 이동할 과일을 결정하기 위해 초기 구성을 기억해야 합니다. 일반적으로 사용되는 행동 복제 방법과 달리 DF는 자연스럽게 메모리를 자체 숨겨진 상태로 통합할 수 있습니다. DF는 80%의 성공률을 달성할 수 있는 반면 확산 전략(현재 최고의 메모리리스 모방 학습 알고리즘)은 실패하는 것으로 나타났습니다.

또한 DF는 소음에 더욱 강력하고 로봇 사전 훈련을 용이하게 할 수 있습니다.

시계열 예측: 확산강제력은 탁월한 일반 시퀀스 모델입니다.

다변량 시계열 예측 작업의 경우 팀의 연구에 따르면 DF는 이전 확산 모델 및 Transformer 기반 모델과 유사합니다.

보다 자세한 기술적 내용과 실험 결과는 원본 논문을 참조하시기 바랍니다.