소식

영상 상황별 학습! 대형 모델은 MSRA로부터 "고양이 흉내를 내고 호랑이를 그리는 방법"을 배웁니다.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Vid-ICL 팀 제공
Qubits 공개 계정 QbitAI

비디오 생성이 "컨텍스트"를 참조할 수도 있나요? !

MSRA가 제안하는비디오 맥락 학습(Video In-Context Learning, Vid-ICL), 대형 모델이 "고양이를 모방하고 호랑이를 그리는" 스타일을 학습하도록 합니다.모방 세대

Vid-ICL은 샘플 비디오를 사용하여 새로운 시나리오에서 모델 생성을 안내하므로 생성된 결과는 새로운 시나리오의 샘플 비디오에서 완료된 작업을 "모방"할 수 있습니다.

예를 들어 샘플 비디오 카메라의 원근은 아래쪽(왼쪽)으로 이동하고 생성된 비디오도 원근을 아래로(오른쪽) 이동합니다.



샘플 비디오 객체는 위쪽(왼쪽)으로 이동하고 생성된 비디오도 위쪽(오른쪽)으로 이동합니다.



물체 잡기도 시뮬레이션할 수 있습니다.



△왼쪽: 로봇 팔이 물체를 잡는 예시 영상, 오른쪽: 생성된 영상

예시와 같이 서랍을 열 수도 있습니다.



△왼쪽: 샘플 비디오, 중간 서랍 열기, 오른쪽: 비디오 생성

동일한 선풍기 시나리오에서 다양한 예제 비디오를 사용하여 모델이 다음과 같은 효과를 생성하도록 안내합니다.



△왼쪽: 샘플 비디오, 왼쪽으로 이동한 카메라, 오른쪽: 생성된 비디오



△왼쪽: 샘플 영상, 오른쪽으로 이동한 카메라, 생성된 영상

이상적인 세계 모델에서는 모델과 외부 환경 간의 상호 작용이 다양해야 함을 알아야 합니다.대부분의 기존 작업은 다음을 사용하는 데 중점을 둡니다.주요 상호 작용 모드인 텍스트, 이는 생성된 결과의 세부사항과 다양성을 제어하기 어렵게 만듭니다.

그리고비디오는 매우 구체적이고 보편적입니다., 물체를 옮기거나 잡는 등 다양한 작업을 완료하는 예와 같은 광범위한 정보를 전달할 수 있습니다.

연구팀이 제안한 Vid-ICL 방식은 언어와 이미지에 대한 대안을 제시한다.새로운 인터페이스, 모델과 현실 세계 간의 상호 작용을 더욱 다양하게 만듭니다.



위에 보여드린 생성된 영상 외에도,Vid-ICL은 에뮬레이터와 결합할 수도 있습니다., 생성된 비디오와 현재 상태를 사용하여 환경과의 올바른 상호 작용을 위한 해당 동작을 예측합니다.실제 환경과의 상호작용 실현

아래 그림은 실제 환경과 상호 작용하는 Vid-ICL을 보여줍니다. t=0의 상태에서 시작하여 RoboDesk 시뮬레이터와 상호 작용하여 "Push_red" 작업을 완료합니다. Vid-ICL은 환경 상호 작용에 대한 보다 정확한 제어를 제공합니다.



착한놈 영화 '철갑옷'이 현실이 됐다.

Vid-ICL은 정확히 어떻게 작동하나요?

Vid-ICL 프레임워크 해석

Vid-ICL은 비디오를 기본 단위로 작동합니다.

특히 쿼리 비디오 클립과 k개의 예제 비디오 클립이 주어지면 Vid-ICL의 목표는 먼저 쿼리 비디오 클립을 생성하는 것입니다.쿼리 비디오 클립으로 지각적 일관성 유지동시에 의미론적으로(카메라 움직임, 액션 등)위 내용은 예시 영상과 일치합니다.



  • 자기회귀 모델 훈련

Vid-ICL은 Transformer를 모델 구조로 사용합니다.

대규모 텍스트 모델의 기본 아키텍처인 Transformer는 언어 컨텍스트 추론 및 생성 작업에서 강력한 기능을 입증했습니다. 시각적 정보의 Generative Transformer 훈련은 두 단계로 구성됩니다.

먼저 VQ-VAE와 같은 시각적 인코더를 훈련하여 각 이미지를 개별 토큰으로 변환합니다.

둘째, 각 훈련 샘플은 토큰 시퀀스로 구성되며 Transformer 디코더의 목표는 이 토큰 시퀀스를 복구하는 것입니다.

구체적인 구현 측면에서 Vid-ICL은라마 아키텍처 사용,사용RMS표준 정규화그리고회전 위치 임베딩 (RoPE), 자동 회귀 방식으로 Transformer 디코더를 훈련시킵니다. 훈련 단계에서 각 시퀀스는 다른 비디오의 비디오 클립을 연결하지 않고 원시 비디오에서 샘플링됩니다.

  • 제로 샘플 기능

연구팀은 이 기사에서 다음과 같은 중요한 사실을 확인했습니다.

모델은 명시적인 컨텍스트 형식 없이 비디오 데이터에서 시작할 수 있습니다.연속된 비디오 클립을 통해 자발적으로 학습된 상황별 추론 능력즉, 비디오 맥락 내 학습을 위한 "제로 샘플 기능"입니다.

이는 두 가지 주요 요인에 기인할 수 있습니다. 첫째, 각 비디오 프레임 사이에 특수 구분 기호가 삽입되지 않으므로 모델은 훈련 중에 연속 비디오 시퀀스를 예제 비디오 + 쿼리 비디오로 암시적으로 처리할 수 있습니다. 이는 모델이 유사한 예제 쿼리 구조의 시퀀스를 처리하는 방법을 학습했음을 의미합니다.

둘째, Transformer의 자동회귀 특성을 통해 단일 장면의 비디오 시퀀스 예측 기능을 다른 비디오에서 예제와 쿼리가 나오는 장면으로 확장하고 텍스트 컨텍스트 학습의 패러다임을 비디오 컨텍스트 학습으로 원활하게 일반화할 수 있습니다.

  • 다른 양식 통합

Vid-ICL은 예를 들어 비디오에 초점을 맞추고 있지만 텍스트와 같은 다른 형식으로 확장될 수 있습니다.

이를 위해서는 사전 훈련된 언어 모델을 통해 원본 텍스트 설명을 잠재 표현으로 변환한 다음 Transformer를 학습하고 상황적 추론을 수행할 때 이 잠재 표현을 접두어로 사용하여 Transformer의 잠재 공간에 정렬하면 됩니다. 프로젝션 레이어를 통해

실험에 따르면 Vid-ICL은예시로 텍스트와 영상을 모두 받을 수 있습니다., 텍스트를 추가하면 생성된 결과의 품질이 더욱 향상될 수 있습니다.

  • 데이터 및 모델 크기

Vid-ICL은 예제 비디오에 포함된 의미 정보를 학습하고 생성을 위해 이를 새로운 장면으로 마이그레이션할 수 있음을 알 수 있습니다. 이를 위해서는 훈련 데이터가 주로 명확한 인과 관계와 강력한 상호작용성을 갖춘 비디오를 포함해야 합니다.

따라서 연구원들은 Ego4d와 Kinetics-600이라는 두 가지 데이터 세트를 주요 훈련 데이터 소스로 선택했습니다.

또한 비디오 콘텐츠의 다양성을 높이기 위해 Webvid의 데이터 중 일부도 훈련 세트에 추가됩니다.

또한, 인터넷 동영상에 포함된 의미 정보가 상대적으로 모호하고 다양하기 때문에 단순히 인터넷 동영상을 추가하는 것만으로도 데이터 크기가 증가할 수 있음을 확인했습니다.모델의 상황별 성능을 향상시키는 데 도움이 되지 않습니다.

모델 크기 측면에서 팀은 300M, 700M, 1.1B 세 가지 크기의 모델을 훈련했으며, 모델에서 생성된 비디오의 품질과 상황별 성능이 스케일링 법칙을 따르는 것을 확인했습니다.

실험 결과

Vid-ICL은 주로 통과동일한 쿼리 비디오에 대해 서로 다른 의미를 갖는 샘플 비디오 제공, 비디오 맥락 학습의 효율성과 정확성을 평가합니다.

예를 들어, 물체를 왼쪽으로 움직이는 쿼리 영상의 경우, 왼쪽으로 움직이는 영상, 무작위로 움직이는 영상, 반대 방향으로 움직이는 영상을 예시하여 서로 다른 영상을 생성하고, 생성된 결과에 대한 평가에 활용할 수 있습니다. 모델이 실제로 관련 동영상을 생성했는지 확인합니다.

정성적 결과 측면에서 아래 그림은 다양한 예시 동영상 아래에 생성된 동영상을 보여줍니다. (더 많은 예시를 보려면 논문 원문을 참조하세요.)

다음과 같이 관찰할 수 있습니다.

1)단일 비디오 생성품질면에서 Vid-ICL은 생성된 비디오와 쿼리 비디오의 일관성을 유지하며 둘 다 좋은 생성 품질을 가지고 있습니다.

2)생성된 비디오와 예제 비디오 간의 의미적 일관성, 생성된 비디오는 모두 예제 비디오의 프로세스를 따르는 것을 볼 수 있으며, 이는 Vid-ICL이 예제 비디오의 의미 정보를 자발적으로 획득하고 해당 비디오를 생성하는 능력을 가지고 있음을 보여줍니다.

아래 그림과 같이 동일한 쿼리 비디오 클립에 대해 Vid-ICL은 예제 비디오의 렌즈 움직임에 따라 생성된 비디오를 적절하게 이동하도록 선택합니다.



정량적 결과 측면에서 연구팀은 두 가지 측면에서 자동 평가 지표를 제안했다.

1)비디오 품질반면에 PSNR, FID 등과 같은 전통적인 시각적 작업의 픽셀 일치 또는 분포를 기반으로 하는 표시기가 사용됩니다.

2)의미론적 일관성위에서는 분류 정확도를 기반으로 하는 두 가지 지표인 비디오 분류 정확도와 프로브 분류 정확도가 사용됩니다.

다양한 지표에서 Vid-ICL은 기본 모델보다 더 나은 결과를 보여줍니다. 유사한 예제 비디오의 지침에 따라 Vid-ICL이 보다 현실적이고 의미론적으로 일관된 비디오를 생성한다는 것을 알 수 있습니다.



자세한 내용은 원본 논문을 참조하시기 바랍니다.

프로젝트 홈페이지: https://aka.ms/vid-icl
논문 링크: https://arxiv.org/abs/2407.0735