알리바바, 터치 한 번이면 고양이가 돌아버리는 '마량펜 소라' 출시

알리바바는 터치 한 번으로 고양이가 돌아서게 만드는 '마량펜 소라'와 시연 영상 20개, 기술 보고서 10페이지를 공개했다.

2024-08-03

스마트한 것들(공개 계정:지드엑스컴）
작가 바닐라
편집하다 리 슈이칭

AI 영상 생성 분야는 호황을 누리고 있으며 국내외에서 Wensheng, Tusheng과 같은 참신한 영상 제품이 끊임없이 등장하고 있습니다. 주요 제조업체의 '혁신'으로 인해 현재의 비디오 세대 모델은 모든 측면에서 '가짜와 진짜'의 효과에 가깝습니다.

그러나 동시에 대부분의 비디오 생성 모델의 지침을 따르는 정확성과 능력은 여전히 개선될 필요가 있습니다. . 이는 과도한 컴퓨팅 파워 비용과 자원 낭비 등의 문제도 야기한다.

비디오 생성의 정확도를 높이고, "드로잉 카드" 수를 줄이고, 가능한 한 적은 리소스를 사용하여 요구에 맞는 비디오를 얻는 방법은 무엇입니까?

Zhidongxi는 8월 3일에 Alibaba 팀이 최근 출범했다고 보도했습니다.영상제작모델 토라, 을 기반으로 할 수 있습니다.트랙, 이미지, 텍스트또는 그 조합으로 단 몇 번의 스트로크만으로 정밀한 모션 제어 비디오를 빠르게 생성할 수 있으며,첫 번째 및 마지막 프레임 제어, 비디오 생성의 제어성을 다른 수준으로 끌어올립니다.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

토라는최초의 궤적 중심 DiT 프레임워크 모델, DiT의 확장성을 활용하여 Tora에서 생성된 객체 모션은 궤적을 정확하게 따를 수 있을 뿐만 아니라 물리적 세계의 역학을 효과적으로 시뮬레이션할 수 있습니다. 관련 논문은 8월 1일 arXiv에 게재되었습니다.

▲토라종이

Tora는 현재 비디오 데모만 제공하고 있으며, 프로젝트 홈페이지에는 향후 온라인 데모와 추론 및 훈련 코드를 출시할 예정이라고 나와 있습니다.

논문 주소:

https://arxiv.org/abs/2407.21705

프로젝트 주소:

https://ali-videoai.github.io/tora_video/

1. 모션 궤적을 정확하게 제어하기 위한 세 가지 모달 조합 입력

토라 지원트랙, 텍스트, 이미지세 가지 양식 또는 이들의 결합된 입력을 통해 다양한 지속 시간, 종횡비 및 해상도의 비디오 콘텐츠를 동적이고 정밀하게 제어할 수 있습니다.

궤적 입력은 방향을 갖는 다양한 직선과 곡선이 될 수 있으며, 서로 다른 방향의 여러 궤적을 결합할 수도 있습니다. 예를 들어 S자형 곡선을 사용하여 떠 있는 개체의 궤적을 제어하고 텍스트 설명을 사용하여 속도를 제어할 수 있습니다. 아래 영상에서 사용된 프롬프트 단어는 "느린", "우아한", "부드럽게"와 같은 부사를 사용합니다.

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

동일한 궤적이 축을 중심으로 반복적으로 움직일 수도 있어 앞뒤로 흔들리는 그림이 만들어질 수도 있습니다.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_뒤로 track.mp4

동일한 사진에 서로 다른 궤적을 그리면 Tora가 모션 방향이 다른 비디오를 생성할 수도 있습니다.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same picture.mp4

동일한 궤적 입력을 기반으로 Tora는 피사체 간의 차이에 따라 다양한 이동 모드를 생성합니다.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

기존의 일반적인 모션 브러시 기능과 다른 점은 입력 이미지가 없더라도 Tora는 궤적과 텍스트의 조합을 기반으로 해당 영상을 생성할 수 있다는 점입니다.

예를 들어 아래 동영상의 1번과 3번 동영상은 초기 프레임 없이 궤적과 텍스트만 생성된 것입니다.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora는 첫 번째와 마지막 프레임 제어도 지원하지만 이 경우는 논문에 그림으로만 등장하고 동영상 데모는 제공되지 않습니다.

▲Tora의 첫 프레임과 마지막 프레임 제어

그렇다면 텍스트와 이미지의 모달 입력이 2개만 있으면 동일한 효과를 얻을 수 있을까요? 이 질문을 염두에 두고 동일한 초기 프레임과 프롬프트 단어를 다른 AI 비디오 생성기에 공급해 보았습니다.

아래 동영상의 왼쪽에서 오른쪽, 위에서 아래로 Tora, Vidu, Qingying, Keling이 생성한 동영상입니다. 궤적이 직선인 경우 궤적 입력이 없는 비디오 생성은 요구 사항을 거의 충족하지 못하는 것을 볼 수 있습니다.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

그러나 필요한 모션 궤적이 곡선이 되면 기존의 텍스트 + 이미지 입력으로는 수요를 충족할 수 없습니다.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_꽃.mp4

2. 기준오픈소라프레임워크, 혁신적인 2개의 모션 처리 모듈

토라 입양오픈소라OpenSora는 기본 모델 DiT 아키텍처로서 AI 스타트업 Luchen Technology가 설계하고 오픈소스화한 비디오 생성 모델 프레임워크입니다.

DiT 기반 궤도 제어 비디오 생성을 달성하기 위해 Tora는 두 가지 새로운 모션 처리 모듈을 도입합니다.궤적 추출기（궤적 추출기）과모션 가이드 융합(Motion-guidance Fuser)는 제공된 궤적을 다단계 시공간 모션 패치로 인코딩하는 데 사용됩니다.

아래 그림은 Tora의 전반적인 아키텍처를 보여줍니다. 이 접근 방식은 DiT의 확장성과 일치하여 더 오래 지속되는 고해상도 모션 제어 비디오를 생성할 수 있습니다.

▲토라 전체 건축물

안에,궤적 추출기3D 모션 VAE(Variational Autoencoder)를 사용하여 궤적 벡터를 비디오 패치와 동일한 잠재 공간에 삽입하여 연속 프레임 간의 모션 정보를 효과적으로 유지할 수 있으며, 누적된 컨벌루션 레이어를 사용하여 계층적 모션 특징을 추출합니다.

모션 가이드 융합그런 다음 적응형 정규화 계층을 사용하여 이러한 다중 레벨 모션 조건을 해당 DiT 블록에 원활하게 입력하여 비디오 생성이 항상 정의된 궤적을 따르도록 보장합니다.

DiT 기반 비디오 생성을 궤적과 결합하기 위해 저자는 융합 아키텍처의 세 가지 변형을 탐색하여 각 STDiT 블록에 모션 패치를 삽입하고 Adaptive Norm이 최고의 성능을 보여주었습니다.

▲동작 유도 융합 장치의 세 가지 건축 설계

특정 훈련 과정에서 저자는 다양한 입력 조건에 대해 다양한 훈련 전략을 채택했습니다.

궤적 훈련에서 Tora는 궤적 학습을 위해 2단계 훈련 방법을 사용합니다. 첫 번째 단계는 훈련 비디오에서 조밀한 광학 흐름을 추출합니다. 두 번째 단계는 모션 분할 결과와 광학 흐름을 기반으로 광학 흐름에서 1~N개의 객체를 무작위로 선택합니다. 점수는 가우시안 필터를 적용하여 최종적으로 정제됩니다.

이미지 훈련에서 Tora는 시각적 조정을 지원하기 위해 OpenSora에서 채택한 마스킹 전략을 따릅니다. 프레임은 훈련 과정에서 무작위로 잠금 해제됩니다. 마스크되지 않은 프레임의 비디오 패치는 노이즈의 영향을 받지 않으므로 Tora는 노이즈 없이 텍스트, 이미지 및 궤적을 통합할 수 있습니다. 소음은 통합 모델에 완벽하게 통합됩니다.

고급 모션 제어 가능 비디오 생성 모델과 정량적으로 비교할 때 Tora는 생성된 프레임 수가 증가함에 따라 UNet 기반 방법에 비해 성능 이점이 증가하여 더 높은 궤적 제어 안정성을 유지합니다.

▲Tora와 기타 제어 가능한 비디오 생성 모델 비교

예를 들어, 동일한 입력을 기반으로 Tora에서 생성된 비디오는 DragNUWA 및 MotionCtrl 모델에서 생성된 비디오보다 부드럽고 모션 궤적을 더 정확하게 따릅니다.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_비교 영상.mp4

3. “미래”가 실현되었으며 알리바바는 계속해서 계획을 세우고 있습니다.일체 포함동영상

AI 영상 세대 플레이어들이 본격화하고 있으며 알리바바는 지속적으로 AI 영상 트랙을 포위하고 있다. 비디오 생성 길이와 품질에 중점을 두는 Sora 및 기타 일반 모델과 비교할 때 Alibaba 팀의 프로젝트는 다양한 비디오 생성 형식에 알고리즘을 구체적으로 적용하는 데 더 중점을 두는 것으로 보입니다.

올해 1월 Tongyi Qianwen은 '국가 무용왕'을 출시했고, 2월에는 '병마용과 말춤 주제 3'으로 유명해졌으며, Alibaba는 사진 속 사람들을 등장시킬 수 있는 인물 사진 생성 프레임워크 EMO를 출시했습니다. 사진 한 장으로 말이에요.

당시 Zhidongzhi는 AI 비디오에서 Alibaba의 레이아웃을 계산하여 Vincent 비디오, Tusheng 비디오, 캐릭터 댄스, 인물 대화 등을 다루는 4개월 동안 최소 7개의 새로운 프로젝트를 시작했음을 발견했습니다. (국내 신급 AI 등장! 가오치창은 뤄샹으로 변신하고, 차이서쿤은 랩왕이 되어 소라와 인연을 맺는다)

이제 반년이 지난 지금, EMO는 누구나 이용할 수 있는 Tongyi 앱에서 '미래' 기능에서 '전국 노래와 공연' 기능으로 변모했습니다. 알리바바는 또한 더 많은 AI 비디오 프로젝트를 출시했습니다.

1、아토모비디오: 고화질 이미지-비디오 생성

AtomoVideo는 3월 5일에 출시되었습니다. 이는 다중 입도 이미지 주입과 고품질 데이터 세트 및 학습 전략을 기반으로 생성된 비디오와 주어진 참조 이미지 간의 높은 충실도를 유지할 수 있는 고품질 Tusheng 비디오 프레임워크입니다. 풍부한 운동 강도와 좋은 타이밍 일관성을 달성합니다.

▲AtomoVideo는 비디오 효과를 생성합니다.

프로젝트 홈페이지:https://atomo-video.github.io/

2、EasyAnimate-v3:단일 이미지+텍스트에서 고해상도 긴 비디오 생성

EasyAnimate는 Alibaba가 4월 12일에 출시한 비디오 생성 처리 프로세스로 단 3개월 만에 v3 버전으로 반복되었습니다. DiT 프레임워크를 확장하여 모션 모듈을 도입하여 시간적 역학을 캡처하는 기능을 향상시키고 생성된 비디오의 부드러움과 일관성을 보장하며 다양한 해상도와 24fps의 프레임 속도로 약 6초 길이의 비디오를 생성할 수 있습니다.

▲EasyAnimate v3는 비디오 효과를 생성합니다.

프로젝트 홈페이지:https://github.com/aigc-apps/EasyAnimate

결론:일체 포함이제 비디오 생성을 더욱 효과적으로 제어할 수 있습니다.

AI 비디오 생성의 길이와 품질이 특정 수준에 도달하면 생성된 비디오를 보다 쉽게 제어할 수 있고 필요에 맞게 만드는 방법이 현재 중요한 제안입니다.

정확성, 제어 가능성 및 리소스 활용 효율성의 지속적인 최적화를 통해 AI 비디오 생성 제품 사용 경험은 새로운 단계를 열 것이며 가격도 더욱 저렴해져서 더 많은 창작자가 참여할 수 있게 될 것입니다.

소식

알리바바는 터치 한 번으로 고양이가 돌아서게 만드는 '마량펜 소라'와 시연 영상 20개, 기술 보고서 10페이지를 공개했다.

소개

내 연락처 정보

소식

알리바바는 터치 한 번으로 고양이가 돌아서게 만드는 '마량펜 소라'와 시연 영상 20개, 기술 보고서 ​​10페이지를 공개했다.

소개

내 연락처 정보

알리바바는 터치 한 번으로 고양이가 돌아서게 만드는 '마량펜 소라'와 시연 영상 20개, 기술 보고서 10페이지를 공개했다.