Zhipu 오픈 소스 Qingying CogVideoX 2B 모델, 단일 RTX 4090을 추론에 사용할 수 있습니다.

2024-08-06

글쓴이│대형모바일그룹
이메일｜ [email protected]

대규모 모델 기술의 지속적인 발전으로 영상 생성 기술은 점차 성숙해지고 있습니다. Sora, Gen-3 등 비공개 소스 비디오 생성 모델로 대표되는 기술은 업계의 미래 환경을 재정의하고 있습니다. 그러나 아직까지는 상용 수준 애플리케이션의 요구 사항을 충족할 수 있는 오픈 소스 비디오 생성 모델이 없습니다.

"첨단 기술로 글로벌 개발자에게 서비스 제공"이라는 개념을 고수하는 Zhipu AI는 모든 개발자와 모든 기업이 자유롭게 개발할 수 있기를 바라며 "Qingying"과 동일한 기원을 가진 비디오 생성 모델인 CogVideoX를 오픈 소스로 공개할 것이라고 발표했습니다. 전체 산업의 신속한 반복과 혁신적인 발전을 촉진하는 자체 비디오 생성 모델입니다.

Cog Video Perform 추론 및 미세 조정은 단일 A6000 그래픽 카드로 수행할 수 있습니다.

CogVideoX-2B의 프롬프트 단어 상한은 226개 토큰, 비디오 길이는 6초, 프레임 속도는 8프레임/초, 비디오 해상도는 720*480입니다. 우리는 비디오 품질 향상을 위해 폭넓은 공간을 확보해 왔으며 신속한 단어 최적화, 비디오 길이, 프레임 속도, 해상도, 장면 미세 조정 및 비디오를 둘러싼 다양한 기능 개발에 대한 개발자의 오픈 소스 기여를 기대합니다.

더 강력한 성능과 더 큰 매개변수를 갖춘 모델이 곧 출시될 예정이니 계속 지켜봐주시고 기대해 주세요.

코드 저장소:
https://github.com/THUDM/CogVideo

모델 다운로드:
https://huggingface.co/THUDM/CogVideoX-2b

기술 보고서: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

모델

VAE：

영상 데이터는 공간적, 시간적 정보를 담고 있기 때문에 영상 데이터에 비해 데이터 양과 연산 부담이 훨씬 크다. 이러한 문제를 해결하기 위해 우리는 3D VAE(3D Variational Autoencoder) 기반의 비디오 압축 방법을 제안합니다. 3D VAE는 3차원 컨볼루션을 통해 비디오의 공간적 차원과 시간적 차원을 동시에 압축하여 더 높은 압축률과 더 나은 재구성 품질을 달성합니다.

모델 구조에는 인코더, 디코더, 잠재 공간 정규화 장치가 포함되어 있으며 압축은 다운샘플링과 업샘플링의 4단계를 통해 이루어집니다. 시간적 인과 컨볼루션은 정보의 인과성을 보장하고 통신 오버헤드를 줄입니다. 우리는 대규모 비디오 처리를 수용하기 위해 상황별 병렬 처리 기술을 사용합니다. 실험에서 우리는 고해상도 인코딩이 일반화하기 쉽지만 프레임 수를 늘리는 것이 더 어렵다는 것을 발견했습니다. 따라서 우리는 두 단계로 모델을 훈련합니다. 먼저 낮은 프레임 속도와 미니 배치로 모델을 훈련한 다음 상황별 병렬성을 통해 더 높은 프레임 속도로 미세 조정합니다. 훈련 손실 함수는 3D 판별기의 L2 손실, LPIPS 지각 손실 및 GAN 손실을 결합합니다.

전문가변압기

우리는 VAE의 인코더를 사용하여 비디오를 잠재 공간으로 압축한 다음 잠재 공간을 블록으로 분할하고 긴 시퀀스 임베딩 z_vision으로 확장합니다. 동시에 T5를 사용하여 텍스트 입력을 z_text를 포함하는 텍스트로 인코딩한 다음 시퀀스 차원을 따라 z_text와 z_vision을 연결합니다. 접합된 임베딩은 처리를 위해 전문 Transformer 블록 스택에 공급됩니다. 마지막으로, 원래의 잠재 공간 모양을 복구하기 위해 임베딩을 백스티치하고 VAE를 사용하여 디코딩하여 비디오를 재구성합니다.

데이터

비디오 생성 모델 교육에서는 실제 역학을 학습하기 위해 고품질 비디오 데이터를 선별해야 합니다. 사람의 편집이나 촬영 문제로 인해 영상이 정확하지 않을 수 있습니다. 우리는 과도하게 편집되고, 모션이 고르지 않고, 품질이 낮고, 강의 스타일이고, 텍스트가 지배적이며, 화면 소음이 많은 비디오와 같은 품질이 낮은 비디오를 식별하고 제외하기 위해 네거티브 라벨을 개발했습니다. 우리는 video-llama에 대해 훈련된 필터를 사용하여 20,000개의 비디오 데이터 포인트에 주석을 달고 필터링했습니다. 동시에 광학 흐름 및 미적 점수가 계산되고 임계값이 동적으로 조정되어 생성된 비디오의 품질을 보장합니다.

비디오 데이터에는 일반적으로 텍스트 설명이 없으며 텍스트-비디오 모델 교육을 위해 텍스트 설명으로 변환해야 합니다. 기존 비디오 자막 데이터 세트에는 짧은 자막이 있어 비디오 콘텐츠를 완전히 설명할 수 없습니다. 우리는 이미지 자막에서 비디오 자막을 생성하고 더 조밀한 자막을 얻기 위해 엔드투엔드 비디오 자막 모델을 미세 조정하는 파이프라인을 제안합니다. 이 방법은 Panda70M 모델을 통해 짧은 자막을 생성하고, CogView3 모델을 사용하여 조밀한 이미지 자막을 생성한 후, GPT-4 모델을 사용하여 요약하여 최종 짧은 영상을 생성하는 방법입니다. 또한 비디오 자막 생성 프로세스를 가속화하기 위해 밀도가 높은 자막 데이터를 사용하여 훈련된 CogVLM2-Video 및 Llama 3을 기반으로 CogVLM2-Caption 모델을 미세 조정했습니다.

성능

텍스트-비디오 생성 품질을 평가하기 위해 우리는 VBench에서 인간의 행동, 장면, 역학 등과 같은 다양한 측정항목을 사용합니다. 또한 비디오의 동적 특성에 초점을 맞춘 Devil의 Dynamic Quality와 Chrono-Magic의 GPT4o-MT Score라는 두 가지 추가 비디오 평가 도구를 사용했습니다. 아래 표와 같습니다.

앞으로는 데이터 규모와 모델 규모를 지속적으로 확장하면서 더욱 획기적인 혁신을 갖춘 새로운 모델 아키텍처를 탐색하고, 영상 정보를 보다 효율적으로 압축하고, 보다 완벽하게 통합할 예정입니다. . 텍스트 및 비디오 콘텐츠.

데모

정교하게 조각된 돛대와 돛이 달린 정교한 나무 장난감 배가 바다의 파도를 모방한 호화로운 푸른 카펫 위를 매끄럽게 미끄러지듯 움직이는 모습이 보입니다. 배의 선체는 진한 갈색으로 칠해져 있고 작은 창문이 있습니다. 부드럽고 질감이 있는 카펫은 바다의 광활함을 닮은 완벽한 배경을 제공합니다. 배 주변에는 다양한 다른 장난감과 어린이용 품목이 있어 장난기 있는 환경을 암시합니다. 이 장면은 어린 시절의 순수함과 상상력을 포착하며, 장난감 배의 여정은 기발한 실내 환경에서 끝없는 모험을 상징합니다.

카메라는 가파른 산비탈에 소나무로 둘러싸인 가파른 비포장 도로를 질주하는 검은색 루프 랙이 달린 흰색 빈티지 SUV 뒤를 따라갑니다. 타이어에서 먼지가 일어나고, 햇빛이 비포장 도로를 따라 질주하는 SUV에 비춰져 장면에 따뜻한 빛을 비춥니다. 비포장 도로는 멀리까지 완만하게 휘어져 있으며, 다른 차나 차량은 보이지 않습니다. 도로 양쪽의 나무는 레드우드이고, 곳곳에 푸른 나무가 흩어져 있습니다. 차가 뒤에서 커브를 따라 쉽게 보이면서, 험난한 지형을 거친 힘든 운전을 하는 것처럼 보입니다. 비포장 도로 자체는 가파른 언덕과 산으로 둘러싸여 있으며, 그 위로는 맑고 푸른 하늘과 희미한 구름이 있습니다.

전쟁으로 파괴된 도시의 잊혀지지 않는 배경에서, 폐허와 무너진 벽이 파괴의 이야기를 들려주는 가운데, 어린 소녀를 가슴 아픈 클로즈업이 포착합니다. 그녀의 얼굴은 재로 얼룩져 있고, 그녀 주변의 혼란에 대한 침묵의 증거입니다. 그녀의 눈은 슬픔과 회복력이 뒤섞인 빛으로, 갈등의 파괴로 순수함을 잃은 세상의 생생한 감정을 포착합니다.

스테인드 글라스와 비슷한 날개를 가진 나비 한 마리가 꽃밭을 날아다닙니다. 이 장면은 섬세한 날개를 통과하는 빛을 포착하여 생생하고 다채로운 디스플레이를 만들어냅니다. HD.

눈 덮인 숲 풍경과 그 사이로 지나가는 비포장 도로. 도로는 눈으로 덮인 나무들로 둘러싸여 있고, 땅도 눈으로 덮여 있습니다. 태양이 빛나 밝고 고요한 분위기를 조성합니다. 도로는 비어 있는 것처럼 보이고, 영상에는 사람이나 동물이 보이지 않습니다. 영상의 스타일은 눈 덮인 숲의 아름다움과 도로의 평화로움에 초점을 맞춘 자연 풍경 촬영입니다.

불꽃이 있는 바비큐에서 구운 닭고기와 그린 페퍼 케밥의 극단적인 클로즈업. 얕은 초점과 가벼운 연기. 생생한 색상

""를 클릭하고 이동하세요.

소식

Zhipu 오픈 소스 Qingying CogVideoX 2B 모델, 단일 RTX 4090을 추론에 사용할 수 있습니다.

소개

내 연락처 정보