소식

소라 국내버전이 오픈소스로 공개되었습니다!추론은 18G에 최적화되어 있으며 4090 단일 카드를 실행할 수 있습니다.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
작성자ZeR0
편집자 모 잉

Zhidongxi는 8월 6일에 Zhipu AI의 비디오 생성 모델 CogVideoX-2B가 어젯밤 공식적으로 오픈 소스화되었다는 좋은 소식을 보도했습니다.

모델은 GitHub 및 Hugging Face에 게시되었습니다. FP16 정확도의 추론에는 18GB의 비디오 메모리만 필요한 반면, 미세 조정에는 단일 4090 그래픽 카드를 사용할 수 있으며 단일 A6000을 미세 조정에 사용할 수 있습니다. 동조.


CogVideoX-2B의 프롬프트 단어 상한은 226개 토큰, 비디오 길이는 6초, 프레임 속도는 8프레임/초, 비디오 해상도는 720*480입니다.


CogVideoX 시리즈 오픈 소스 모델은 Zhipu AI의 상용 비디오 생성 모델 "Qingying"과 동일한 기원을 가지고 있습니다. 2B 버전이 출시된 후 향후 더 강력한 성능과 더 큰 매개변수를 갖춘 오픈 소스 모델이 출시될 예정입니다.

코드 저장소:https://github.com/THUDM/CogVideo
모델 다운로드:https://huggingface.co/THUDM/CogVideoX-2b
기술 보고서:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

논문에 따르면 CogVideoX는 레이더 차트에서 다른 여러 비디오 생성 모델보다 크며 속성 값이 육각형에 접근합니다.


Vincent의 비디오 품질을 평가하기 위해 Zhipu AI는 인간의 움직임, 장면, 역학 등과 같은 VBench의 여러 지표를 사용하며 Devil의 Dynamic Quality와 Chrono-Magic GPT4o-MT라는 두 가지 추가 비디오 평가 도구도 사용합니다. Score, 이러한 도구는 비디오의 동적 특성에 중점을 둡니다. 아래 표에서 볼 수 있듯이 CogVideoX는 여러 지표에서 선두를 달리고 있습니다.


인간의 시각 장애인 평가에서 CogVideoX는 5개 지표 모두에서 Kuaishou Keling보다 높은 점수를 받았습니다.


GitHub 페이지에는 CogVideoX-2B에서 생성된 여러 비디오 작품이 표시됩니다.


▲표시 설명: 정교하게 조각된 돛대와 돛이 달린 정교한 나무 장난감 배가 바다의 파도를 모방한 플러시 블루 카펫 위를 매끄럽게 미끄러지는 모습이 보입니다. 배의 선체는 진한 갈색으로 칠해져 있고 작은 창문이 있습니다. 부드럽고 질감이 있는 카펫은 바다의 광활함을 닮은 완벽한 배경을 제공합니다. 배 주변에는 다양한 다른 장난감과 어린이용 품목이 있어 장난기 있는 환경을 암시합니다. 이 장면은 어린 시절의 순수함과 상상력을 포착하며, 장난감 배의 여정은 기발한 실내 환경에서 끝없는 모험을 상징합니다.


▲표시 설명: 카메라는 가파른 산비탈에 소나무로 둘러싸인 가파른 비포장 도로를 질주하는 검은색 루프 랙이 달린 흰색 빈티지 SUV 뒤를 따라갑니다. 타이어에서 먼지가 일어나고, 햇빛이 비포장 도로를 따라 질주하는 SUV를 비추며 장면에 따뜻한 빛을 비춥니다. 비포장 도로는 멀리까지 완만하게 휘어져 있으며, 다른 차나 차량은 보이지 않습니다. 도로 양쪽의 나무는 레드우드이고, 곳곳에 푸른 나무가 흩어져 있습니다. 차가 뒤에서 커브를 따라 쉽게 보이면서, 험난한 지형을 거친 주행을 하는 것처럼 보입니다. 비포장 도로 자체는 가파른 언덕과 산으로 둘러싸여 있으며, 그 위로는 맑고 푸른 하늘과 희미한 구름이 있습니다.


▲표시된 문구: 낡은 데님 재킷과 화려한 반다나를 두른 거리 예술가가 심장부에 있는 거대한 콘크리트 벽 앞에 서서 스프레이 페인트 캔을 들고 얼룩덜룩한 벽에 화려한 새를 스프레이 페인트로 칠하고 있습니다.


▲표시 설명: 전쟁으로 파괴된 도시의 잊혀지지 않는 배경에서, 폐허와 무너진 벽이 파괴의 이야기를 들려주는 가운데, 어린 소녀를 감동적인 클로즈업으로 포착했습니다. 그녀의 얼굴은 재로 얼룩져 있고, 그녀 주변의 혼란에 대한 침묵의 증거입니다. 그녀의 눈은 슬픔과 회복력이 뒤섞인 빛으로, 갈등의 파괴에 순수함을 잃은 세상의 생생한 감정을 포착합니다.

CogVideoX는 3D VAE 및 전문 Transformer 아키텍처를 사용하여 일관적인 긴 비디오를 생성하고 자체 개발한 비디오 이해 모델을 통해 텍스트 설명이 포함된 비교적 고품질의 비디오 클립 컬렉션을 구축합니다.


영상 데이터는 공간적, 시간적 정보를 담고 있기 때문에 영상 데이터에 비해 데이터 양과 연산 부담이 훨씬 크다.Zhipu AI가 제안한 내용은 다음과 같습니다.3D 변형 자동 인코더(3D VAE)비디오 압축 방식은 3차원 컨볼루션을 통해 비디오의 공간적 차원과 시간적 차원을 동시에 압축하여 더 높은 압축률과 더 나은 재구성 품질을 달성합니다.


▲CogVideoX의 3D VAE 아키텍처

모델 구조에는 인코더, 디코더, 잠재 공간 정규화 장치가 포함되어 있으며 압축은 다운샘플링과 업샘플링의 4단계를 통해 이루어집니다. 시간적 인과 컨볼루션은 정보의 인과성을 보장하고 통신 오버헤드를 줄입니다. 상황별 병렬 기술은 대규모 비디오 처리에 더 잘 적응할 수 있습니다.

실험에서 Zhipu AI는 고해상도 코딩이 일반화하기 쉽고 프레임 수를 늘리는 것이 더 어렵다는 것을 발견했습니다. 따라서 모델 훈련은 낮은 프레임 속도에 대한 첫 번째 훈련과 작은 배치의 두 단계로 나뉩니다. 그런 다음 컨텍스트 병렬성을 사용하여 더 높은 수준의 프레임 속도를 미세 조정합니다. 훈련 손실 함수는 3D 판별기의 L2 손실, LPIPS 지각 손실 및 GAN 손실을 결합합니다.

Zhipu AI는 VAE의 인코더를 사용하여 비디오를 잠재 공간으로 압축한 다음 잠재 공간을 블록으로 나누고 긴 시퀀스로 확장하여 z_vision을 삽입하는 동시에 T5를 사용하여 텍스트 입력을 z_text를 삽입하는 텍스트로 인코딩합니다. 그런 다음 시퀀스를 따라 z_text 및 z_vision, 접합된 임베딩이 공급됩니다.전문가변압기블록 스택으로 처리된 임베딩은 최종적으로 백스티칭되어 원래의 잠재 공간 모양을 복구하고 VAE를 사용하여 디코딩하여 비디오를 재구성합니다.


▲CogVideoX 아키텍처

훈련 데이터 측면에서 Zhipu AI는 품질이 낮은 비디오를 식별하고 제외하기 위해 네거티브 라벨을 개발했으며 동시에 video-llama가 훈련한 필터를 통해 20,000개의 비디오 데이터 샘플을 표시하고 선별하여 광학 흐름과 미적 점수를 계산했습니다. 생성된 비디오의 품질을 보장합니다.

영상 자막 데이터 부족 문제에 대해 Zhipu AI는이미지 자막에서 비디오 자막을 생성하는 파이프라인 , 더 조밀한 자막을 얻기 위해 엔드투엔드 비디오 자막 모델을 미세 조정합니다. 이 방법은 Panda70M 모델을 사용하여 짧은 자막을 생성하고 CogView3 모델을 사용하여 조밀한 이미지 자막을 생성한 다음 GPT-4 모델을 사용하여 요약하여 최종 짧은 비디오를 생성합니다.

팀은 또한 CogVLM2-Video 및 Llama 3 기반을 미세 조정했습니다.CogVLM2-캡션 모델, 비디오 자막 생성 프로세스를 가속화하기 위해 조밀한 자막 데이터를 사용하여 훈련되었습니다.


▲촘촘한 자막 데이터 생성 과정

Zhipu AI 팀은 복잡한 역학을 캡처하고, 새로운 모델 아키텍처를 탐색하고, 비디오 정보를 보다 효율적으로 압축하고, 텍스트와 비디오 콘텐츠를 보다 완벽하게 통합하여 비디오 생성 모델의 확장 법칙을 계속 탐색하는 CogVideoX의 기능을 개선하기 위해 열심히 노력하고 있습니다. 더 크고 더 강력한 모델을 훈련하여 더 길고 고품질의 비디오를 생성합니다.

요즘에는 비디오 생성 모델과 애플리케이션이 점점 더 많아지고 있으며 기술이 점차 성숙해지고 있습니다. 그러나 상용 수준 애플리케이션의 요구 사항을 충족할 수 있는 오픈 소스 비디오 생성 모델은 아직 없습니다. 우리는 더 많은 비디오 생성 모델이 오픈 소스로 전환되어 더 많은 개발자와 기업이 비디오 생성 모델 및 애플리케이션 개발에 참여할 수 있도록 장려하고 비디오 생성과 관련된 다양한 기술 최적화 및 기능 개발에 기여할 수 있기를 기대합니다.