소식

소라의 AI 버전은 오픈소스입니다!상업적으로 이용 가능하고 온라인으로 플레이 가능한 첫 번째 게임으로, 5시간 만에 GitHub에서 3.7K 스타를 획득했습니다.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei는 Aofei Temple 출신입니다.
Qubits 공개 계정 QbitAI

국내판 소라 정말 미쳤어요.

방금,지혜 스펙트럼 AI곧장명확한 그림자비디오 생성의 주요 모델은 다음과 같습니다.오픈 소스

그리고최초로 상업적으로 이용 가능한그런 종류의 것!



이 모델의 이름은코그비디오X, GitHub에서만 출시되었습니다.5 시간, 그래서 그는 그것을 격렬하게 받아들였습니다별 3.7천개️。



효과를 직접 살펴보겠습니다.

프롬프트 1,사람들의 클로즈업

전쟁으로 파괴된 도시의 잊혀지지 않는 배경에서, 폐허와 무너진 벽이 파괴의 이야기를 들려주는 가운데, 어린 소녀를 가슴 아픈 클로즈업이 포착합니다. 그녀의 얼굴은 재로 얼룩져 있고, 그녀 주변의 혼란에 대한 침묵의 증거입니다. 그녀의 눈은 슬픔과 회복력이 뒤섞인 빛으로, 갈등의 파괴로 순수함을 잃은 세상의 생생한 감정을 포착합니다.



영상 주소: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

캐릭터의 눈빛 등 디테일이 매우 고화질일 뿐만 아니라, 깜박임 전후의 연속성도 유지되고 있음을 알 수 있다.

프롬프트 2로 다시 오세요.끝까지 원샷

카메라는 가파른 산비탈에 소나무로 둘러싸인 가파른 비포장 도로를 질주하는 검은색 루프 랙이 달린 흰색 빈티지 SUV 뒤를 따라갑니다. 타이어에서 먼지가 일어나고, 햇빛이 비포장 도로를 따라 질주하는 SUV에 비춰져 장면에 따뜻한 빛을 비춥니다. 비포장 도로는 멀리까지 완만하게 휘어져 있으며, 다른 차나 차량은 보이지 않습니다. 도로 양쪽의 나무는 레드우드이고, 곳곳에 푸른 나무가 흩어져 있습니다. 차가 뒤에서 커브를 따라 쉽게 보이면서, 험난한 지형을 거친 힘든 운전을 하는 것처럼 보입니다. 비포장 도로 자체는 가파른 언덕과 산으로 둘러싸여 있으며, 그 위로는 맑고 푸른 하늘과 희미한 구름이 있습니다.



영상 주소: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

빛과 그림자, 원경, 클로즈업 샷, 차량의 주행과정까지 모두 담아냅니다.

그리고 이러한 효과는 정식 출시 작업이 아니라 누구나 온라인으로 플레이할 수 있습니다~

단일 카드 A100, 90초 안에 생성 가능

Zhipu AI의 CogVideoX에는 다양한 크기가 포함되어 있으며 이번 오픈 소스는 CogVideoX-2B라는 점을 언급할 가치가 있습니다.

관련 기본 정보는 다음과 같습니다.



FP-16 정확도의 추론에는 18GB의 비디오 메모리만 필요하고 미세 조정에는 40GB의 비디오 메모리만 필요합니다. 즉, 단일 4090 그래픽 카드로 추론을 수행할 수 있고 단일 A6000 그래픽 카드로 미세 조정을 완료할 수 있습니다.

이 모델은 이미 HuggingFace의 디퓨저 라이브러리 배포를 지원하고 있으며 작업은 단 2단계로 매우 간단합니다.

1. 해당 종속성을 설치합니다.

pip install --upgrade opencv-python transformers pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # 아직 PR 상태

2. 코드 실행

import torchfrom 디퓨저 import CogVideoXPipelinefrom 디퓨저.utils import export_to_videoprompt = "작은 빨간 재킷과 작은 모자를 쓴 판다가 고요한 대나무 숲의 나무 의자에 앉아 있습니다. 판다의 푹신한 발이 소형 어쿠스틱 기타를 튕기며 부드럽고 멜로디한 곡을 연주합니다. 근처에는 다른 판다 몇 마리가 모여서 호기심 어린 눈으로 지켜보고 일부는 리듬에 맞춰 박수를 칩니다. 햇빛이 키 큰 대나무 사이로 스며들어 장면에 부드러운 빛을 비춥니다. 판다의 얼굴은 표현력이 풍부하여 연주하는 동안 집중력과 기쁨을 보여줍니다. 배경에는 작고 흐르는 시냇물과 생생한 녹색 잎이 있어 이 독특한 음악 공연의 평화롭고 신비로운 분위기를 더해줍니다."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16).to("cuda")prompt_embeds, _ = 파이프.인코딩_프롬프트(프롬프트=프롬프트, do_classifier_free_guidance=True,프롬프트당_비디오_수=1,최대_시퀀스_길이=226,장치="cuda",dtype=torch.float16,)비디오 = 파이프(추론_단계_수=50,지침_스케일=6,프롬프트_임베드=프롬프트_임베드,).프레임[0]비디오로_내보내기(비디오, "출력.mp4", fps=8)

그리고 단일 카드 A100에서는 지금 단계를 따르면 동영상을 생성하는 데 90초밖에 걸리지 않습니다.

뿐만 아니라 HuggingFace에서는 Zhipu AI도 수행했습니다.온라인으로 플레이 가능데모,개인 테스트 효과다음과 같이:



영상 주소: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

보시다시피 생성된 결과는 .mp4 형식뿐만 아니라 GIF 형식으로도 다운로드할 수 있습니다.

다음 질문은 Zhipu AI가 어떻게 작업을 수행하는가입니다.

논문도 공개됐다

Zhipu AI는 이번에 영상 생성 모델을 오픈소스로 공개했을 뿐만 아니라 그에 대한 기술 보고서도 공개했습니다.



보고서 전반에 걸쳐 언급할 가치가 있는 세 가지 주요 기술 하이라이트가 있습니다.

우선, 팀은 효율적인 솔루션을 개발했습니다.3차원 변이 오토인코더 구조(3D VAE)는 원본 비디오 공간을 크기의 2%로 압축하여 비디오 확산 생성 모델의 훈련 비용과 훈련 난이도를 크게 줄입니다.

모델 구조에는 인코더, 디코더, 잠재 공간 정규화 장치가 포함되어 있으며 압축은 다운샘플링과 업샘플링의 4단계를 통해 이루어집니다. 시간적 인과 컨볼루션은 정보의 인과성을 보장하고 통신 오버헤드를 줄입니다. 팀은 상황별 병렬 처리를 사용하여 대규모 비디오 처리에 적응합니다.

실험에서 팀은 고해상도 인코딩이 일반화하기 쉬운 반면 프레임 수를 늘리는 것은 더 어렵다는 것을 발견했습니다.

따라서 팀은 두 단계로 모델을 훈련했습니다. 먼저 낮은 프레임 속도와 미니 배치로 모델을 훈련한 다음 상황별 병렬성을 통해 더 높은 프레임 속도로 미세 조정했습니다. 훈련 손실 함수는 3D 판별기의 L2 손실, LPIPS 지각 손실 및 GAN 손실을 결합합니다.



이어서전문가변압기

팀은 VAE의 인코더를 사용하여 비디오를 잠재 공간으로 압축한 다음 잠재 공간을 청크로 분할하고 긴 시퀀스 임베딩 z_vision으로 확장했습니다.

동시에 T5를 사용하여 텍스트 입력을 z_text를 포함하는 텍스트로 인코딩한 다음 시퀀스 차원을 따라 z_text와 z_vision을 연결합니다. 접합된 임베딩은 처리를 위해 전문 Transformer 블록 스택에 공급됩니다.

마지막으로 팀은 원래의 잠재 공간 모양을 복구하기 위해 임베딩을 백스티칭하고 VAE를 사용하여 디코딩하여 비디오를 재구성했습니다.



마지막 하이라이트는 바로데이터.

팀에서는 과도하게 편집되고, 모션이 고르지 않고, 품질이 낮고, 강의 스타일이고, 텍스트가 많이 사용되고, 화면 잡음이 많은 비디오와 같은 품질이 낮은 비디오를 식별하고 제외하기 위해 네거티브 태그를 개발했습니다.

비디오 라마에 대해 훈련된 필터를 사용하여 20,000개의 비디오 데이터 포인트에 주석을 달고 필터링했습니다. 동시에 광학 흐름 및 미적 점수가 계산되고 임계값이 동적으로 조정되어 생성된 비디오의 품질을 보장합니다.

비디오 데이터에는 일반적으로 텍스트 설명이 없으며 텍스트-비디오 모델 교육을 위해 텍스트 설명으로 변환해야 합니다. 기존 비디오 자막 데이터 세트에는 짧은 자막이 있어 비디오 콘텐츠를 완전히 설명할 수 없습니다.

이를 위해 팀은 이미지 자막에서 비디오 자막을 생성하는 파이프라인도 제안하고, 더 조밀한 자막을 얻기 위해 엔드투엔드 비디오 자막 모델을 미세 조정했습니다.

이 방법은 Panda70M 모델을 통해 짧은 자막을 생성하고, CogView3 모델을 사용하여 조밀한 이미지 자막을 생성한 후, GPT-4 모델을 사용하여 요약하여 최종 짧은 영상을 생성하는 방법입니다.

또한 CogVLM2-Video 및 Llama 3을 기반으로 CogVLM2-Caption 모델을 미세 조정했으며, 조밀한 자막 데이터를 사용하여 훈련하여 비디오 자막 생성 프로세스를 가속화했습니다.



이상이 CogVideoX의 기술력입니다.

하나 더

영상 제너레이션 분야에서는 Runway's3세대새로운 액션도 있습니다——

Gen-3 Alpha의 Vincent Video는 이제 비디오의 첫 번째 프레임뿐만 아니라 비디오의 마지막 프레임으로도 사용할 수 있는 "피드" 사진을 지원합니다.

AI가 시간을 되돌리는 느낌이다.

효과를 살펴보겠습니다.



영상 주소: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g



영상 주소: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

마지막으로 Zhipu AI의 대규모 오픈소스 영상생성 모델 관련 링크는 아래 첨부합니다~

코드 저장소:
https://github.com/THUDM/CogVideo

모델 다운로드:
https://huggingface.co/THUDM/CogVideoX-2b

기술 보고서:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

온라인 경험:
https://huggingface.co/spaces/THUDM/CogVideoX