소식

Zhipu AI는 대형 비디오 생성 모델을 출시하고 Bilibili는 연구 개발에 참여하며 Yizhuang은 컴퓨팅 성능을 제공합니다 |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


비디오 대형 모델이 수백 가지 모델의 전투에 참여합니다.

저자|조젠‍‍‍

올해는 대규모 '비디오 세대' 모델이 폭발적으로 증가하는 원년이다. 지난 두 달 동안 우리는 Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 및 기타 대형 비디오 모델이 서로를 쫓는 것을 보았습니다.

그러나 상반기에는 대형 영상제작 모델업체들이 영상제작 기능에만 집중하는 경향이 나타났다.

하반기에는 주요 언어모델 업체들도 점차 OpenAI의 뒤를 이어 대형 비디오 모델 시장에 진출해 언어모델과 비디오 모델을 통합할 예정이다.

세간의 이목을 끄는 '6대 모델' 중 가장 빠르게 움직이는 모델은 Zhipu AI입니다.

오늘 아침 칭화에 본사를 둔 이 대형 모델 유니콘은 모든 사용자에게 직접 공개되고 Wensheng Video 및 Tusheng Video를 지원하는 비디오 세대 대형 모델 제품인 "Qingying"을 출시했습니다.

Zhipu Qingyan PC 또는 앱에 텍스트나 그림(예: 프롬프트)을 입력한 후 사용자는 Qingying의 스타일과 함께 만화 3D, 흑백, 유화, 영화 스타일 등 생성하려는 스타일을 선택할 수 있습니다. 음악, AI 상상력으로 가득 찬 비디오 클립 생성, 또한 "AI 다이내믹 포토 미니 프로그램"은 Tusheng 비디오를 지원합니다.

대형 비디오 모델 분야의 현재 상황에 대해 Zhang Peng은 아마도 대형 언어 모델처럼 수백 가지 학파가 논쟁을 벌이는 상황에 들어갈 것이라고 믿습니다.

상용화 전략 측면에서 Qingying의 현재 지불 계획은 다음과 같습니다. 초기 테스트 기간 동안 모든 사용자는 5위안을 지불하고 하루(24시간) 동안 199위안을 지불하고 잠금을 해제합니다. 1년 채널 권한에 대한 유료 고속 액세스. Zhipu AI의 CEO인 Zhang Peng은 "현재 상용화는 아직 초기 단계에 있으며 실제로 비용도 매우 높습니다. 시장 피드백을 기반으로 점진적으로 반복해 나갈 것입니다."라고 말했습니다.

Qingying API는 Zhipu 대형 모델 개방형 플랫폼에서도 동시에 출시됩니다. 기업과 개발자는 API를 호출하여 Wensheng Video 및 Tusheng Video의 모델 기능을 경험하고 사용할 수 있습니다.

Qingying의 연구 개발은 베이징으로부터 강력한 지원을 받았습니다. 하이뎬구는 Zhipu AI의 본사가 위치한 곳으로 Zhipu AI가 Yizhuang의 기술을 바탕으로 대규모 모델 연구 및 개발을 수행할 수 있도록 산업 투자, 컴퓨팅 파워 보조금, 응용 시나리오 시연, 인재 등 포괄적인 지원을 제공합니다. 베이징 고성능 컴퓨팅 클러스터. 이좡 컴퓨팅 파워 클러스터의 탄생은 향후 베이징 이좡의 광대한 고정밀 산업 클러스터에도 적용되어 대형 모델이 실물 경제에 힘을 실어주는 새로운 비즈니스 형식을 형성할 것입니다.


생태학적 협력 측면에서 bilibili는 Qingying의 기술 연구 및 개발 프로세스에도 파트너로 참여했으며 가능한 미래 응용 시나리오를 탐색하는 데 전념하고 있습니다. 동시에 파트너인 Huace Film and Television도 모델 공동 구축에 참여했습니다.

1.30초 안에 모든 텍스트에서 비디오 생성

Qingying의 구체적인 효과는 무엇입니까? 먼저 공식적으로 공개된 몇 가지 비디오 케이스(모두 음악 포함)를 살펴보겠습니다.

  • 빈센트 영상:

프롬프트: 낮은 각도로 위쪽으로 밀고 천천히 고개를 들어 올리면 갑자기 빙산 위에 용이 나타나더니 용이 당신을 발견하고 당신을 향해 돌진합니다.할리우드 영화 스타일

프롬프트: 네온 불빛이 번쩍이는 사이버펑크 스타일의 도시 야경에서 휴대용 카메라가 천천히 확대되고, 번쩍이는 전자 장비와 미래 지향적인 장식 재료로 둘러싸인 기계 스타일의 작은 원숭이가 첨단 도구로 그것을 수리하고 있습니다. 사이버펑크 스타일, 신비한 분위기, 4K 고화질.

프롬프트 단어: 광고 촬영 관점, 노란색 배경, 흰색 테이블, 감자가 던져져 감자튀김의 일부로 변합니다.

  • 투셍 비디오

프롬프트 단어: 고전적인 아름다움

프롬프트: 용이 입에서 불을 뿜어 작은 마을을 불태운다.

프롬프트: 카피바라는 빨대를 통해 여유롭게 콜라를 마시고 카메라를 향해 고개를 돌립니다.

Qingying의 영상 생성 시간은 약 6초이며, 프롬프트 단어 입력 후 대기 시간은 약 30초입니다. Zhang Peng은 이 세대 속도가 업계에서 이미 매우 빠르다고 말했습니다.

Zhang Peng은 다중 모드 모델의 탐구가 아직 매우 초기 단계에 있다고 믿습니다. 생성된 영상의 효과로 볼 때, 물리적 세계의 법칙에 대한 이해, 고해상도, 카메라 움직임의 연속성, 지속시간 측면에서 개선의 여지가 많다. 모델 자체의 관점에서 볼 때, 보다 획기적인 혁신을 갖춘 새로운 모델 아키텍처가 필요합니다. 비디오 정보를 보다 효율적으로 압축하고, 텍스트와 비디오 콘텐츠를 완전히 통합하며, 생성된 콘텐츠를 사용자 지침을 준수하면서 더욱 현실감 있게 만들어야 합니다.

2. 자체 개발한 DiT 아키텍처

Qingying Base의 비디오 생성 모델은 CogVideoX로, 텍스트, 시간, 공간의 3차원을 통합하고 Sora의 알고리즘 설계를 참조합니다. CogVideoX 역시 DiT 아키텍처로 최적화를 통해 이전 세대(CogVideo)에 비해 추론 속도가 6배 향상되었습니다.

Zhipu는 주로 CogVideoX의 세 가지 기술적 기능인 콘텐츠 일관성, 제어 가능성 및 모델 구조를 공유했습니다.


첫째, 내용 일관성 문제를 해결하기 위해,Zhipu는 원래 비디오 공간을 크기의 2%로 압축하는 효율적인 3차원 변형 자동 인코더 구조(3D VAE)를 자체 개발하여 비디오 확산 생성 모델의 훈련 비용과 훈련 난이도를 줄였습니다.

모델 구조 측면에서 Wisdom Spectrum은 Causal 3D 컨볼루션을 주요 모델 구성 요소로 사용하고 오토인코더에서 일반적으로 사용되는 주의 모듈을 제거하여 모델을 다른 해상도로 마이그레이션하고 사용할 수 있도록 만듭니다.

동시에, 시간 차원의 인과 컨볼루션 형태는 모델이 비디오 인코딩 및 디코딩에 대해 전후 시퀀스 독립성을 가질 수 있게 하여 미세 조정을 통해 더 높은 프레임 속도와 더 긴 시간으로 일반화하기가 더 쉬워집니다.

엔지니어링 배포 관점에서 Zhipu는 시간 차원에서 시간 순차 병렬 기반 변형 자동 인코더를 미세 조정하고 배포하므로 더 작은 그래픽 메모리 공간으로 매우 높은 프레임 속도의 비디오 인코딩을 지원할 수 있습니다. .

두 번째 포인트는 제어 가능성입니다.현재 비디오 데이터의 대부분은 해당 설명 텍스트가 부족하거나 설명 품질이 낮습니다. 이러한 이유로 Zhipu는 대규모 비디오 데이터에 대해 상세하고 내용 친화적인 설명을 생성하기 위해 엔드투엔드 비디오 이해 모델을 개발했습니다. 모델의 텍스트 이해 및 지시 따르기 기능을 통해 생성된 비디오가 사용자 입력과 더욱 일치하도록 만들고 매우 길고 복잡한 프롬프트 지시를 이해할 수 있습니다.

이는 소라가 사용하는 방식이기도 하다. OpenAI는 DALL·E 3의 "재자막 기술"을 사용하여 설명이 풍부한 자막 생성기 모델을 훈련한 다음 이를 사용하여 훈련 데이터 세트의 비디오에 대한 텍스트 자막을 생성했습니다. 또한 OpenAI는 GPT를 활용하여 짧은 사용자 프롬프트를 더 길고 자세한 자막으로 변환한 다음 비디오 모델로 전송합니다.

마지막으로 텍스트, 시간, 공간의 세 가지 차원을 통합하는 Zhipu가 개발한 변환기 아키텍처가 있습니다.전통적인 교차 주의 모듈을 포기하지만 입력 단계에서 텍스트 임베딩과 비디오 임베딩을 연결하여 두 가지 양식과 보다 완벽하게 상호 작용합니다.

그러나 두 모달리티의 특징 공간은 매우 다릅니다. Zhipu는 이러한 차이를 보완하기 위해 전문가 적응형 레이어 표준을 사용하여 텍스트와 비디오 모달리티를 별도로 처리함으로써 확산 모델의 시간 단계 정보를 보다 효과적으로 사용할 수 있습니다. 모델이 매개변수를 효율적으로 활용하여 시각적 정보와 의미 정보를 더 잘 정렬할 수 있습니다.

Attention 모듈은 3D Full Attention 메커니즘을 채택합니다. 이전 연구에서는 일반적으로 분리된 공간적 및 시간적 주의를 사용하거나 시각적 정보의 암시적 전송이 많이 필요하므로 모델링의 어려움이 크게 증가합니다. 기존의 효율적인 교육 프레임워크에 적응할 수 없습니다.

위치 인코딩 모듈은 시간 차원에서 프레임 간의 관계를 캡처하고 비디오에서 장거리 종속성을 설정하는 데 더 도움이 되는 3D RoPE를 설계합니다.

3. 스케일링 법칙은 여전히 ​​유효합니다.

대형 모델 루트의 AI 초기에 Zhipu는 다중 모드 분야에서 관련 레이아웃을 배치하기 시작했습니다. 텍스트에서 사진, 비디오에 이르기까지 대형 모델의 세계에 대한 이해는 점점 더 복잡해지고 다차원적으로 변합니다. 다양한 양식의 학습을 통해 다양한 작업을 이해하고, 알고, 처리할 수 있는 능력을 갖춘 대형 모델이 등장합니다.

다중 모드 대형 모델에 대한 Zhipu의 연구는 2021년으로 거슬러 올라갑니다. Zhipu는 2021년부터 CogView(NeurIPS'21), CogView2(NeurIPS'22), CogVideo(ICLR'23), Relay Diffusion(ICLR'24), CogView3(2024)을 개발했습니다.


연구팀은 CogView를 기반으로 고품질 비디오 클립을 생성하기 위해 다중 프레임 속도 계층적 학습 전략을 채택한 대형 모델 기반 텍스트-비디오 생성 모델인 CogVideo를 개발했으며, 이를 위한 재귀 보간 기반 방법을 제안했습니다. 각 비디오 클립에 해당하는 텍스트를 점차적으로 생성하고 이러한 비디오 클립을 레이어별로 보간하여 최종 비디오 클립을 얻습니다. 이 작업은 Facebook, Google, Microsoft로부터 광범위한 관심을 끌었으며 Facebook의 Make-A-Video, Google의 Phenaki 및 MAGVIT, Microsoft의 DragNUWA 및 NVIDIA의 Video LDM과 같은 후속 비디오 생성 모델 작업에서 인용되었습니다.

2024년 5월, GLM 대형 모델 기술팀은 ICLR 2024 기조연설에서 AGI용 GLM 대형 모델의 세 가지 주요 기술 동향에 대해 종합적으로 설명했으며, 여기서 기본 다중 모드 대형 모델이 중요한 역할을 합니다. GLM 대형 모델 팀은 다음과 같이 믿습니다. 텍스트 구성 대규모 모델의 핵심 기반인 다음 단계는 텍스트, 이미지, 비디오, 오디오 및 기타 양식을 함께 혼합하여 진정한 네이티브 다중 모드 모델을 구축하는 것입니다.


Zhipu는 대형 모델 시리즈 제품의 포괄적인 레이아웃을 보유하고 있으며 다중 모드 모델은 항상 중요한 역할을 합니다. Zhipu는 비디오 생성에서 스케일링 법칙의 유효성을 검증했습니다. 앞으로도 데이터 규모와 모델 규모를 지속적으로 확장하는 동시에 보다 획기적인 혁신으로 새로운 모델 아키텍처를 탐색하고 비디오 정보를 보다 효율적으로 압축하며 보다 완전한 텍스트 혼합을 수행할 것입니다. 그리고 영상 콘텐츠.

Zhang Peng은 미래 대형 모델의 기술적 혁신 방향 중 하나가 기본 다중 모드 대형 모델이며 확장 법칙이 알고리즘과 데이터 모두에서 계속해서 역할을 할 것이라고 믿습니다.

Zhang Peng은 “아직 기술 곡선이 둔화되는 징후를 보지 못했습니다.”라고 말했습니다.

(표지 이미지 및 첨부된 텍스트 이미지 출처: Zhipu)