소식

Zhipu AI가 비디오 생성에 들어갑니다. "Qingying"은 온라인, 6초 길이, 무료 및 무제한입니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

Zhipu 대형 모델 팀은 자체 개발 및 구축되었습니다.

Kuaishou Keling AI가 국내외에서 인기를 끌게 된 이후 2023년에는 대형 텍스트 모델과 마찬가지로 국내 비디오 세대도 점점 더 대중화되고 있습니다.

방금 또 다른 대형 비디오 세대 모델 제품이 공식 출시되었습니다. Zhipu AI가 공식적으로 "Qingying"을 출시했습니다. 좋은 아이디어(몇 단어에서 수백 단어)와 약간의 인내심(30초)만 있으면 "Qingying"은 1440x960 해상도의 고정밀 동영상을 생성할 수 있습니다.



영상 링크: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

이제부터 Qingying은 Qingyan 앱을 출시할 예정이며 모든 사용자는 대화, 사진, 비디오, 코드 및 에이전트 생성 기능을 완벽하게 경험할 수 있습니다. Zhipu Qingyan의 웹 및 앱을 다루는 것 외에도 "AI Dynamic Photo Mini 프로그램"을 작동하여 휴대폰에 있는 사진에 역동적인 효과를 빠르게 얻을 수도 있습니다.



Zhipu "Qingying"이 생성한 비디오는 길이가 6초이고 해상도는 1440×960입니다. 모든 사용자가 무료로 사용할 수 있습니다.



  • PC 접속 링크: https://chatglm.cn/
  • 모바일 접속 링크: https://chatglm.cn/download?fr=web_home

Zhipu AI는 지속적인 기술 개발을 통해 "Qingying"의 생성 기능이 곧 단편 비디오 제작, 광고 생성, 심지어 영화 편집에도 사용될 것이라고 밝혔습니다.

생성적 AI 비디오 모델 개발에서 스케일링 법칙은 알고리즘과 데이터 모두에서 계속해서 역할을 수행합니다. "우리는 모델 수준에서 보다 효율적인 확장 방법을 적극적으로 탐색하고 있습니다." Zhipu AI의 CEO인 Zhang Peng은 "알고리즘과 데이터의 지속적인 반복을 통해 Scaling Law가 계속해서 역할을 할 것이라고 믿습니다." 역할이 강하다."



다양한 스타일을 골라보세요

현재 일부 데모와 간단한 시험을 통해 판단하면 Zhipu AI의 "Qingying"은 다음과 같은 특징을 가지고 있습니다.

  • 풍경, 동물, SF, 인문학, 역사 등의 비디오 콘텐츠를 생성할 때 성능이 더 좋습니다.
  • 우리가 잘 생성하는 비디오 스타일에는 만화 스타일, 실제 사진 스타일, 2차원 애니메이션 스타일 등이 포함됩니다.
  • 개체유형 제시효과는 동물>식물>아이템>건물>사람 순으로 나타났다.

텍스트나 그림으로 동영상을 생성할 수 있으며 생성된 스타일은 판타지 애니메이션 스타일을 포함합니다.

빈센트 비디오

프롬프트: 낮은 각도로 위로 밀고 천천히 고개를 들어 올리면 갑자기 빙산 위에 용이 나타나더니 용이 당신을 발견하고 당신을 향해 달려옵니다. 할리우드 영화 스타일.



프롬프트: 마법사가 파도에 주문을 걸고 있습니다. 보석이 바닷물을 모아 마법의 문을 엽니다.



프롬프트: 버섯이 곰으로 변합니다.



실제 현장으로:

프롬프트: 숲에서는 인간의 관점에서 우뚝 솟은 나무들이 태양을 차단하고, 나뭇잎 사이로 햇빛이 약간 비치는 틴들 효과가 있습니다.



프롬프트: 카피바라는 사람처럼 서서 손에 아이스크림을 들고 즐겁게 먹습니다.



투셍 비디오

Qingying에서는 텍스트로 생성된 비디오 외에도 사진으로 생성된 비디오로 플레이할 수도 있습니다. Tusheng Video는 이모티콘, 광고 제작, 줄거리 제작, 짧은 비디오 제작 등을 포함하여 더 많은 새로운 플레이 방법을 제공합니다. 동시에 Qingying을 기반으로 하는 "오래된 사진 애니메이션" 애플릿도 동시에 출시됩니다. 한 단계만 거치면 오래된 사진을 업로드하기만 하면 AI가 옛날에 압축된 사진에 애니메이션을 적용할 수 있습니다.

프롬프트: 자유롭게 움직이는 다채로운 물고기입니다.



프롬프트 단어: 그림 속 남자는 바람에 머리를 날리고 서 있습니다.



프롬프트 단어: 수영장 표면에 떠 있는 작은 노란색 오리 장난감, 클로즈업.



그리고 현대 미술로:

큐 단어: 카메라는 뉴욕 박물관을 배경으로 한 1950년대 공상 과학 영화, 공포 영화, 뉴스, 스틸, 70년대 시트콤 등 다양한 쇼를 보여주는 여러 빈티지 TV 주위를 회전합니다.



팁: iPhone을 꺼내 사진을 찍어보세요.



즉각적인 말이 없습니다.



일반적으로 사용되는 이모티콘인 Zhipu AI는 이를 "연재물"로 확장할 수 있습니다.

프롬프트: 네 명의 스승과 견습생은 혼란스러운 표정을 지으며 서로에게 손을 내밀고 하이파이브를 했습니다.



영상 링크: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

프롬프트: 새끼 고양이는 혼란스러운 표정과 얼굴에 많은 물음표를 가지고 입을 크게 벌렸습니다.



영상 링크: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Qingying은 다양한 스타일을 다룰 수 있으며 사람들이 발견하기를 기다리는 플레이 방법이 더 많다는 것을 알 수 있습니다. Zhipu Qingyan PC/APP에서 "Qingying Intelligent" 기능을 클릭하기만 하면 귀하가 갖고 있는 모든 아이디어가 즉시 현실로 바뀔 수 있습니다.

모두 자체 개발한 기술

대형 모델의 모든 것 Wisdom AI는 오랫동안 다중 모드 생성 AI 모델을 배포해 왔습니다. 2021년부터 Zhipu AI는 CogView(NeurIPS'21), CogView2(NeurIPS'22), CogVideo(ICLR'23), Relay Diffusion(ICLR'24), CogView3(2024) 등 많은 연구를 발표했습니다.

보도에 따르면 'Qingying'은 Zhipu AI 대형 모델 팀이 독립적으로 개발한 차세대 대형 비디오 생성 모델인 CogVideoX를 사용합니다.

지난해 11월 그의 팀은 빈센트 그래프 모델인 CogView2를 기반으로 텍스트-비디오 생성 모델인 CogVideo를 개발해 오픈소스화했다.



CogVideo는 94억 개의 매개변수를 가지고 있으며 CogView2를 통해 일련의 초기 프레임을 생성하고 양방향 주의 모델을 기반으로 이미지 프레임을 보간하여 비디오 생성을 구현합니다. 또한 CogVideo는 텍스트 설명을 기반으로 3D 환경을 생성하고 사전 학습된 모델을 직접 활용하여 비용이 많이 드는 학습을 피할 수 있으며 중국어 프롬프트 입력도 지원합니다.

이번에 Qingying Base의 비디오 생성 모델은 텍스트, 시간 및 공간의 세 가지 차원을 통합할 수 있는 CogVideoX입니다. 이는 Sora의 알고리즘 설계를 참조하며, CogVideoX는 최적화를 통해 이전 세대보다 우수합니다. CogVideo) 추론 속도가 6배 향상되었습니다.

OpenAI의 Sora의 등장으로 AI는 영상 생성 분야에서 상당한 발전을 이룰 수 있었지만, 대부분의 모델은 여전히 ​​일관성과 논리적 일관성을 갖춘 영상 콘텐츠를 생성하는 데 어려움을 겪고 있습니다.

이러한 문제를 해결하기 위해 Zhipu AI는 원본 비디오 공간을 2%로 압축할 수 있는 효율적인 3차원 변형 자동 인코더 구조(3D VAE)를 개발하여 모델 훈련 비용을 크게 줄이고 훈련 난이도를 크게 줄였습니다.

모델 구조는 Causal 3D 컨볼루션을 주요 모델 구성 요소로 사용하고 오토인코더에서 일반적으로 사용되는 주의 모듈을 제거하여 모델을 다른 해상도로 전송할 수 있는 기능을 갖습니다.

동시에 시간적 차원의 인과적 컨벌루션을 통해 모델 비디오 인코딩 및 디코딩이 앞뒤 시퀀스 독립성을 가질 수 있으므로 미세 조정을 통해 모델을 더 높은 프레임 속도와 더 긴 장면으로 확장하는 데 도움이 됩니다.

또한, 비디오 생성 역시 대부분의 비디오 데이터에 해당하는 설명 텍스트가 부족하거나 설명 품질이 낮다는 문제에 직면해 있습니다. 이러한 이유로 Zhipu AI는 대규모 비디오 데이터에 대한 엔드투엔드 비디오 이해 모델을 자체 개발했습니다. 콘텐츠에 맞는 설명을 제공한 다음 다수의 고품질 비디오-텍스트 쌍을 구축하여 훈련된 모델이 지침을 잘 준수하도록 만듭니다.

마지막으로 Zhipu AI는 텍스트, 시간, 공간을 통합하는 변환기 아키텍처를 자체 개발했다는 ​​점을 언급할 가치가 있습니다. 이 아키텍처는 기존 교차 주의 모듈을 사용하지 않고 입력 단계에서 텍스트 임베딩과 비디오 임베딩을 순서대로 연결합니다. 두 양식 사이에서 더 완벽하게 상호 작용합니다.

그러나 텍스트와 비디오 기능 공간에는 큰 차이가 있습니다. Zhipu AI는 전문가 적응형 계층 표준을 통해 두 가지를 별도로 처리하므로 모델이 매개변수를 효율적으로 활용하여 시각적 정보와 의미 정보를 더 잘 정렬할 수 있습니다.

Zhipu AI는 최적화 기술을 통해 Zhipu AI 생성 비디오 모델의 추론 속도가 6배 향상되었다고 밝혔습니다. 현재 모델이 6s 비디오를 생성하는 데 소요되는 이론적 시간은 30초입니다.

이제 '청잉(Qingying)' 출시와 함께 영상 세대 트랙의 주축인 지푸(Zhipu) AI가 다시 등장했다.

누구나 사용해 볼 수 있는 애플리케이션 외에도 Qingying API는 대형 모델 개방형 플랫폼 bigmodel.cn에서도 동시에 출시됩니다. 기업과 개발자는 API를 호출하여 Wensheng Video 및 Tusheng Video의 모델 기능을 경험하고 사용할 수 있습니다.

다양한 기업들이 AI 영상생성 기능을 계속 출시하면서 올해 제너레이티브 AI 경쟁도 본격화됐다. 대부분의 사용자에게는 더 많은 선택권이 있습니다. 이제 비디오 제작 경험이 없는 사람과 전문 콘텐츠 제작자 모두 대규모 모델 기능의 도움을 받아 비디오를 제작할 수 있습니다.