소식

오늘 공개된 OpenAI의 '지혜스펙트럼칭잉(Wisdom Spectrum Qingying)' 중국어 버전이 30초 안에 무료로 무제한 재생되었습니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


지난 6개월 동안 국내외 비디오 세대 모델은 새로운 기술적 폭발을 가져왔고, 우선 소셜 네트워크에서 항상 인기를 끌었습니다.

그러나 언어생성모델의 '낙후'와는 달리, 최근 동향에서는 영상생성모델 분야의 국내 발전이 국제수준을 크게 앞지르는 모습을 보이고 있다. 많은 외국 네티즌들은 OpenAI의 소라가 자고 있는 동안 '중국의 Keling AI 영상'이 인터넷을 폭발시키고 있다고 말했습니다.

오늘 국내 굴지의 모델 제조사 Zhipu AI가 AI 영상 생성 제품 '칭잉(Qingying)'도 출시했다.


물론 국내외에 AI 영상 모델이 많고 모두 결함이 많지만, '미래' 소라에 비하면 이들 AI 영상 제품은 눈에 보이면서도 가시적이어서 기껏해야 몇 번 더 시도해야 할 수도 있다. . 보장된 거래를 "추첨"하는 동영상입니다.

그리고 이러한 탐구 자체는 기술 진보의 일부입니다.

GPT-3가 탄생 초기에 의문과 비판을 받고 마침내 시간을 이용해 과거를 이어가고 미래를 여는 가치를 입증한 것처럼, 마찬가지로 이러한 AI 비디오 생성 도구에도 시간을 주면 며칠 만에 장난감을 도구로 바꿔보세요.

Qingying PC 액세스 링크:
https://chatglm.cn/video?fr=opt_homepage_PC
Qingying 모바일 액세스 링크:
https://chatglm.cn/video?&fr=opt_888_qy3

30초 만에 6s 영상 생성, "Zhipu Qingying" 정식 출시

오늘 출시된 Zhipu Qingying에 비해 많은 사람들이 Zhipu Qingyan에 더 익숙할 수도 있지만, 효능을 확인하기 위해 광고를 보는 대신 "Qingying"이 만든 데모를 먼저 살펴보는 것이 좋습니다.

울창한 숲 속에는 나뭇잎 사이로 햇빛이 약간 비치면서 틴들 효과가 생기고, 빛이 형태를 갖추게 됩니다.


쓰나미가 맹렬한 괴물처럼 으르렁대자 마을 전체가 순식간에 바다에 삼켜졌습니다. 마치 종말 영화의 고전 장면처럼 말이죠.


네온 불빛이 번쩍이는 도시의 밤 풍경 속에서, 기계적인 아름다움으로 가득 찬 작은 원숭이가 첨단 도구를 들고 똑같이 번쩍이는 초미래적인 전자 장비를 수리하고 있습니다.


다시 화풍을 바꾸자 새끼 고양이는 입을 크게 벌리며 얼굴 전체에 물음표를 적고 인간적인 혼란스러운 표정을 보였다.


궁궐 싸움 드라마도 없고 음모도 없고, 시간과 공간을 넘나드는 Zhen Huan Meizhuang의 스크린을 넘나드는 포옹만이 있을 뿐이고, 오직 진실한 자매애만 있을 뿐입니다.


또한 Zhipu 대형 모델 팀이 독립적으로 개발하고 효율적으로 구축한 대형 비디오 생성 모델인 CogVideo 덕분에 Qingying은 이제 텍스트 생성 비디오, 이미지 생성 비디오를 포함한 다양한 생성 방법을 지원하고 광고 제작에도 사용할 수 있습니다. 및 영화 편집, 단편 비디오 제작 및 기타 분야.

Qingying은 강력한 명령 따르기 능력을 갖고 있으며 사용자가 제공한 지시를 완전히 이해하고 실행할 수 있습니다.

보고서에 따르면 Zhipu AI는 대규모 비디오 데이터에 대해 상세하고 콘텐츠 친화적인 설명을 생성하기 위해 엔드투엔드 비디오 이해 모델을 자체 개발했습니다. 이를 통해 모델의 텍스트 이해 및 지시 따르기 기능을 향상하고 사용자 요구에 맞는 콘텐츠를 생성합니다. . 동영상.


콘텐츠 일관성 측면에서 Zhipu AI는 3D RoPE 위치 인코딩 모듈과 함께 원본 비디오 공간을 크기의 2%로 압축하는 효율적인 3차원 변형 자동 인코더 구조(3D VAE)를 자체 개발했습니다. 시간 차원에서 프레임을 캡처하는 데는 이들 간의 관계가 비디오의 장거리 의존성을 설정합니다.

예를 들어, 감자를 감자튀김으로 바꾸려면 몇 단계를 거쳐야 할까요? "불을 붙일" 필요 없이 간단한 프롬프트 단어만 입력하면 감자가 황금색의 매력적인 감자튀김으로 변합니다. 관계자들은 아무리 엉뚱한 아이디어라도 하나씩 현실로 바꿀 수 있다고 말합니다.


또한 Sora 알고리즘을 참조하여 설계된 CogVideoX는 텍스트, 시간, 공간의 3차원을 통합할 수 있는 DiT 아키텍처이기도 합니다. (코그비디오). 이론적으로 모델 측이 6초짜리 영상을 생성하는 데 걸리는 시간은 단 30초에 불과하다.

비교를 위해 현재 1계단에 있는 Keling AI는 일반적으로 5초 영상 하나를 생성하는 데 2~5분 정도 걸립니다.

오늘 기자회견에서 Zhipu AI CEO인 Zhang Peng은 Qingying에게 몸이 약간 흔들리면서 땅에서 자고 있는 치타의 영상을 생성해 달라고 요청했습니다. 완료하는 데 약 30초가 걸렸습니다. 그러나 정적인 장미를 "피우기" 위해서는 더 많은 시간이 필요합니다.

또한 Qingying에서 생성된 비디오의 해상도는 1440x960(3:2)에 도달할 수 있으며 프레임 속도는 16fps입니다.

Qingying은 또한 사운드트랙 기능을 세심하게 제공하며, 생성된 비디오에 음악을 추가하고 직접 게시할 수 있습니다.

우주비행사들이 기타를 연주하는 정적인 모습은 상상만으로도 충분하다고 생각했는데, 그것이 움직이고 여유로운 멜로디와 짝을 이루면 마치 우주비행사들이 우주에서 콘서트를 열고 있는 것 같았다.

'퓨처스' 소라와 달리 '칭잉'은 온라인에 오픈하자마자 전면 오픈된다. 후속 버전에서는 더 높은 속도와 더 긴 기간으로 비디오를 생성하는 기능입니다.

Zhang Peng은 또한 Zhipu Open Day에서 “모든 사용자는 Ying을 통해 AI의 텍스트 기반 비디오 및 그림 기반 비디오 기능을 경험할 수 있다”고 말했습니다.

이제 Qingying은 초기 테스트 기간에 있으며 모든 사용자는 무료로 사용할 수 있습니다. 보다 원활한 경험을 추구한다면 5위안으로 1일(24시간) 고속 접속 권한을 잠금 해제할 수 있습니다. 199위안을 지불하면 1년 유료 고속 접속 권한을 잠금 해제할 수 있습니다.

또한 Ying API는 빅 모델 개방형 플랫폼 bigmodel.cn에서도 동시에 출시됩니다. 기업과 개발자는 API를 호출하여 Wensheng Video 및 Tusheng Video의 모델 기능을 경험하고 사용할 수 있습니다.

시작하기 위한 임계값은 낮지만 여전히 "카드를 뽑아야" 합니다. 초보자는 더 이상 잘못된 지침을 작성하는 것에 대해 걱정할 필요가 없습니다.

APPSO도 처음으로 Qingying을 경험했으며 몇 가지 시나리오를 테스트한 후 Qingying 사용에 대한 몇 가지 경험도 요약했습니다.

  • 영상 생성이 "연금술"과 같아서 출력이 불안정해서 여러번 시도해 보시는 것을 추천드립니다.
  • 효과의 상한은 프롬프트 단어에 따라 달라지며 프롬프트 단어의 구조는 최대한 명확해야 합니다.
  • 렌즈의 가장 좋은 효과는 근접 촬영이며 다른 촬영은 그다지 안정적이지 않습니다.
  • 개체 유형 구현 정렬: 동물>식물>항목>건물>사람

예술을 이해하지 못하는 과학자는 좋은 과학자가 아닙니다. 아인슈타인은 물 속의 물고기처럼 기타를 연주하고 자신의 리듬에 맞춰 고개를 흔드는 모습을 보여 연기를 하는 것처럼 보이지 않았습니다.


자이언트 팬더는 또한 스타일과 다재다능함으로 기타를 연주합니다.


평소 금욕적인 탕셍은 당신에게 손을 흔들며 인사를 하고 리듬에 맞춰 몸을 흔들었다.


물론 위의 내용은 여전히 ​​비교적 좋은 영상이지만, 영상을 생성하는 과정에서 쓸모없는 영상도 많이 축적되었습니다.

예를 들어 침대에 누워 있는 황제에게 오른손으로 닭다리를 먹으라고 했더니, 영상 마지막 순간에 여분의 손이 등장하는 것 같았습니다. 메이크업과 헤어.


아니면 청장미가 나를 본 순간 마음속의 형이 '그 사람'이 되어버렸는지도 모른다.


복잡한 장면에서는 캐릭터 움직임의 전환이 부자연스럽고 복잡한 장면의 물리적 특성을 정확하게 시뮬레이션할 수 없으며 생성된 콘텐츠의 정확성이 부족합니다. 이러한 단점은 Qingying의 "특허"가 아니라 현재 비디오 생성의 한계입니다. 모델.

실제 응용에서는 사용자가 프롬프트 단어를 최적화하여 비디오 품질을 향상시킬 수 있지만 다행히도 허용 가능한 품질의 프롬프트 단어는 비디오 생성 모델의 하한을 상당 부분 보장할 수 있습니다.

일부 초보 플레이어를 배려하기 위해 프롬프트 단어에 대한 몇 가지 팁도 특별히 준비했습니다.

  • 간단한 공식: [카메라 이동] + [장면 구축] + [자세한 내용]
  • 복잡한 공식: [렌즈의 언어] + [빛과 그림자] + [피사체(피사체 설명)] + [피사체 움직임] + [장면(장면 설명)] + [분위기/분위기]

카메라가 패닝(렌즈 움직임)하여 김이 나는 커피 잔을 들고 공원 벤치에 앉아 있는 어린 소년(피험자 설명)을 보여줍니다(피험자 행동). 그는 파란색 셔츠를 입고 행복해 보이고(주제의 세부 사항), 배경은 나무가 늘어선 공원이고 나뭇잎 사이로 햇빛이 소년에게 비치고 있습니다(환경에 대한 설명).

아직 실마리가 없다면 Zhipu Qingyan에서 제공하는 지능형 에이전트를 사용하여 비디오 프롬프트 단어를 작성하는 데 도움을 받는 것이 좋습니다. 인생의 일반적인 장면에 들어가더라도 고품질 프롬프트 단어 3개를 얻을 수 있습니다.


예를 들어, "코기가 해변에서 일광욕을 하고 있습니다"라고 말하면 다음과 같은 중국어와 영어로 된 자연 풍경 사진 스타일 프롬프트가 표시되며, 선택할 수 있는 수채화 스타일, 3D 애니메이션 스타일 및 기타 스타일 프롬프트도 있습니다. 에서:

한국어: 햇볕이 잘 드는 해변, 코기 한 마리가 비치 타월 위에 여유롭게 누워 따뜻한 햇살을 즐기고 있습니다. 카메라는 낮은 각도에서 촬영되었습니다. 배경은 광활한 푸른 바다와 하얀 모래사장이 부드럽게 부서지는 해변입니다. 분위기는 평화롭고 화질은 4K로 매우 선명합니다. 한국어: 햇볕이 잘 드는 해변, 비치타올 위에 여유롭게 누워 따뜻한 햇빛을 쬐고 있는 코기. 카메라는 낮은 각도에서 그 장면을 포착하여 잔잔한 파도가 치는 넓은 푸른 바다와 깨끗한 백사장을 배경으로 보여줍니다. 4K 초고화질로 포착된 고요한 분위기.

이렇게 만족스러운 메시지를 보니 네, 그 당시 제가 꼭 쓰고 싶었던 말이었죠.

Qingying 프롬프트 단어 에이전트 주소(Wensheng 비디오)가 첨부되어 있습니다: https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

사진에서 비디오를 생성하는 경우에도 마찬가지입니다. 이미지 제목을 입력하고 이미지 스타일을 선택한 다음 Zhipu Qingyan이 해당 프롬프트 단어를 작성하는 데 도움을 받으세요. 즉각적인 말이 없는 것에서 "안경을 쓰다"에서 "당승이 손을 뻗어 안경을 쓴다"로의 진화는 효과도 매우 다릅니다.


Qingying 프롬프트 단어 에이전트 주소(Tusheng 비디오)가 첨부되어 있습니다: https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

업무를 잘 수행하려면 먼저 도구를 갈고 닦고 패턴을 좀 더 열어야 하며 Zhipu Qingyan에서 더 많은 콘텐츠 제작 도구를 경험할 수도 있습니다.

초기 주제 자료 수집부터 대본 작성 과정, 사진 및 영상 제작 과정, 그리고 프로모션 카피 라이팅에 이르기까지 영상 생성 창의성의 전체 체인을 거의 열 수 있다고 명확하게 명시되어 있지 않습니다. 창의성에 대해 생각하고 나머지는 당신에게 맡기십시오.

Keling을 포함해 최근 출시된 AI 영상 제품들이 첫 번째 프레임과 마지막 프레임 제어를 통해 제어성을 향상시키고 있는 것을 확인했습니다.


AI 제작자 Chen Kun은 한때 APPSO에 상업적으로 제공할 수 있는 거의 모든 AI 동영상이 Tusheng 동영상이라고 말한 적이 있습니다. Wensheng 동영상은 아직 이를 수행할 수 없고 실제로는 제어 가능성의 문제이기 때문입니다.

오늘 Zhipu AI가 출시한 Qingying은 텍스트 생성 비디오의 제어 가능성을 더욱 향상시킵니다. APPSO와의 인터뷰에서 Zhipu AI는 텍스트 생성 비디오가 보다 보편적인 제어 가능성을 반영한다고 말했습니다.

AI가 생성한 대부분의 영상은 여전히 ​​인간이 언어를 사용해 제어한다. 따라서 문자나 간단한 언어 지시를 어떻게 인식하느냐가 더 높은 수준의 통제이다.
AI 비디오는 장난감에서 제작자 도구로 이동하고 있습니다.

지난해가 대형 모델 폭발의 원년이었다면, 올해는 AI 영상 적용의 중요한 정점이다.

이 모든 것을 촉발한 소라는 아직 온라인에 접속하지 않았지만 AI 영상에 어느 정도 영감을 불어넣었다.

소라는 합리적인 디테일 디자인을 통해 프레임 간 디테일 점프 문제를 해결합니다. 동시에 고해상도(1080p) 비디오 이미지가 직접 생성되어 최대 60초의 의미론적으로 풍부한 비디오를 생성할 수 있으며, 이는 그 뒤에 있는 훈련 시퀀스도 상대적으로 길다는 것을 나타냅니다.


지난 두 달 동안에만 10개 이상의 회사가 새로운 AI 비디오 제품이나 주요 업데이트를 출시했습니다.


Zhipu Qingying이 출시되기 불과 ​​며칠 전에 Kuaishou의 Keling AI가 전 세계 내부 테스트를 위해 공개되었으며 Sora로 간주되는 또 다른 PixVerse는 1~5개의 연속 비디오 콘텐츠의 원클릭 생성을 지원하는 V2 버전을 출시했습니다.


얼마 전 Runway Gen 3 Alpha도 유료 사용자를 대상으로 공개 베타 테스트를 시작했으며 디테일의 정교함과 부드러움이 크게 향상되었습니다. 지난달 출시된 영화급 영상세대 모델 드림머신에도 최근 첫 프레임과 마지막 프레임 기능이 업데이트됐다.

단 몇 달 만에 AI 비디오 생성은 물리적 시뮬레이션, 동작 유창성, 프롬프트 단어 이해 측면에서 크게 향상되었습니다. AI 판타지 드라마 감독 천쿤은 이에 더욱 민감하다. 그는 AI 영상 생성 기술의 발전이 상상 이상으로 빠를 수도 있다고 믿는다.

2023년의 AI 비디오는 캐릭터가 슬로우 모션으로 동작하고 몽타주 편집을 ​​사용하여 포인트를 그리는 동적 PPT와 비슷합니다. 하지만 이제는 AI 영상의 'PPT 풍미'가 많이 사라졌다.

Chen Kun 감독의 국내 첫 AIGC 스펙터클 드라마 "산과 바다: 산과 바다의 거울: 파도 자르기"가 최근 출시되었습니다. 그는 과거에 AI를 사용하여 전통적인 영화 및 TV 촬영의 여러 측면을 대체했다고 말했습니다. 비슷한 판타지 테마를 만들려면 최소 100명이 필요했는데, 팀 인원이 10명 남짓이어서 제작 주기와 비용이 크게 단축됐다.

지난 6개월 동안 우리는 더 많은 전문 영화 및 TV 제작자가 AI 비디오를 시도하기 시작하는 것을 볼 수 있습니다. 국내 Kuaishou Douyin은 AI 단편 드라마를 출시했으며, 50명의 AIGC 크리에이터가 협업한 최초의 AI 장편 영화 "Our T2 Remake"가 로스앤젤레스에서 개봉되었습니다.


비록 AI 영상 생성이 캐릭터와 장면 일관성, 캐릭터 퍼포먼스, 액션 인터랙션 등 측면에서 아직 한계가 있지만, AI 영상이 지난해 시도했던 장난감에서 점차 창작자를 위한 도구로 변모하고 있다는 점은 부정할 수 없다.

이는 Zhipu Qingying, Kuaishou Keling, Luma Dream Machine 등의 제품이 멤버십 시스템을 출시하기 시작한 중요한 이유이기도 합니다. C-end용 국내 대형 모델 제품이 대부분 무료라는 점을 아셔야 합니다. 국내 구독 결제 습관 및 우선순위에 맞춰 사용자 성장 전략 추구와 관련하여 호기심 많은 사용자뿐만 아니라 더 많은 콘텐츠 제작자가 AI 동영상에 대한 결제를 지원해야 지속 가능합니다.

물론 AI 영상 생성은 아직 상대적으로 초기 단계에 있다. 소위 '한 문장으로 영화를 생성한다'는 것은 오해의 소지가 있는 헤드라인일 뿐이다. 물리적 세계.

Zhipu는 또한 오늘 기자회견에서 다중 모드 모델의 탐색이 아직 매우 초기 단계에 있다고 언급했습니다.

생성된 영상의 효과로 볼 때, 물리적 세계의 법칙에 대한 이해, 고해상도, 카메라 움직임의 연속성, 지속시간 측면에서 개선의 여지가 많다. 모델 자체의 관점에서 볼 때, 보다 획기적인 혁신을 갖춘 새로운 모델 아키텍처가 필요합니다. 비디오 정보를 보다 효율적으로 압축하고, 텍스트와 비디오 콘텐츠를 완전히 통합하며, 생성된 콘텐츠를 사용자 지침을 준수하면서 더욱 현실감 있게 만들어야 합니다.

"우리는 모델 수준에서 보다 효율적인 확장 방법을 적극적으로 탐색하고 있습니다." 그러나 Zhang Peng은 "알고리즘과 데이터의 지속적인 반복을 통해 확장 법칙이 계속해서 발휘될 것이라고 믿습니다." 그 강력한 힘."

AI 제작자 Chen Kun은 AI가 생성한 장면이 대형 화면에 100% 적합해지는 것은 시간 문제일 뿐이라고 믿습니다. 이 시간이 얼마나 걸릴지는 가장 중요하지 않지만 Zhipu AI의 CEO인 Zhang Peng은 이전 APPSO와의 인터뷰에서 언급했듯이 이 과정에 참여하는 것이 더 중요합니다.

여러 가지를 차근차근 살펴보아야 할 부분이 있고, 이 과정이 매우 중요합니다. 단지 최종 결과만 보는 것이 아니라, 더 중요하게는 행동에 나서는 것이 지금으로서는 모두가 더 주목해야 할 부분이라고 생각합니다.

저자: Li Chaofan, Mo Chongyu