소식

소라의 AI 버전이 나왔습니다!누구나 무료로 무제한으로 이용할 수 있습니다. 휴대폰만 있으면 플레이할 수 있으며, API도 공개되어 있습니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei는 Aofei Temple 출신입니다.
Qubits 공개 계정 QbitAI

방금,지혜 스펙트럼 AISora의 버전이 탄생했습니다.명확한 그림자

더 이상 고민하지 말고 Qingying이 생성한 이미지를 살펴보겠습니다.단편영화



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

존재하다빈센트 비디오예를 들어, Qingying에게 프롬프트를 주면 다음을 수행할 수 있습니다.상상력에 도전해보세요

번쩍이는 네온 불빛이 있는 사이버펑크 스타일의 도시 야경에서 휴대용 카메라가 천천히 확대되면서 번쩍이는 전자 장비와 미래 지향적인 장식 재료에 둘러싸여 첨단 수리 도구를 사용하는 기계 스타일의 작은 원숭이가 등장합니다. 사이버펑크 스타일, 신비한 분위기, 4K 고화질.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

사이버펑크와 미래지향적인 느낌이 가득하고, 우리가 마음속으로 상상하는 그림에 더 가깝습니다.

그리고 제외하고빈센트 비디오게다가 이번에는 청잉투셍 비디오능력치도 함께 공개되었습니다.

이제 당신의 상상력과 Qingying의 창의력을 비교하여 누가 더 나은지 살펴 보겠습니다.

첫번째 사진을 봐주세요---동굴 문명



다음 영상은 Qingying이 AI Power를 사용하여 제작하고 채점한 버전입니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

영상의 마지막 부분에서 Qingying은 실제로 키 프레임에서 카메라를 흔드는 방법을 배워 영상을 더욱 신비롭게 만들었습니다.

다음은 2라운드로 가보겠습니다. 우선 사진부터 함께 살펴보시죠——파이어 드래곤 브레스



이 사진을 바탕으로 Qingying이 만든 비디오는 다음과 같이 열립니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

용이 불을 뿜을 준비를 하고 있다는 것을 상상할 수 있었지만, 그것이 땅에 있는 마을을 불태울 것이라고는 예상하지 못했지만 그것도 합리적이었다.

그러나 Zhipu AI의 전체 출시 이벤트를 살펴보면 고화질 및 영상 일관성 효과는 하이라이트의 일부일뿐입니다.복지 가치꽉 찼어요!

누구에게나 무료이며, 줄을 설 필요도 없고 횟수 제한도 없습니다!

게다가 자신의 영상에서 직접 대형 모델을 생성하는 효과도 있습니다.코그비디오능력최대 전력, 기아 마케팅에 참여하지 마십시오.

Zhipu AI에 따르면 6s 1440x960 비디오를 생성하는 데 30초 밖에 걸리지 않아 모델 추론 속도가 최대 6배 향상됩니다.



그뿐만 아니라 지금 Zhipu Qingyan에서도PC 버전그리고웹사이트에서 Wensheng Video/Tusheng Video 기능이 공개되었습니다.애플릿반면 현재는 Tusheng 비디오만 지원합니다.

개발자들에게도 좋은 소식이 있습니다. 이번에는 비디오가 대형 모델을 생성합니다.API그것도 완전히 열렸지, 그래국내 최초오!

편의성과 효율성 측면에서 이번에도 Zhipu AI가 성공했다고 말하고 싶습니다.

그럼 다음으로는 Zhipu AI의 동영상 생성 기능을 사용해 실제 테스트를 해보겠습니다.

측정된 지혜 스펙트럼 AI 버전 소라

먼저 테스트를 해보자빈센트 비디오효과.

Zhipu Qingyan 앱이나 PC 버전을 열면 Vincent Video의 입구가 기본 대화 상자에 표시됩니다.





APP를 예로 들면 인터페이스는 다음과 같습니다.



그러면 모든 것이 준비되었습니다. 프롬프트를 입력하기만 하면 됩니다.

그러나 이것이 비디오 생성의 성공과 실패의 열쇠라는 점에 유의해야 합니다.

가장 중요한 원칙 중 하나는 다음과 같습니다. 매듭! 구조! 섹스!공식은 다음과 같습니다.

  • 간단한 공식: [카메라 이동] + [장면 구축] + [자세한 내용]
  • 복잡한 공식: [렌즈의 언어] + [빛과 그림자] + [피사체(피사체 설명)] + [피사체 움직임] + [장면(장면 설명)] + [분위기/분위기/스타일]

그렇다면 그 효과는 얼마나 더 나빠질까요?

예를 들어 다음과 같이 입력하면 됩니다.커피를 마시는 어린 소년, 생성된 결과는 다음과 같습니다.



꽤 만족스럽긴 한데, 얼핏 보면 AI 같은 느낌이다.

그러나 프롬프트 단어가 공식에 따라 풍부해지면 여는 방법이 완전히 달라집니다.

카메라는 김이 모락모락 나는 커피 잔을 들고 공원 벤치에 앉아 있는 어린 소년의 모습을 보여줍니다. 나무가 늘어선 공원을 배경으로, 나뭇잎 사이로 비치는 햇빛을 배경으로 파란색 셔츠를 입은 그는 명랑해 보였습니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

아니, 갑자기 영화감이 나왔다.

그러나 지금의 공식 외에도 참조할 수 있는 몇 가지 중요한 원칙이 있습니다.

첫 번째,반복은 힘이다

프롬프트의 여러 부분에서 키워드를 반복하거나 강화하면 출력의 일관성을 향상시키는 데 도움이 될 수 있습니다. 예를 들어, 카메라는 초고속으로 현장을 날아갑니다("초고속"과 "빠른"이라는 단어는 반복되는 단어입니다).

둘째, 장면에 나타나야 하는 내용에 초점을 맞추도록 노력하세요. 예를 들어 구름 한 점 없는 하늘보다는 맑은 하늘을 알리는 신호를 보내야 합니다.

이러한 공식과 원칙을 적용하면 시도해 볼 수 있습니다.

어린 왕자와 여우는 달 위의 별들을 함께 바라보았습니다. 여우는 가끔씩 어린 왕자를 바라봤습니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

바닥에서 자고 있는 치타의 몸이 살짝 오르락내리락하는 모습을 근거리에서 사실적으로 묘사했습니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

또한 Zhipu AI 도입에 따라 몇 번 시도하면 예상치 못한 효과가 나타날 수도 있습니다(어차피 무료입니다).

빈센트 영상 이후에 다시 테스트해보겠습니다투셍 비디오

여기에는 두 가지 핵심 기술도 있습니다.

첫 번째는 업로드된 사진이 최대한 선명해야 하며 비율이 3:2이고 jpg 또는 png 형식을 사용하는 것이 좋습니다.

두 번째는 여전히 프롬프트입니다.주제가 있어야 해요를 입력한 후 "[주제]+[주제 이동]+[배경]+[배경 이동]"의 공식에 따라 Prompt를 작성할 수 있습니다.

물론 프롬프트 없이도 가능하지만, AI가 자신의 아이디어를 바탕으로 영상을 생성해 준다.

예를 들어, Tang Monk의 사진을 "피드"합니다.



그런 다음 방금 주어진 수식 기술에 따르면 프롬프트는 다음과 같습니다.

Tang Seng은 손을 뻗고 선글라스를 썼습니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

이로부터 노는 방법은 여러 가지가 있습니다.

예를 들어, Zhen Huan과 Shen Meizhuang이 "벽을 허물고" 서로 포옹하도록 해보세요.

Zhen Huan Meizhuang이 화면을 가로질러 포옹하고 있습니다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

오래된 사진을 되살리는 것은 쉽습니다:

후시는 돌아서서 떠났다.



영상 주소: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

다양한 효과로 볼 때 Zhipu AI의 Qingying은 직접 사용할 수 있는 일종의 소라입니다.

그래서 다음 질문은 다음과 같습니다.

넌 어떻게 그걸 했니?

비디오 생성 분야에서는 출력 콘텐츠의 일관성과 일관성이 최종 효과를 결정하는 핵심 요소입니다.

이를 위해 Zhipu AI에 따르면 팀은 효율적인3차원 변이 오토인코더 구조(3D VAE)는 원본 비디오 공간을 크기의 2%로 압축하여 비디오 확산 생성 모델의 훈련 비용과 훈련 난이도를 크게 줄입니다.

모델 구조 측면에서 Zhipu 팀은 다음을 채택했습니다.인과적 3차원 컨볼루션(인과적 3D 컨볼루션)은 주요 모델 구성 요소이며 자동 인코더에서 일반적으로 사용되는 주의 모듈이 제거되어 모델이 다른 해상도로 마이그레이션할 수 있는 기능을 제공합니다.

동시에, 시간 차원에서 인과적 컨벌루션의 형태는 모델이 비디오 인코딩 및 디코딩에 대해 전후 시퀀스 독립성을 가질 수 있게 해줍니다. 이것의 목적은 미세 조정을 통해 더 높은 프레임 속도와 더 긴 시간에 대한 일반화를 촉진하는 것입니다. -튜닝.

엔지니어링 배포의 관점에서 볼 때 Zhipu AI는 시간 차원을 기반으로 합니다.시퀀스 병렬성(Temporal Sequential Parallel)은 변형 자동 인코더를 미세 조정하고 배포하여 더 작은 그래픽 메모리 공간으로 매우 높은 프레임 속도 비디오의 인코딩 및 디코딩을 지원할 수 있도록 합니다.



그러나 콘텐츠의 일관성과 일관성 외에도 비디오 생성에는 또 다른 문제가 있습니다. 현재 비디오 데이터의 대부분은 해당 설명 텍스트가 부족하거나 설명 품질이 낮습니다.

이를 위해 Zhipu AI는 대규모 비디오 데이터에 대한 상세하고 콘텐츠 친화적인 설명을 생성하기 위해 엔드투엔드 비디오 이해 모델을 개발했습니다.

이러한 방식으로 모델의 텍스트 이해 및 지시 따르기 기능이 향상되어 생성된 비디오가 사용자 입력과 더욱 일치하게 만들고 매우 길고 복잡한 프롬프트 지시를 이해할 수 있습니다.

마지막으로 Zhipu AI는 텍스트, 시간, 공간의 세 가지 차원을 통합하는 Transformer 아키텍처도 개발했습니다.

전통적인 교차 주의 모듈을 포기하지만 입력 단계에서 텍스트 임베딩과 비디오 임베딩을 연결하여 두 가지 양식과 보다 완벽하게 상호 작용합니다.

그러나 두 가지 양식의 특징 공간은 매우 다릅니다. 팀은 이러한 차이를 보완하기 위해 전문가 적응형 레이어 표준을 사용하여 텍스트와 비디오 양식을 별도로 처리했습니다. 만들기 모델은 매개변수를 효율적으로 활용하여 시각적 정보와 의미 정보를 더 잘 정렬할 수 있습니다.

Attention 모듈은 3D Full Attention 메커니즘을 채택합니다. 이전 연구에서는 일반적으로 분리된 공간적 및 시간적 주의를 사용하거나 시각적 정보의 암시적 전송이 많이 필요하므로 모델링의 어려움이 크게 증가합니다. 기존의 효율적인 교육 프레임워크에 적응할 수 없습니다.

위치 인코딩 모듈은 시간 차원에서 프레임 간의 관계를 캡처하고 비디오에서 장거리 종속성을 설정하는 데 더 도움이 되는 3D RoPE를 설계합니다.

이상이 Zhipu가 Qingying이 된 배경의 핵심 기술력입니다.

하나 더

이 무료 버전 외에도 Zhipu AI는 유료 버전도 출시했으며 가격은 다음과 같습니다.

  • 5위안:24시간 고속 혜택을 누리세요
  • 199위안: 1년간의 고속권한을 잠금해제하세요

연회비를 환산하면,하루에 단 5센트

음, 실제로는 약간 향긋한 냄새가 나요.

체험링크는 아래에 있습니다~

https://chatglm.cn/video