소식

AI 영상을 '유니버설 GC' 시대로 진입시키다, 이 중국 회사가 방금 해냈다

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

집은 아오페이 사원(Aofei Temple)에서 유래되었습니다.
Qubits 공개 계정 QbitAI

더 낮은 임계값, 더 높은 품질, 더 많은 로직, 더 긴 지속 시간.

이 몇 가지 "업데이트"가 바로 오늘 아침에 데뷔했습니다.국내 AI 영상 신제품 PixVerse V2, 열이 순식간에 올라갔습니다.

그리고 그 기원은 눈길을 사로잡습니다.

이 트랙에서 가장 주목받는 국내 스타 스타트업 기업에서아이시 기술올해 상반기에만 2차례에 걸쳐 펀딩을 완료했다.

Pixverse V2의 핵심 "새로운 아이디어"를 직접 살펴보겠습니다.

모델 기술, DiT (Diffusion+Transformer) 아키텍처를 채택하고 여러 측면에서 독창적인 기술을 사용하여 생성 효과를 크게 향상시킵니다.

예를 들어, 시공간 주의 메커니즘을 도입하면 더 크고 자연스러운 비디오 생성을 달성할 수 있습니다.

아래에서 즐겁게 서핑하는 꼬마 알파카의 모습을 살펴보겠습니다. 오늘 LIama 3.1이 출시되어 상위권에 진입한 것과 매우 잘 어울리는 모습입니다.



비디오 수량 및 품질, 한 번의 클릭으로 최대 5개의 연속 비디오 콘텐츠 생성을 지원합니다.

그리고 기본 이미지, 그림 스타일 및 장면 요소의 일관성이 클립 간에 자동으로 유지됩니다.



또한, Aishi의 공식 소개에는 신제품이 다음과 같이 명시되어 있습니다.프롬프트 단어 임계값이 다시 심각하게 삭감되었습니다.

속담기법을 배웠는지 여부에 관계없이 그림 요구사항을 명확하고 간결하게 표현하면 쉽게 구현할 수 있습니다.그리고중국 상황에도 동일하게 적용됩니다.

또한, 동시에 생성된 여러 영상 사이에는 스타일, 주제, 장면의 일관성이 있습니다.——

지금 짧은 동영상을 만들어 보세요.사진을 직접 찍을 필요도 없고, 더 이상 직접 잘라낼 필요도 없습니다.

클릭 한 번으로 생성하고 다양한 플랫폼에 직접 업로드해 공유해보세요, 거위소녀!



품질과 수량 모두 보장되며 임계 값은 점점 더 낮아집니다.

AI 영상제작은 픽스버스(PixVerse), 런웨이(Runway), 루마(Luma) 등 기업의 혼란에 휩싸였다.누구나 즐길 수 있어요연대.

지속적인 창의력을 발휘할 수 있도록 최대 5개의 비디오를 생성하세요.

하지만 기다려!

우리는 다양한 회사에서 출시한 데모에 결코 쉽게 현혹되지 않을 것입니다.

그래서 오늘 아침 PixVerse V2가 출시된 것을 발견한 후 Qubits는 즉시 출시되었습니다.인간의 육체 테스트.

PixVerse 공식 웹사이트에 들어가서 왼쪽 메뉴 표시줄에 있는 PixVerse V2로 바로 이동하세요.

현재는텍스트/이미지, 비디오의 2가지 생성 모드 지원, 실제 작업에서는 둘 중 하나를 선택하거나 둘 다 함께 사용할 수 있습니다.

텍스트 입력 프롬프트 박스, 아래 사진의 노란색 박스를 클릭하시면 사진을 업로드하실 수 있습니다.



입력창 우측하단 회색박스 선택부분에도5초/8초 옵션, 필요에 따라 생성된 단일 비디오 클립의 길이를 선택할 수 있습니다.

녹색 프레임으로 선택된 장면은 생성해야 하는 특정 비디오 클립을 나타냅니다.

실제로 공식 소개에 나와 있듯이 이제 최대 5개의 비디오(즉, Scene1-5)를 생성할 수 있습니다.



모든 장면 클립의 영상 스타일은 장면 1을 따릅니다., 다른 후속 장면이 참조 이미지를 업로드하더라도 PixVerse는 다시 그리기 위해 장면 1의 이미지 스타일을 참조합니다.

한마디로 다섯 편의 영상의 스타일을 일관되게 유지하기 위해 최선을 다했습니다.

또한, 각 Scene의 프롬프트 단어/프롬트 그림을 개별적으로 입력할 수 있습니다.

완료하신 후 입력창 오른쪽 하단의 별표 버튼을 클릭하시면 생성 상태로 진입하실 수 있습니다.

경험을 통해 생성해야 하는 장면 수에 관계없이 각 생성 비용은 50크레딧(PixVerse V2의 컴퓨팅 전력 통화)이라는 것을 알게 되었습니다.

경험하는 동안 입력 내용을 준수합니다.가장 간단한 프롬프트원칙적으로 우리가 입력하는 5개의 프롬프트 단어는 다음과 같습니다.

  1. 이른 아침, 작은 흰 토끼가 침대 위에 옷을 입었어요
  2. 작은 흰 토끼는 출근길에 정원을 지나갔습니다.
  3. 작은 흰 토끼가 김이 모락모락 나는 커피 한 잔을 들고 있어요
  4. 작은 흰 토끼가 커피를 들고 엘리베이터를 기다리고 있어요
  5. 체념한 작은 흰토끼가 길을 펄쩍펄쩍 뛰었다

생성 후 옵션을 사용하여 각 비디오를 개별적으로 미세 조정할 수 있지만(피사체, 장면, 동작 및 카메라 움직임 조정), 우리는 어떠한 개입도 하지 않고 원래의 취향에 집중했습니다.



생성된 결과는 다음과 같습니다.

△영상의 느낌을 고려하여 본 영상은 재생속도를 2.5배만 가속시켰습니다.

5개의 클립이 서로 연결되어 있습니다.정식 버전을 직접 다운로드할 수 있습니다,매우 편리합니다.

좀 웃기네요. 영상 속, 사임한 작은 흰토끼 피아는 품격을 잃지 않고 작업복을 벗었습니다.

이 단계를 시작하고 실행한 후에 나는 예산에 대해 세심한 주의를 기울이는 노동자로서 놀라운 발견을 했으며 이를 모든 사람과 공유해야 합니다.

한 번에 하나의 비디오 클립만 생성하려면 PixVerse V2의 옵션을 직접 조정하고 장면 1만 삭제하면 됩니다. 메서드 1이라고 합니다.

하지만 다른 입구를 통해 PixVerse V2의 다른 모드로 들어가는 또 다른 방법(방법 2)이 있습니다.

사무실에 물어보니 하나의 비디오 클립을 생성하고 싶다면 모두 후자의 방법을 선호합니다.

왜?

첫째, 방법 2는 비디오 비율 및 비디오 스타일과 같은 매개변수를 기반으로 더 많은 조정을 수행할 수 있습니다. "원하는" 정보가 많을수록 모델이 사용자를 이해할 가능성이 높아지고 생성된 비디오 이미지가 동영상에 포함될 가능성이 높아집니다. 당신이 원하는 것과 일치합니다.

반면, 주판은 쪼개어 계산하는데, 방법 1은 1세대에 50크레딧을 소비하므로 조각 1개를 생성하든 5개를 생성하든 이만큼만 차감되지만, 방법 2는 한 세대에 30크레딧만 소모합니다.

돈을 절약하세요, 친구들!



빨리 작은 수첩을 마음속에 담아서 방법 2의 조작과정을 적어보세요——

왼쪽 메뉴 표시줄에서 텍스트를 비디오로를 클릭한 다음 "모델"에서 "PixVerse V2"를 선택하십시오.

수행될 수 있다빈센트 비디오.



그리고 프롬프트 단어에 "Anime", "Realistic"과 같은 단어를 추가하면 생성된 콘텐츠를 스타일로 변형할 수 있습니다.

현실 세계에 존재하지 않는 일부 장면을 생성한다는 점에서 요점은 어렵습니다. 프롬프트 단어 입력:

마시멜로 거인은 알록달록한 마시멜로 숲을 헤매고 있어요.

결과 생성:



알았어, 알았어, 믿을 수 없어. "마시멜로 거인"과 같은 추상적인 설명을 실제로 얻을 수 있다고는 생각도 못했어요!

블라인드 추측은 PixVerse V2의 의미론적 이해가 크게 최적화되었기 때문입니다.

비슷한 방법도 경험할 수 있습니다Tusheng 비디오 기능

왼쪽 메뉴 표시줄에서 Image to Video를 클릭하고 "Model"에서 "PixVerse V2"를 선택합니다.



앞서 언급한 모션 브러시를 PixVerse의 Tuxing 영상에서 사용할 수 없다는 점은 조금 아쉽습니다.

Tusheng Video는 현재 "페인트 및 이동" 모션 브러시를 사용할 수 없다는 점에 유의해야 합니다(지난 달 Aishi가 출시한 새로운 AI 비디오 기능입니다).

Qubit은 PixVerse V2 팀에 다음과 같이 물었습니다.모션 브러시는 곧 V2 버전에서도 사용할 수 있습니다.

Runway와 PixVerse의 모션 브러시는 신속한 단어 설명의 부족함을 보완하고 그림 움직임의 제어성을 향상시키기 때문에 이전부터 널리 호평을 받았습니다.

PixVerse V2에서 이 기능을 출시하면 모두가 더욱 즐겁게 플레이할 수 있을 것이며, 영상 속 캐릭터/오브젝트의 움직임이 물리 법칙과 더욱 일치하게 될 것이라고 생각합니다.



사람이나 동물의 "캣워크"는 AI 비디오가 근육을 과시하기 위해 항상 필수 옵션이었다는 점을 고려하여(이유는 모르겠지만) 이번에 PixVerse V2 그래픽 비디오 기능을 경험할 때 우리는 곧바로 강도 높은 쪽으로 가서거리의 우주비행사 파쿠르

프롬프트 이미지 입력:



결과 생성:



이 작업은 사진을 기반으로 비현실적인 콘텐츠의 역동성을 생성하는 약간의 스태킹 버프입니다.

더 필요한 것은 그 뒤에 있는 모델이 강력하다는 것입니다.시각적 이해

효과의 관점에서 볼 때 지속적인 비디오 생성이든, 텍스트 기반 비디오이든, 사진 기반 비디오이든 PixVerse V2는 쉽게 승리할 수 있습니다.

마지막으로, 귀하가 Wensheng이든 Tusheng이든 상관없이 생성된 모든 5초/8초 비디오의 비용은 30 크레딧이라는 점을 언급하고 싶습니다.

하지만 생성 속도가 상대적으로 빠르고 품질이 안정적이며 보장된다는 점에서 30크레딧을 지출할 가치가 충분히 있다고 생각합니다.

DiT 베이스 몰드 업데이트 지원

올해 롤의 제왕으로 알려진 AI 영상 트랙에서 아이시가 갑자기 다른 행보를 보였다.

전 세계의 모든 소라 플레이어들이 지속 시간을 확장하고, 화질을 개선하고, 난이도를 낮추고 있을 때,아이시가 하는 일은 문턱을 마구 자르는 것

프롬프트 단어가 너무 전문적일 필요는 없을 뿐만 아니라 더 중요한 것은 각각 8초씩 한 번에 최대 5개의 비디오를 생성할 수 있다는 것입니다.

이러한 1~5개의 영상 사이에는 스타일, 주제, 장면의 일관성이 보장되며, 각 영상의 프롬프트 단어 간의 논리를 바탕으로 최종적으로 약 40초 정도의 긴 영상이 합성됩니다.

일관된 줄거리와 일관된 내용을 지닌 종류.

"부드러운 움직임과 풍부한 디테일"을 갖추고 있으며 화질은 1080p에 이릅니다.



즉, 사용자는 자신이 원하는 것이 무엇인지 생각하고, 프롬프트 단어를 입력하고, 10초에서 40초까지의 시간 동안 비디오가 생성될 때까지 기다릴 수 있습니다.

사진 속 '생각을 영상으로 옮기는 것'을 실현할 수 있을 뿐만 아니라 클립이 일관되고 자연스러워 영상 제작 과정에서 시간과 노력을 절약할 수 있으며 창의적인 효율성이 크게 향상되었습니다.

PixVerse V2가 출시된 후 일부 네티즌들은 빠르게 사용하기 시작했습니다.

PixVerse V2의 등장으로 AI 영상 도구를 사용해 본 적도, 심지어 영상을 만들어본 적도 없는 많은 사람들이 이를 사용해 생성 작품 수를 0에서 5로, 작품 수를 0에서 1로 돌파하는 획기적인 성과를 거둘 수 있게 됐다.

AIGC 도구 사용 권한이 다시 한 번 위임됩니다.

AIGC 도구 사용자가 더 이상 전문 사용자에 국한되지 않고 외부로 확장되는 것은 반복적인 기술 업데이트를 통해 달성됩니다.

PixVerse V2 뒤에는 Aishi 기술이 있습니다.DiT 아키텍처의 기반이 되는 자체 개발 모델에 대한 반복적인 업데이트

이는 PixVerse의 핵심 기술이기도 합니다.

이전 상황을 검토하기 위해 Qubit은 Aishi/Wang Changhu의 외부 연설에 대한 공개 정보를 조사한 결과 처음에는 회사가 Sora 출현 이전의 주류 AIGC 접근 방식이기도 한 Diffusion+Unet 아키텍처의 기술 경로를 채택했다는 사실을 발견했습니다. , 그러나 더 나아가서, 매개변수 확장과 복잡한 명령으로 인해 Unet은 약간 부적절합니다.

따라서 Aishi는 매우 일찍(Sora가 등장하기 전) DiT 아키텍처를 시도하기 시작했으며 모델 성능을 향상시키기 위해 확장 법칙을 따랐습니다.

차가 아주 일찍 돌아서 소라의 모습은 아이시를 당황하게 하지 못했다. 오히려 경로가 정확하다는 것을 확인했기 때문에 올해 아이시의 속도는 크게 빨라졌다.



그렇다면 이번에 PixVerse V2의 DiT 기본 모델에 대한 업데이트는 무엇입니까?

첫 번째 요점은 확산 시공간 모델링입니다.

Aishi는 "더 합리적"이고 시공간 분리 및 fullseq 아키텍처보다 우수한 고유한 시공간 주의 모델링 메커니즘을 만들었습니다.

이 메커니즘은 시간과 공간에 대한 더 나은 인식을 제공하며 복잡한 장면을 더 잘 처리할 수 있습니다.

두 번째 요점은 텍스트 이해에 있습니다.

프롬프트를 이해하는 PixVerse V2의 능력이 크게 향상되었습니다. 그 이면에는 텍스트 정보와 비디오 정보를 더 잘 정렬할 수 있는 다중 모드 모델을 사용하여 생성된 결과가 제작자가 의도한 대로 생성됩니다.

제삼, 더 높은 컴퓨팅 효율성을 얻기 위해 PixVerse V2는 기존 Flow 모델을 기반으로 손실에 가중치를 부여하여 모델이 더 빠르고 더 효과적으로 수렴할 수 있습니다.

또 다른 포인트, 더 나은 3D VAE 모델을 설계한 것은 PixVerse V2의 R&D 팀입니다.

비디오 압축 품질을 향상시키기 위해 시공간 주의 메커니즘이 도입되었으며, 비디오 압축 및 재구성 결과를 더욱 향상시키기 위해 지속적인 학습 기술도 사용되었습니다.



AI의 축복을 받은 "간단하고 흥미로운" UGC 경향

AIGC는 올해 가장 잘 알려진 주제입니다.

하지만AIGC를 적용할 수 있는 능력은 실제로 여전히 소수의 사람들의 손에 달려 있습니다., 프로그래머, 디자이너 및 기타 전문가 등.

AIGC는 아직 UGC와 같은 보편적인 'GC' 단계에 진입하지 않았습니다.

이러한 상황에 직면하여 1년여 전 설립된 Aishi Technology가 행한 일을 요약하면 다음과 같습니다.

  • AI 기술 역량을 지속적으로 개선
  • 동사 "G(생성)"의 주어 그룹을 확장합니다.
  • "C(Content)" 품질 수준에 주목하세요.

이것은 PixVerse V2에 반영되었을 뿐만 아니라, 앞으로도 같은 맥락으로──

리뷰에 따르면 PixVerse V2의 출시는 실제로 회사가 AI 비디오 기능 및 제품에 움직임을 보인 세 번째입니다.

올해 1월, Aishi는 Vincent의 비디오 제품인 PixVerse의 웹 버전을 공식 출시하여 월간 방문 수가 빠르게 백만 명을 넘어섰습니다.

지난 4월에는 자체 개발한 영상모델을 기반으로 개발된 C2V(Character to Video, Role Consistency) 기능을 출시해 웹페이지에서 사용할 수 있게 됐다.

PixVerse는 캐릭터 특징을 정확하게 추출하고 이를 비디오 생성 모델에 깊이 삽입함으로써 캐릭터를 고정하고 AI 비디오 제작의 일관성 문제를 초기에 해결할 수 있습니다.

지난 6월에는 매직브러쉬 모션 브러시를 출시해 영상 화면에 스미어링하고 영상 요소의 움직임과 방향을 정확하게 제어할 수 있다.

런웨이 이후 유사한 기능을 출시한 최초의 AI 영상세대 기업이기도 하다.



반년에 세 번 정도는 드문 일이 아니지만, 처음 두 번은 행동이 다소 은근해 보였습니다.

이는 스타트업 회사가 일을 다듬는데 집중하려는 의지와 관련이 있을 수도 있고, 왕창후와 다른 리더들의 절제된 성격과 관련이 있을 수도 있지만, 우리는 알 수 없습니다.

그런데 국내 AI 영상트랙 선두 헤드인 아이시테크놀로지(Aishi Technology)라는 것은 많은 사람들이 알고 있으면서도 왜 헤드인지, 사용하기 쉬운지는 잘 모르는 현상이다.

이제 PixVerse V2가 출시되었으므로 남녀노소, 전문가와 비전문가 모두 개인적으로 사용할 수 있으며 실제로 매우 효과적이라고 느낄 수 있습니다. 이것이 PixVerse V2가 출시된 후 즉각적인 인기를 얻은 이유 중 하나입니다.

그리고 다양한 활동을 되돌아보면 이러한 여러 제품 기능 업데이트가 모두 하나의 본체를 중심으로 이루어졌다는 것을 어렵지 않게 찾을 수 있습니다.AI 비디오 제작을 더욱 실용적이고 간단하게 만듭니다.

동시에, 이전 제품의 기능은 전문가의 사용 경험에 중점을 두었음을 알 수 있습니다.

이는 또한 왕창호가 이전에 한 연설을 뒷받침합니다.

AI 네이티브 영상이 콘텐츠 산업의 생산과 소비 링크에 통합될 수 있기를 기대한다.

그러나 PixVerse V2는 다릅니다. 이 세대의 제품은 더 넓은 범위의 일반 사람들이 AI 비디오 제작에 접근할 수 있도록 하는 방법에 중점을 둡니다.

결국 Magic Brush는 사용하기 쉽고 유용하지만 여전히 사용자가 AI 비디오를 생성해야 합니다.

비디오 프롬프트는 텍스트 생성 및 텍스트 생성 프롬프트보다 어렵고 일반 사람들이 AI 비디오 생성을 사용하는 데 걸림돌이 되는 경우가 많습니다.

PixVerse V2가 포착하는 것은 훌륭합니다——

프롬프트 단어의 난이도 낮추기, 선택적 미세 조정, 생성된 콘텐츠의 경계 확장, 후반 단계의 편집 제거 등 다양한 측면에서 AI 영상 제작 비용을 최대한 절감하려고 노력합니다.

결과는 어떻게 될까요?

모든 사람,누구에게나 기회가 있고 누구나 참여할 수 있습니다., 당신의 상상력을 눈에 보이는 비디오 작품으로 바꿀 수 있습니다.

참여의식이 강하기 때문에 더 많은 사람, 심지어 모든 사람이 창의력을 발휘하고 AI 영상 제작에 참여할 수 있습니다.

장기적으로는,점차적으로 AI 시대의 UGC 생태계가 형성될 것이며, UGC보다 더 단순하고 재미있을 것입니다.

나는 이전에 흥미로운 밈 사진을 본 적이 있으며, 많은 친구들도 그것을 본 것으로 믿습니다.



"PixVerse는 Runway, Pika, SVD 등 당시 최고의 비디오 세대 제품과 함께 맨 앞줄에 서게 된 것을 영광으로 생각합니다. 또한 이 사진에 등장하는 유일한 중국 회사이기도 합니다." 농담으로 "하지만 반면에 우리 앞에는 거인이 있고 아직 그것을 더 뛰어넘어야 한다"고 농담한다.

AI 2.0 시대, 특히 소라가 큰 파장을 일으킨 이후 AI 영상이 멀티모달 트랙의 초점이라는 점은 부인할 수 없다.

모든 거대 기업, 주요 제조업체, 신생 기업의 넘치는 열정은 한 가지 문제를 보여줍니다.

AI 영상은 시장 잠재력을 확대하고 자극하고 있으며, AI 다중 모드 대형 모델이 주도하는 혁신이 성장하고 있습니다.

Aishi는 이 밈 사진에 등장할 수 있으며, 사진에 등장하는 유일한 중국 회사입니다. 그 이유는 매우 분명합니다.

한편으로는 아이시테크놀로지의 모델 기술과 자체 개발한 베이스 몰드를 바탕으로 성장한 제품 효과도 인정받고 있다.

반면에,어떤 기술의 물결에 속해 있든 스타트업은 전 세계의 주목을 받게 될 것입니다.

검색전쟁 당시 구글은 혁신적인 웹페이지 순위 알고리즘인 페이지랭크(PageRank)를 이용해 야후의 사용자를 빼앗고 심지어 후발주자까지 따라잡으며 오늘날까지 검색시장의 선두주자가 됐다.

빅 언어 모델 초기에는 Transformer가 Google에서 나왔지만 GPT는 (당시) 소규모 연구 기관인 OpenAI의 주도였으며 점차 오늘날의 GPT-4o로 이어져 추구 대상이 되었습니다.

오늘날 OpenAI의 추구자이자 경쟁자 중에는 Google이 있습니다.

대기업과 거대 기업의 포위 공격에 직면하더라도 업계와 빛나는 스타에 불을 붙이는 불꽃을 터뜨리는 스타트업의 이야기는 언제나 있다.

아이시테크놀로지가 기술과 제품으로 쓰고 있는 것은 바로 스타트업 기업만의 스토리인 AI 영상트랙이다.