비디오세대전쟁 2.0! 대형 제조업체는 기본 모델에 열중하고 스타트업은 5개월 만에 44억 달러를 유치했습니다

비디오세대전쟁 2.0!대형 제조업체는 기본 모델에 열중하고 스타트업은 5개월 만에 44억 달러를 유치했습니다.

2024-07-24

스마트한 것들(공개 계정:지드엑스컴）
작가바닐라
편집하다리 슈이칭

2024년 대형 모델의 가장 인기 있는 트랙을 이야기하려면 영상 생성이 반드시 포함되어야 합니다.

지난 2월 소라가 AI 영상세대의 새 시대를 연 이후, 올해 6월 집중모델 출시로 영상세대 전쟁은 새로운 정점에 이르렀다.

"차세대 인공지능 영화·텔레비전이 온다", "볼륨이 너무 커서 노래하면 우리가 나타나는 것 같다", "드디어 PPT 시대를 탈피할 희망이 생겼다", "AI가 활용될 것 같다" 조만간 MV 제작 예정"...AI 영상 제작자나 실무자들 사이에서 가장 흔히 볼 수 있는 감정은 '설렘'이다.

소라 출시 이후 슈퍼8집국내외 AI 기업들은 새로운 제품이나 모델을 잇달아 출시하며 시시각각 새로운 제품을 탄생시키고 있다.10초 이상영상은 공개적으로 공개되고, 일부는 장기간 구현된 것으로 전해진다.2분초장편 영상세대, AI 영상세대 트랙이 뜨거운 2.0 전쟁을 일으켰다.

이 방법,바이트영상 생성 시간을 일반적인 3~4초에서 12초로 늘린 AI 영상 생성 제품 Jimeng을 최초로 출시하세요.빠른 일꾼커링(Ke Ling)의 대형 모델이 갑자기 공개됐고, 그 놀라운 효과는 인터넷을 통해 열띤 토론을 불러일으켰고, 줄을 선 사람의 수는 거의 100만 명에 달했습니다.

▲콰이쇼우켈링을 위해 줄을 서 있는 지원자 수

거기다 스타트업루마 AI"3D 비디오 프로젝션을 포기하고" Dream Machine을 출시하여 유명 베테랑 플레이어와 함께 게임에 참여하세요.통로이에 뒤처지지 않기 위해 차세대 Gen-3 모델을 출시하여 물리적 시뮬레이션 기능을 새로운 차원으로 끌어올렸습니다.

▲Gen-3 영상 생성 효과

자금 조달 전장에서도 전쟁은 치열합니다. 국내의,Aishi 기술, Shengshu 기술3월부터 해외에서 10억 달러 규모의 자금 조달을 잇달아 획득했으며,피카지난 6월에는 8천만 달러의 자금 조달을 받아 기업 가치가 5억 달러로 두 배 증가했습니다.통로최대 4억5000만 달러 규모의 자금 조달을 준비 중인 것으로 알려졌다.

소라(Sora)는 AI 영상 세대계를 충격에 빠뜨린 블록버스터와도 같다. 5개월 간의 치열한 추적 끝에 이제 국내외 AI 영상 생성 제품의 발전 상황은 어떠한가? 소라와 경쟁할 수 있나요? 어떤 어려움에 직면하게 될까요? Zhidongxi는 사용 가능한 제품에 대한 수평적 경험과 실무자 및 창작자와의 토론을 통해 이러한 문제에 대한 심층적인 분석을 제공합니다.

실제 측정에서는 영상 생성 속도가 빨라지고, '롤오버' 현상이 대폭 줄어들었으며, 단순한 'PPT 스타일' 패닝이 각도와 움직임 변화가 있는 움직임으로 진화한 것을 확실히 느낄 수 있다. 전반적인 경험을 통해 무료 제품 중 가장 좋은 결과는 지속 시간, 안정성 및 물리적 시뮬레이션 측면에서 선두에 있는 Jimeng 및 Keling입니다.

파이낸싱 측면에서는 소라 출시 전과 비교해 AI 영상 생성 관련 파이낸싱 밀도와 금액이 크게 늘어나 5개월 만에 44억 달러 이상을 유치하며 '업스트림 및 다운스트림'에서도 다른 제품을 견인했다. AI 편집, AI 조명 등 영상 제작 과정의 모든 부분은 자본이 선호합니다. 또한 게임에 새로운 플레이어가 많이 참여하고 있으며 일부는 제품이나 기술을 출시하기 전에 수억 달러의 자금을 모금했습니다.

1. 기술 전투: 롤 지속 시간, 롤 고화질, 롤 물리 시뮬레이션

지난 2월 16일 오픈AI는 AI 영상 세대의 궤도를 하루아침에 뒤집은 소라(Sora)를 출시했다. 그러나 5개월이 지난 지금도 소라는 여전히 선물상품이고, 일반 대중이 언제 이용할 수 있을지는 요원해 보인다.

이 기간 동안 국내외 주요 제조업체와 스타트업은 신제품이나 모델 업그레이드를 서두르며 대부분이 모든 사용자에게 공개되었으며 이로 인해 AI 영상의 패턴도 바뀌었습니다. 다시 세대. 결국 소라가 아무리 좋아도 사용하지 못한다면 무슨 소용이 있겠습니까?

Zhidongxi의 불완전한 통계에 따르면 Sora 출시 이후 최소한8채회사는 Shengshu Technology의 Vidu를 제외한 모든 신제품 또는 모델을 출시했습니다.공개적으로 사용 가능。

▲AI 영상세대 제품 출시/모델 업그레이드(Smart East-West Tabulation)

2월 21일안정성 AI AI 영상 생성 제품인 Stable Video의 웹 버전이 공식 출시되어 모든 사용자에게 공개되었습니다. 기본 모델인 Stable Video Diffusion이 작년 11월 오픈 소스로 출시되었지만 여전히 모델로서 특정 배포 및 사용 임계값이 있으며 웹 버전으로 패키징되어 출시된 후에도 더 많은 사용자가 쉽고 편리하게 시작할 수 있습니다.

4월 27일성수 기술Vidu는 Tsinghua University와 공동으로 최대 16초 길이의 1080P 해상도로 비디오를 생성할 수 있고 실제 물리적 세계를 모방할 수 있는 장시간 지속적이고 일관성이 뛰어나며 역동적인 대규모 비디오 모델을 출시했습니다. .

공개된 데모를 보면 Vidu는 명확성, 동작 범위, 물리적 시뮬레이션 등의 측면에서 실제로 좋은 결과를 얻었습니다. 그러나 불행히도 Sora와 마찬가지로 Vidu는 아직 출시되지 않았습니다. Zhidongxi는 Shengshu Technology에 문의하여 제품이 가까운 시일 내에 내부 테스트를 시작할 것이라는 사실을 알게 되었습니다.

▲Shengshu 기술 Vidu 비디오 데모

5월 9일바이트Jiuying이 소유한 AI 창작 플랫폼인 Dreamina는 'Jimeng'으로 이름을 바꾸고 AI 그리기 및 AI 동영상 생성 기능을 출시하여 최대 12초 길이의 동영상 생성을 지원합니다.

6월 6일빠른 일꾼 AI 영상 대형 모델 케링(Keling)이 콰이잉(Kuaiying) 앱에 출시됐다. 사용자는 설문지 작성만 하면 사용 신청이 가능하다. Keling Large Model은 많은 AI를 당황하게 만드는 "국수 먹기" 문제와 같은 물리적 세계의 특성에 대한 고강도 시뮬레이션에 중점을 두고 있으며, 이는 제공하는 비디오 사례에 반영됩니다.

현재 Keling은 5초, 10초의 고정된 길이의 비디오 생성을 지원합니다. 공식 홈페이지에 따르면 이 모델은 프레임 속도 30fps, 해상도 1080P로 최대 2분 분량의 동영상을 생성할 수 있으며, 향후 동영상 연속 재생 등의 기능도 출시될 예정이다.

6월 13일, 이전에는 주로 AI 기반 3D에 주력했던 스타트업루마 AI텍스트와 이미지를 합쳐 5초짜리 영상 생성을 지원하는 영상 생성 툴 드림머신(Dream Machine)을 출시했다. 생성된 영상을 한번에 5초씩 연장할 수 있는 영상 확장 기능도 제공한다.

6월 17일통로 차세대 모델 Gen-3 알파 버전이 출시되어 7월 2일 모든 유료 사용자에게 제공될 예정이며 월 최소 구독료는 $15입니다. Gen-3은 현재 텍스트 기반의 5초 및 10초 비디오 생성을 지원하며 기타 제어 가능한 도구는 아직 제공되지 않습니다.

▲Gen-3 Alpha는 비디오 효과를 생성합니다

7월 6일지능형 미래(HiDream)은 WAIC에서 5초, 10초, 15초의 세 가지 비디오 생성 기간을 제공하고 텍스트 임베딩 생성, 스크립트 멀티샷 비디오 생성, IP 일관성과 같은 기능을 추가하는 지능형 이미지 모델 2.0을 출시했습니다.

지난 7월 17일, 이전에 AI 3D 재구성에 주력했던 영국의 AI 스타트업하이퍼 AI는 자사의 AI 영상 생성 제품 하이퍼(Haiper)가 v1.5로 업그레이드돼 지속 시간이 8초로 확장되고 영상 확장, 화질 향상 등의 기능을 제공한다고 밝혔다.

다음 표에는 이러한 모델의 생성 시간, 해상도, 프레임 속도 및 기타 매개변수와 기본 생성 외에 추가 기능이 나와 있습니다.

▲업그레이드된 AI 영상 생성 제품 매개변수(Smart East-West Tabulation)

매개변수 관점에서 볼 때, 이러한 AI 비디오 생성 제품은 먼저 생성 시간에서 상당한 진전을 이루었습니다. 기본 생성 시간은 이전 2~4초에서 5초로 연장되었으며, 절반 이상이 10초를 초과하는 지속 시간을 지원합니다. 초, 일부 제품은 확장 기능을 제공합니다. 현재 무료로 제공되는 제품 중 생성된 영상 중 가장 긴 동영상은 Jimeng의 12초입니다.

시각 효과 측면에서는 720P 이상을 지원하는 제품이 많아졌고, 프레임 속도도 이전 제품에서 생성된 영상 해상도가 대부분 1024* 정도였습니다. 576이고 프레임 속도는 약 1024*576이었습니다. 속도는 대부분 8-12fps입니다.

2. 제품 전쟁:실습 테스트6개의 무료 "스팟", "디쿠아이"가 앞장서고 있습니다.

Sora가 처음 출시되었을 때 Zhixixi는 중국에서 사용할 수 있는 8개의 AI 비디오 생성 도구에 대한 심층적인 경험을 갖고 있었습니다. 당시에는 여전히 격차가 비교적 뚜렷했고 '롤오버'가 많았습니다. (전체 네트워크에서 최초의 "중국어 버전 Sora"가 검토되었습니다! 15개 회사가 경쟁했으며 Byte가 선두를 달리고 있습니다)

그렇다면 몇 달 간의 반복적인 업그레이드 후에 새로운 답변을 제출한 플레이어의 성과는 어떻습니까? Zhidongxi는 새로 출시되거나 업그레이드된 AI 비디오 생성 제품을 경험해 보았습니다. 공정성을 위해 무료 기능만 사용해 보고 처음 생성된 비디오를 선택했습니다.

비디오 생성 자체에는 "카드 그리기"와 유사한 행운의 요소가 있으며 프롬프트 단어 작성과도 밀접한 관련이 있으므로 소수의 경우가 모델의 능력을 완전히 나타내지는 않습니다.

저는 1층을 선택했어요정물 장면, 프롬프트 단어는 다음과 같습니다.따뜻한 일몰 빛을 받은 튤립의 클로즈업。

안정적인 영상은 이 프롬프트에서 높은 안정성을 보여주며 동시에 영상 선명도와 색상 풍부도가 상대적으로 높습니다. 움직임 측면에서는 렌즈의 움직임이 주요 초점입니다.

▲안정적인 비디오가 비디오를 생성합니다

드림 머신의 영상 선명도는 분명히 한 단계 낮았지만 프롬프트 단어의 성능은 여전히 상대적으로 정확하고 움직임도 주로 렌즈의 번역을 기반으로 합니다.

▲드림머신은 영상을 생성한다

Haiper에서 생성한 비디오는 시각적 효과가 좋지만 동작 범위가 약간 더 작습니다.

▲하이퍼(Haiper)가 동영상을 생성하다

Zhixiang의 대형 모델의 성능도 좋고 사진의 피사계 심도 효과가 강하지만 꽃잎을 자세히 보면 디테일에 결함이 있고 불안정하다는 것을 알 수 있습니다.

▲지샹 대형 모델 생성 영상

Ji Meng은 주로 튤립의 흔들림에 의해 동작이 지배되는 고정 렌즈 사진을 생성했으며 전체적인 효과는 상대적으로 안정적이었습니다.

Keling이 생성한 비디오는 "클로즈업"이라는 프롬프트 단어를 극도로 표시하는 동시에 사진의 선명도가 높고 꽃잎의 질감을 묘사합니다. 하지만 그렇다고 해도 '튤립 클로즈업'을 어떻게 이해해야 하는지는 정답이 정해져 있는 문제가 아니기 때문에 누가 옳고 누가 그르다고 말할 수는 없다.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling은 비디오를 생성합니다

전반적으로 정물 장면에서 다양한 플레이어의 성능이 매우 안정적이며 생성된 비디오의 유용성이 매우 높습니다.

저는 2층을 선택했어요동물 장면, 스타일화 및 동적 동작 요소가 추가되었습니다. 프롬프트 단어는 다음과 같습니다.만화 캥거루 춤 디스코 . 이것은 실제로 소라가 제공하는 사례 중 하나입니다. 먼저 소라의 교정을 살펴보겠습니다.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲소라가 영상 케이스를 생성하다

이 수준에서는 안정적인 비디오가 "출시"됩니다. 사진의 첫 번째 프레임은 완벽합니다. 이는 비디오 생성 시 Stable Video에서 선택한 경로와 관련이 있을 수 있습니다. 먼저 사용자가 선택할 수 있는 4개의 이미지를 생성한 다음 이를 기반으로 비디오를 생성합니다. 사용자가 선택한 이미지 - 그리고 캥거루의 온몸이 비틀리고 변형되기 시작했습니다.

더 흥미로운 점은 사진 속 배경의 캐릭터와 의인화된 동물들은 크게 문제가 되지 않는다는 점이다. 스테이블 비디오를 당황하게 만든 것은 '디스코 댄스' 액션 때문이 아닐까.

▲안정적인 비디오는 비디오 효과를 생성합니다

드림머신으로 생성된 영상의 전체적인 안정성은 좋은 편이나, 캥거루의 발이나 손 등 디테일한 부분에서는 안정성이 부족한 부분이 있습니다. 가동 범위 측면에서는 캥거루 자체의 움직임에 더해 클로즈업에서 파노라마로 렌즈 전환도 거칩니다.

드림머신의 영상 확장 기능을 다시 시도해 보았는데, 영상이 나온 후 5초 후에 확장 기능으로 생성되는 콘텐츠가 나옵니다. 단발에 국한되지 않고 전신에서 상체 클로즈업으로 전환되는 것을 볼 수 있다. 하지만, 확장된 영상에서는 배경의 캐릭터들이 더욱 안정되어 있지만, 캥거루는 더욱 불안정합니다.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-만화-캥거루-디스코-댄스.-a318b1.mp4

▲Dream Machine은 비디오 효과를 생성합니다.

하이퍼가 생성한 캥거루는 어느 정도 왜곡되어 '디스코'라는 키워드를 반영하지 않습니다.

▲하이퍼(Haiper)가 동영상을 생성하다

이 수준에서 Zhixiang의 대형 모델은 Stable Video와 마찬가지로 사진 본체가 크게 왜곡되어 "디스코"효과를 반영하지 못했습니다.

▲지능형 코끼리 모델은 비디오 효과를 생성합니다.

Jimeng이 생성한 비디오의 전반적인 시각 효과는 상대적으로 우수하며 선명도가 높고 색상이 풍부합니다. 안정성 측면에서는 처음 몇 초 정도는 비교적 정상적이었지만 마지막 3초 정도에는 눈에 띄는 왜곡이 발생해 왜곡 정도는 드림머신과 비슷했다.

의미론적 이해 측면에서 그림은 특정 "춤추는" 동작을 보여 주지만 "디스코"와는 거의 관련이 없습니다. 또한 사진 배경의 텍스트는 "유령 그림 기호"처럼 보입니다.

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲꿈이 만들어낸 비디오 효과

Keling이 생성한 영상은 전체적으로 비교적 안정적이며 주요 문제가 손과 눈알에 집중되어 있습니다. 그러나 의미론적 이해 측면에서 '디스코'라는 키워드는 반영되지 않는다.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲비디오 효과를 생성하는 데 사용할 수 있습니다.

전반적으로 Dream Machine, Ji Meng, Ke Ling이 이 수준에서 더 좋은 성적을 냈지만 그들 중 누구도 Sora의 수준에 도달하지 못했습니다. 또한 이 프롬프트 단어는 색상 경향, 스타일 선택, 렌즈 전환 등 각 모델의 미학적 차이도 보여줍니다.

세 번째 수준은 다음과 같이 설정됩니다.캐릭터 클로즈업, 사용되는 프롬프트 단어는 다음과 같습니다.배경에는 지구와 달이 있고 헬멧 바이저에 반사된 별이 있는 우주 정거장 밖에 떠 있는 우주비행사의 클로즈업。

Stable Video는 이 수준에서 좋은 성능을 보여 '우주 비행사', '지구', '달', '별 반사' 등의 키워드를 정확하게 묘사했으며 안정성도 매우 높았습니다. 움직임이라는 측면에서는 단순한 렌즈 이동이 아니라 배경에 대한 사진 속 피사체의 움직임입니다.

▲안정적인 비디오가 비디오를 생성합니다

드림머신은 '우주비행사'를 완전히 잊어버린 채 뒤집어지고 우주의 풍경을 그렸다.

▲드림머신은 영상을 생성한다

하이퍼는 이 정도 수준에서 좋은 활약을 펼쳤는데, '달'은 빠졌지만 다른 키워드도 반영됐고, 헬멧에 비친 모습도 아주 자연스러웠다.

▲하이퍼(Haiper)가 동영상을 생성하다

Zhixiang의 대형 모델은 처음에 프롬프트 단어 생성을 거부하여 민감한 내용이 있음을 나타냅니다. 여러 컷을 거쳐 마침내 "우주정거장 밖에 떠 있는 남자의 클로즈업" 영상을 제작했습니다.

그림의 전체적인 효과는 비교적 사실적입니다. 최종 프롬프트 단어에는 내용을 반영하는 '우주 정거장'이라는 키워드만 포함되어 있지만 여전히 지구와 우주복과 같은 요소를 묘사합니다. 하지만 주인공은 우주헬멧도 쓰지 않고, 숨을 쉬는 법도, 말하는 법도 모른다(도제).

▲지능형 코끼리 모델은 비디오 효과를 생성합니다.

지몽은 캐릭터의 디테일을 비교적 잘 표현하고 있으며, 얼굴이나 의상도 비교적 섬세하고 안정감도 매우 높은 편이다. 게다가 사진의 배경에는 제2의 '지구'가 있는 것 같다. '클로즈업'보다는 '클로즈업'에 가깝습니다.

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲즉시 드림생성 영상

Keling이 생성한 영상에는 처음에는 등장 인물이 없었고 우주비행사가 천천히 장면에 들어왔지만 배경은 조용해서 유머러스한 느낌이 들었습니다. 그러나 모든 키워드를 반영하고 일부 플레이어가 놓친 '우주 정거장'을 묘사하는 등 이미지 자체의 정확성과 안정성은 여전히 매우 높습니다.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling은 비디오를 생성합니다

캐릭터 레벨의 전반적인 성능은 정물 장면만큼 안정적이지는 않지만 이전 레벨보다 훨씬 좋습니다. 이는 풍부한 훈련 데이터와 작은 동작 범위와 관련이 있을 수 있습니다. 이 수준에서 더 나은 성능을 발휘하는 것은 Stable Video, Haiper, Ji Meng 및 Ke Ling입니다.

종합적으로, Zhidongxi가 이번에 경험한 6가지 AI 영상 생성 제품 중,꿈, 정신 생성 효과의 이점은 지속 시간과 안정성 측면에서 상대적으로 분명하며 우수한 성능을 달성했습니다. 또한 Morph Studio, NeverEnds 등 국산 제품도 매우 효과적이지만 Sora 출시 이후 새로운 제품이나 모델 업그레이드가 없었기 때문에 이 경험의 범위에 포함되지 않습니다.

3. 자본을 위한 전투:5월간 이익4410억, 새로운 플레이어 등장

Sora가 출시되었을 때 다시 한 번 원래 GPT-4와 마찬가지로 생성적 AI 열풍을 불러일으켜 Vincent Video 컨셉 주식의 일일 집합적 한도가 촉발되었습니다.

1차 시장은 또한 카니발의 새로운 물결을 불러오고 있습니다.Zhidongxi의 불완전한 통계에 따르면 Sora가 출시된 후 5개월 동안 적어도5AI영상세대트랙 스타트업이 당선100만원 이상총 자금 조달 규모는 약 12억 위안이며, 런웨이는 신규 자금 조달로 4억 5천만 달러(약 32억 6800만 위안)를 협상 중인 것으로 알려졌다.

▲AI 영상세대 관련 대규모 투자 및 자금조달(Smart East-West Tabulation)

국내의,아이시 기술지난 3월과 4월 각각 20억 달러 규모의 펀드를 조달해 앤트 등 유명 투자자들의 호감을 샀다. 이전에는 지난해 8월에만 수천만 위안 규모의 엔젤 라운드 자금 조달을 받은 바 있다.

올해 1월 아이시테크놀로지는 AI 영상 생성 제품인 픽스버스(PixVerse)의 해외 버전을 출시하면서 당시 피카, 런웨이와 경쟁하는 강력한 다크호스로 떠올랐다. 소라가 출시된 후 창업자 왕창후는 3~6개월 안에 따라잡을 것이라고 말한 바 있다.

5개월이 지났지만 Aishi Technology는 아직 기본 모델의 반복 업데이트를 출시하지 않았지만 캐릭터 일관성 및 모션 브러시와 같은 새로운 기능을 연속적으로 출시했습니다. Zhidongxi는 제품 진행 상황에 대해 물었고 차세대 모델과 새로운 기능에 대해 알게 되었습니다."빈센트 비디오 장편영화”은 이번 주에 출시될 예정이며,지속시간 8초비디오와 수한 번에 3-5개의 연속 오디오 비디오 생성。

▲PixVerse, 모션 브러시 기능 출시 (출처: Aishi Technology)

성수 기술 또한 Baidu Venture Capital이 기존 주주로서 계속 투자하는 가운데 단 3개월 만에 두 차례 연속 수억 위안 규모의 자금 조달을 받았습니다. 이전에 Shengshu Technology는 누적 총액이 1억 위안이 넘는 2차례의 자금 조달을 받았습니다.

샌드 AI 최근 대중의 주목을 받기 시작한 스타트업으로, 아직 제품 출시는 없습니다. 샌드AI는 지난 5월 캐피탈투데이가 주도한 시리즈A 파이낸싱에서 수천만 달러를 받은 것으로 7월 10일 밝혀졌다.

샌드AI는 2023년 10월 설립됐으며 소라와 유사한 영상 생성 기술을 주로 개발하고 있다.창립자라는 점은 주목할 가치가 있습니다.조유에예Light Years Beyond의 공동 창립자 중 한 명, 베이징 Zhiyuan AI 연구소의 시각적 모델 연구 센터 소장 및 Microsoft Research Asia의 수석 연구원을 역임했습니다.

공개 정보에 따르면 Cao Yue는 칭화 대학교에서 학사 및 박사 학위를 모두 취득했으며 최고의 컴퓨터 비전 컨퍼런스인 ICCV에서 최우수 논문으로 Marr 상을 수상했으며 Google Scholar에서 40,000회 이상 인용되었습니다.

▲조위에(사진출처: 개인 홈페이지)

하이퍼 AI 영상발전 업계에 새로 진출한 스타트업이기도 하다. 이 회사는 2022년에 설립되었으며 영국 런던에 위치하고 있으며 이전에는 AI 기반 3D 재구성에 중점을 두었습니다.

지난 3월 외신 보도에 따르면 하이퍼 AI는 앞서 2022년 4월 540만 달러를 조달한 데 이어 시드 라운드 파이낸싱으로 1380만 달러(약 1억 위안)를 받았다.

Haiper AI의 창립팀은 두 명의 중국인으로 구성되어 있습니다. Yishu Miao는 한때 TikTok의 글로벌 신뢰 및 안전 팀에서 근무했으며 Ziyu Wang은 DeepMind에서 연구원으로 근무했습니다. 지난해 말 하이퍼 AI 팀은 비디오 생성에 집중하기로 결정하고 12월 같은 이름의 첫 번째 비디오 생성 제품의 베타 버전을 출시했습니다.

▲하이퍼, 동명 제품 베타 버전 출시

피카 지난 6월에는 약 8천만 달러(약 5억 8100만 위안)의 새로운 자금 조달을 받았으며 가치는 거의 5억 달러로 두 배 증가했다고 발표했습니다. 피카는 지난해 11월 2억~3억 달러 규모의 총 5500만 달러 자금 조달을 완료했다고 발표했다.

7월 2일 AI영상생성트랙 '올드플레이어'통로미화 4억 5천만 달러(약 32억 6,800만 위안), 평가액 40억 달러의 신규 자금 조달을 협상 중인 것으로 밝혀졌습니다.

런웨이의 마지막 펀딩은 지난해 6월 완료됐으며, 투자자로는 구글, 엔비디아 등이 참여해 1억 4100만 달러로 펀딩 금액이 15억 달러에 달해 총 펀딩 규모는 2억 3700만 달러에 이르렀다. 이번 펀딩이 성사된다면 펀딩 금액과 평가액 모두 2배 이상 증가하게 될 것입니다.

일반적으로 Sora 출시 후 지난 몇 달 동안 1차 시장에서 새로운 AI 영상 세대 파이낸싱이 지속적으로 등장했으며, 그 빈도도 늘어났을 뿐만 아니라 단일 파이낸싱 금액도 크게 증가했습니다. 이전 총액을 초과했습니다. 일부 스타트업에서는 제품 출시나 모델 업그레이드가 없더라도 이것이 투자자들의 열정을 막을 수는 없습니다.

4. 150일간의 AI 영상전쟁, 'PPT'부터 진짜 '영상'까지

Sora의 "투명" 기간인 150일 동안 많은 주요 제조업체 및 스타트업의 "포위" 하에서 주류 AI 비디오 생성 제품과 Sora 간의 격차가 크게 단축되었으며 한 가지 중요한 점이 있습니다.사용할 준비가, 심지어 많은 기능도 여전히 무료입니다.

현재 헤드 AI 비디오 생성 제품은 우수한 지속 시간과 안정성을 달성했으며 다음 반복의 초점은 물리적 시뮬레이션입니다. 공식적으로 공개된 데모를 보면 Gen-3, Keling, Jimeng, Vidu가 현실 세계를 높은 수준으로 시뮬레이션했으며, 상영된 사례는 Sora에서 출시한 사례와 거의 동일합니다.

그렇다면 크리에이터의 관점에서 볼 때 현재의 제품 경험은 어떤가요?

최근에,감독이자 AI 영화 및 TV 제작자 Chen Kun(Xianren Yikun)은 AI 단편 드라마 '산과 바다'의 예고편을 리메이크하여 원작과 비교했습니다.

단편 극 초연에서 그는 Zhixixi 및 기타 매체에 반년 만에 AI의 발전이 여전히 매우 분명하다고 말했습니다.물리 시뮬레이션측면에서 볼 때 그의 의견으로는 달성되었습니다.세대 간"반복. 구체적으로 이 단계에서 Keling과 같은 비디오 생성 모델은 네이티브 고화질을 달성했으며 더 이상 슬라이스된 사진 콘텐츠에 의해 구동되지 않습니다. 본체 움직임이 합리적이고 움직임 범위가 클 뿐만 아니라 부드럽습니다. 그러나 동시에 AI 비디오 생성 기술은 여전히 캐릭터 일관성, 장면 일관성, 캐릭터 성능, 액션 상호 작용 및 동작 범위와 같은 몇 가지 주요 문제점에 직면해 있습니다.

▲'산과 바다' 예고편 리메이크작과 원작 예고편 비교

응용 관점에서 볼 때, AI는 영화 및 TV 제작과 같은 장면에서 여전히 전통적인 영화 및 TV를 따라잡는 과정에 있습니다.

완전한 제작 과정에서 AI는 여전히 대본, 더빙, 편집, 후반 작업 등 주요 도구가 아닌 보조 수단입니다. 현재 생산성 수준에 도달할 수 있는 제품은 없습니다.

그러나 인간 효율성을 포함한 비용 측면에서 AI 기반 프로세스는 크게 압축되어 전통적인 생산 프로세스 수준에 도달했습니다.1/4 이하。

▲시사회에서 인터뷰를 진행한 첸쿤

WAIC 2024에서는Aishi Technology의 공동 창업자 Xie XuzhangTan은 현재 우리가 "비디오 생성"이라고 부르는 것은 실제로 비디오 자료의 생성일 뿐이며 전체 비디오 제작 과정 중 일부일 뿐이며 사운드, 편집, 전환, 스크립트 등이 전혀 포함되지 않는다고 말했습니다. 기술적인 면이나 사업적인 면에서 갈 길이 매우 멀다.

이는 비디오 생성의 기존 문제점을 극복하기 위해 기본 모델을 지속적으로 반복하는 것 외에도 AI 비디오 개발의 또 다른 중요한 방향이기도 합니다.

시장에도 다양한 영상 제작 프로세스를 실험하고 있는 기업들이 많이 있으며, 1차 시장에서도 선호를 받고 있습니다.지난 주에만 AI 기반 비디오 편집 도구가 등장했습니다.캡션, AI 가상 환경은 조명 및 합성 도구를 제공합니다.비블각각 6천만 달러와 475만 달러의 자금 조달을 받았습니다.

결론:일체 포함영상생성, 하나를 기다리고 있다GPT-4 순간

Sora의 출시는 국내외 팀과 기업가들의 열정에 불을 붙였습니다. 그러나 전반적으로 아직 초기 단계이고, 기술적 경로가 아직 합의에 도달하지 않았으며, 생성된 효과는 아직 상업적 표준과 거리가 멀습니다. 구체적인 단계에 대해서는 업계의 많은 사람들이 이를 "GPT-3 시대", "이미지 생성을 위한 2022년 전야" 등 언어 및 이미지 모델의 초기 단계와 비교합니다.

하지만 확실한 것은 AI 영상 생성 기술이 기하급수적으로 발전하고 있고, 새로운 제품과 기술이 끊임없이 나오고 있다는 점이다. 몇 가지 기술적인 문제점과 과제가 있지만 기술의 반복과 시장 활성화를 통해 이 분야는 더 많은 혁신과 적용을 달성할 것으로 예상됩니다.

AI 영상세대 전쟁은 기술 경쟁일 뿐만 아니라 자본 경쟁이기도 하다. 이 돈 버는 폭풍 속에서 마지막 웃는 사람이 누구인지 지켜봐야 할 것입니다.

소식

비디오세대전쟁 2.0!대형 제조업체는 기본 모델에 열중하고 스타트업은 5개월 만에 44억 달러를 유치했습니다.

소개

내 연락처 정보