소식

주요 기업들은 비디오 세대에서 '군비 경쟁'을 시작했습니다. AI가 실제로 할리우드를 무너뜨릴 수 있을까요?

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


기계 심장 보고서

머신하트 편집부

AI 비디오 서클이 당신을 죽이고 있습니다.

앞발에서는 Kuaishou가 Ke Ling을 세세하게 출시했고 뒷발에서는 Luma가 뒤처지지 않고 최신 비디오 모델인 Dream Machine을 출시했습니다. 그런 다음 Runway가 개입하여 빅 킬러인 Gen-3를 출시했습니다. .

미묘한 FOMO 분위기에 힘입어 "피곤하게 굴러죽고"라는 목적을 고수하는 플레이어가 많아지고 이 트랙에 뛰어들게 되었습니다.

Alibaba DAMO 아카데미는 "Xunguang 비디오 제작 플랫폼"에 투자하고 있으며, ByteDance AI는 "생성 영화 드라마"를 탐구하고 있으며, Meitu MOKI는 AI 단편 영화 제작에 주력하고 있으며, Haiper AI는 창의적인 표현에 주력하고 있습니다.

7월 5일 상하이는 AI 영상계의 불안만큼이나 매우 뜨거웠다.

이날 회의실을 실시합니다.



포럼에는 AI 영상 분야의 많은 스타 기업과 전문가들이 모여 영상 생성 기술의 최신 발전과 산업 응용 분야의 혁신적인 사례에 대해 논의합니다.

심층적인 공유: 내부자들의 진심 어린 말

ChatGPT 등장 이후 소라가 폭발시킨 영상 생성 기술은 확실히 기술계에서 '가장 인기 있는 닭'이다.

이 분야는 아직 초기 단계이지만 비디오 생성 기술은 놀라운 개발 속도와 잠재적인 응용 가능성으로 디지털 콘텐츠 제작의 경계를 지속적으로 확장하고 있습니다.

포럼에는 Alibaba Damo Academy 비디오 생성 책임자 Chen Weihua, Shanghai Jiao Tong University 전자학과 Ni Bingbing 교수, Meitu Corporation 수석 부사장 Chen Jianyi, Haiper AI 창립자 Miao Yishu가 참석하여 기조연설을 진행했습니다.



Alibaba Damo Academy의 비디오 세대 책임자인 Chen Weihua는 연초 Sora 출시가 고화질, 고충실도, 고품질 측면에서 AI 비디오 세대의 엄청난 잠재력을 보여줄 뿐만 아니라 영감을 주었다고 말했습니다. 이 기술에 대한 사람들의 무한한 상상력.

소라는 매우 멋지지만 생성 과정은 여전히 ​​제어하기 어렵고, 주인공의 일관성을 보장하기 어렵고, 최상의 결과를 얻으려면 많은 수동 사후 편집이 필요합니다.

"비디오 콘텐츠에 대한 통제는 창작에 있어 가장 큰 요구 사항이자 오늘날 우리 알고리즘이 직면한 가장 큰 과제이기도 합니다."

Alibaba DAMO Academy에서 출시한 최신 AIGC 제품인 Xunguang Video Creation Platform은 간단한 샷 구성과 풍부한 비디오 편집 기능을 통해 비디오 제작 효율성을 향상하고 비디오 사후 편집 문제를 해결하는 것을 목표로 합니다. 여러 비디오에서 캐릭터와 장면을 정밀하게 제어하고 일관성을 유지합니다.

Xunguang은 AI 비디오의 광범위한 적용을 위한 원스톱 도구 플랫폼을 제공합니다. AI는 제작자의 작업을 대체하지 않지만 비디오 제작 작업 흐름을 최적화하고 창의성을 기반으로 하는 새로운 엔진이 될 것입니다.



Shanghai Jiao Tong University 전자학과 Ni Bingbing 교수는 벡터화를 위한 미디어 콘텐츠 생성 기술을 공유했습니다.

그는 연설이 시작되자마자 그 위에 찬물을 끼얹었다.

"현재 세대의 알고리즘은 구조적이고 세부적인 문제에 직면해 있습니다. 예를 들어 생성된 콘텐츠는 더 많거나 적은 요소를 가질 수 있고, 손으로 뚫을 수도 있습니다. 물리적 규칙을 준수해야 하는 정제된 비디오의 경우 현재 생성 기술 Ni Bingbing은 그 이유는 모든 생성 지능이 본질적으로 샘플링 프로세스이고 비디오는 고차원 공간이기 때문이라고 말했습니다. 훈련 데이터를 늘리고 샘플링 정확도를 낮추면 콘텐츠 품질을 향상할 수 있지만, 극도로 고차원적인 공간에 이르기까지 현재의 기술 체계로는 완벽함을 달성하기가 여전히 어렵습니다.

또한, 컴퓨팅 파워의 한계도 중요한 요소입니다. 현재, 대규모 언어 모델과 이미지 및 비디오 생성 모델을 포함한 컴퓨팅 성능 지표는 수십 테라바이트, 수백 테라바이트, 심지어 수천 테라바이트 수준에 도달했습니다. 미래에는 생성 지능의 발전 추세가 확실히 끝 부분으로 가라앉을 것이며, 끝 부분이 문제를 해결하기 위해 무제한의 대규모 컴퓨팅 파워 샘플링을 사용하는 것은 불가능합니다.

이와 관련하여 Ni Bingbing은 벡터 표현 프레임워크를 사용하여 비디오 콘텐츠를 네트워크 매개변수로 인스턴스화함으로써 생성된 콘텐츠를 정밀하게 제어하고 물리적 세계의 규칙을 더 잘 준수할 것을 제안했습니다.

그는 생성적 인공지능의 현 단계 성공이 컴퓨팅 파워와 데이터의 과도한 소비를 희생한 결과라고 믿습니다. 앞으로는 미디어 콘텐츠의 새로운 표현과 생성적 컴퓨팅의 새로운 패러다임에 집중하고, 새로운 미디어 품질을 적극적으로 창출해야 한다고 믿습니다. 더 높은 품질과 효율성으로.



Meitu Group의 수석 부사장인 Chen Jianyi는 제품 관리자의 관점에서 AI 비디오 생성의 적용 시나리오와 과제를 분석했습니다.

사용자 조사 중에 그는 두 가지 흥미로운 현상을 발견했습니다.

첫째, 내부자들은 AI가 영상을 생성하기 때문에 놀라겠지만, 일반 사용자들은 영상이 AI에 의해 생성되는지 여부에 관심이 없고 콘텐츠가 매력적인지에 초점을 맞춘다.

“이는 AI 영상 생성 기술이 어떤 시각적 경험을 달성하든 콘텐츠 자체로 돌아가서 영상이 전달하고자 하는 가치와 이야기에 집중해야 한다는 것을 의미합니다.”

둘째, 대부분의 일반 사용자들은 "빈센트 픽처스", "비센트 비디오"와 같은 전문적인 용어에 익숙하지 않으며 구체적인 용도를 알지 못합니다. '원성투'를 예로 들면, 이 용어는 당시 포토샵의 '액화' 기능과 비슷해 이해하기 어렵다. 사용자는 그 가치를 보다 직관적으로 이해할 수 있습니다. <빈센트 비디오>도 마찬가지다.

동시에 AI 영상 생성 기술은 콘텐츠 표현을 더욱 구체적으로 만들고 시각적 창의성과 경험을 풍부하게 해주지만 여전히 시각적 설정 제어성, 동적 제어성, 오디오 제어성 등 핵심 문제를 해결해야 한다고 말했다.

Meitu Discovery의 AI 단편 영화 제작 플랫폼 MOKI는 이러한 큰 어려움을 극복하고 있습니다.

보고서에 따르면 MOKI는 AI 비디오 생성 기술을 핵심으로 하여 포괄적인 단편 영화 워크플로우를 구축했습니다. 초기 단계에서 제작자는 스크립트를 작성하고 시각적 스타일을 디자인하고 캐릭터를 설정한 다음 AI 기술을 사용하여 비디오 자료를 생성할 수 있습니다. 마지막으로 AI의 후반 작업 기능을 통해 모든 자료가 연결되어 일관된 단편영화를 형성합니다.



유명 스타트업 Haiper AI의 창립자인 Miao Yishu는 비디오 생성 기술의 중요성과 가치에 대해 깊이 논의했습니다.

Miao Yishu는 다음과 같이 말했습니다. “우리는 '언어는 지능이다' 또는 '대형 언어 모델은 일반 인공 지능(AGI)이다'와 같은 견해를 자주 듣습니다. 그러나 언어 학습만으로 우리를 AGI로 직접 이끌 수 있습니까? 인간이 지식을 획득하는 중요한 방법이지만 그것이 유일한 방법은 아닙니다. . 지능적인."

GPT-3.5 출시 이후 많은 사람들이 "자연어 처리(NLP)가 더 이상 존재하지 않는다"는 견해를 제시합니다. 왜냐하면 대형 언어 모델은 기본적으로 자동회귀 생성 모델(매번 다음 단어 예측)을 통해 언어 체계 학습 및 의미론을 해결하기 때문입니다. 추론 문제가 발생하면 특정 추론 문제를 미세 조정하기 위해 더 이상 판별 모델이 필요하지 않습니다.

마찬가지로 비디오 생성 모델도 자동 회귀(매번 다음 비디오 프레임 예측)를 통해 생성 모델을 구축하므로 모델은 깊이 예측, 의미 주석, 의미 분할과 같은 컴퓨터 비전 분야의 중요한 작업을 암시적으로 학습합니다. 따라서 2024년에는 "컴퓨터 비전(CV)은 더 이상 존재하지 않는다"는 말을 듣게 될 것이다. 왜냐하면 비디오 생성 모델이 비디오 콘텐츠 생성을 학습하는 과정에서 점차 지각 능력과 물리적 법칙을 터득해 왔기 때문이다.

“거리에서 나비를 쫓는 강아지처럼 뉴턴의 제1법칙을 이해해야 할까요? 걷고 자전거를 타려면 5살 아이처럼 물리학의 모든 법칙을 알아야 할까요? 이는 세계와의 끊임없는 상호 작용과 관찰, 다양한 모델링을 통한 학습을 ​​통해 실제로 비디오 생성 모델은 다양한 비디오 콘텐츠를 생성하는 방법을 학습하여 세계 모델을 구축했으며, 렌더링하는 프롬프트 단어를 통해 세계 모델과 쉽게 상호 작용할 수 있습니다. 우리가 원하는 비디오 콘텐츠를 제공하기 위해 소위 물리적 법칙을 시뮬레이션하기 위한 시뮬레이터를 명시적으로 구축할 필요가 없습니다."

Miao Yishu는 "비디오 생성은 비디오 생성 그 이상입니다."라고 강조했습니다. 그의 견해로는 비디오 생성 모델은 비디오 콘텐츠를 생성할 수 있을 뿐만 아니라 다중 모드 학습을 통해 기본 지각 능력을 학습하는 중요한 단계이며 인공 지능이 AGI로 나아갈 수 있는 유일한 방법이기도 합니다.

원탁 토론: 비디오 생성은 어떻게 진행되나요?

이번 포럼에는 4명의 전문가와 학자들이 주제를 공유하는 것 외에도 학계, 기업, 스타트업, 유명 투자 기관 등의 게스트를 초대해 영상 생성을 위한 첨단 기술과 혁신적인 응용 사례에 대한 심도 있는 원탁 토론을 진행했습니다. 현장 착륙 산업.



첫 번째 원탁 토론에는 Jingying Technology의 설립자 겸 CEO Zhu Jiang, 싱가포르 난양 기술 대학교 조교수 Liu Ziwei, Shengqu 게임 기술 센터 AI 디렉터 Li Feng, Yitian Capital 파트너 Le Yuan 등이 참석했습니다. '대형 모델을 중심으로, 영상생성 기술의 개선 경로는 어디로 갈 것인가'에 대한 주제를 심도 있게 논의하고, 영상생성 기술이 업계에 도입될 전망에 대해 논의했다.

Jingying Technology의 설립자이자 CEO인 Zhu Jiang은 비디오 생성 기술을 캄브리아기의 생명 폭발에 비유하며 현재 기술과 응용 분야의 급속한 발전 단계에 있다고 믿습니다. 그는 애플리케이션 레이어 기업이 경쟁에서 앞서기 위해서는 사용자 요구에 주의를 기울이는 동시에 기술에 대한 이해와 리더십을 유지해야 한다고 강조했습니다. 결국 모델 기업과 애플리케이션 기업 모두 살아남겠지만, 모델 기업이 더 일반화될 수 있는 반면 애플리케이션 기업은 사용자와 비즈니스 이해에 더 많은 관심을 기울여야 한다고 말했다.

싱가포르 난양기술대학교의 조교수인 Liu Ziwei는 비디오 생성 기술이 현재 GPT-3 시대에 있으며 성숙 단계까지는 아직 약 반년 정도 남았다고 믿습니다. 그는 확산(Diffusion), 트랜스포머(Transformer), 언어 모델의 세 가지 기술 경로의 장단점을 분석했으며, 향후 이들이 통합되어 개발될 수 있다고 믿었습니다. 그는 또한 비디오 생성 기술의 '뉴턴의 제1법칙', 즉 컴퓨팅 성능과 데이터에 투자하여 예측 가능한 개선을 얻는 방법을 탐구할 필요성을 강조했습니다.

게임 산업의 관점에서 Shengqu 게임 기술 센터의 AI 책임자인 Li Feng은 비디오 생성 기술이 게임 개발 효율성과 창의성을 향상시킬 수 있다고 믿습니다. 레벨 디자인 및 레이아웃 미리보기를 위한 차별화 가능한 렌더링 아이디어, R&D 협업 시 커뮤니케이션 방식의 시각적 정렬, 다른 업체와의 시각적 정렬 등을 참고해 비디오 생성 기술을 게임 개발 프로세스에 적용하기 위해 모델 회사와 협력을 희망하고 있습니다. 동적 자산 이미지를 생성합니다.

Yitian Capital의 파트너인 Le Yuan은 자본의 관점에서 비디오 생성 기술의 상업적 구현이 직면한 과제를 분석했습니다. 그는 지난 2~3년 동안 영상 생성 기술이 기대 이상으로 발전했다고 믿고 있는데, 이는 놀라운 일이다. 그러나 객관적으로 볼 때 오늘날의 기술 수준은 아직 언어 모델을 기반으로 한 대규모 응용 프로그램 개발을 지원하기에는 충분하지 않다. 사용되는 방법론과 직면한 과제는 비디오 관련 응용 분야에도 적용 가능합니다.



포럼의 두 번째 원탁 대화는 "Deconstructed Generative AI의 물결 속에서 비디오 생성 애플리케이션의 혁신과 기회"에 초점을 맞췄습니다. Wuyuan Capital, FancyTech, Morph AI 및 Stanford University의 손님들은 투자, 애플리케이션, 기술 및 예술 등에 관해 이야기했습니다. 영상 생성 기술의 발전 방향과 응용 시나리오를 다각도에서 살펴본다.

FancyTech의 설립자이자 CEO인 Kong Jie는 비디오 생성 기술이 공급 측면의 개혁을 가져와 더 많은 사람들이 콘텐츠 제작에 참여할 수 있게 해줄 것이라고 믿습니다. 그는 실제 아이템을 가상 장면으로 복원해 가맹점이 콘텐츠 제작 비용을 절감할 수 있도록 돕는 팬시테크의 투비(To B) 영상 생성 플랫폼을 소개했다.

Wuyuan Capital의 부사장인 Shi Yunfeng은 현재 비디오 세대가 GPT2가 처음 출시되었을 때의 탐색 상태와 유사하게 아직 개발 초기 단계에 있다고 언급했습니다. 기술의 기반이 아직 탄탄하지 않은 상황에서 PMF를 찾는 것은 큰 도전입니다. 그는 기술이 계속해서 발전하고 있지만 창작자들의 열정이 매우 높고 일정 범위의 전파력이 있지만 콘텐츠의 광범위한 소비는 없다고 믿습니다. 제품을 맞춤화하고 기존 정보 흐름과 호환되지 않는 새로운 콘텐츠 형식을 만들려면 재능 있는 제품 관리자가 필요합니다.

Morph AI 창립자 겸 CEO인 Xu Huaizhe는 비디오 생성 기술과 애플리케이션이 똑같이 중요하다고 믿습니다. 기술적 배경을 갖춘 팀으로서 모델 계층과 애플리케이션 계층의 개발을 조정하는 것이 더 중요합니다. 그는 Morph의 대표적인 AI 비디오 대형 모델을 기반으로 한 올인원 AI 비디오 제작 도구인 Morph Studio를 소개했으며 현재 전 세계적으로 테스트 중이며 긍정적인 반응을 얻고 있습니다. 앞으로도 Morph는 사용자 피드백을 통해 제품 기능과 사용자 경험을 지속적으로 최적화하여 AI 비디오 기술이 제품을 통해 더 빠르게 구현되고 창작자에게 더 나은 도움이 될 수 있도록 할 것입니다.

예술과 기술의 결합이라는 관점에서 스탠포드 대학의 박사후 연구원인 Rao Anyi는 비디오 생성 기술이 더욱 상호작용적인 창작 방법에 영감을 줄 수 있다고 믿습니다. 그는 기계도 사람도 100% 정확할 수는 없으므로 기계와 사람이 협력하여 창작을 완성할 수 있도록 창작 과정에 상호작용적 개선 메커니즘을 도입해야 한다고 강조했습니다.

전반적으로 원탁 대화에 참석한 참석자들은 비디오 생성 기술의 응용 가능성에 대한 기대로 가득 차 있지만, 현재 기술이 아직 초기 단계에 있으며 더 큰 가치를 달성하려면 새로운 비즈니스 모델과 응용 시나리오를 탐색해야 한다는 점도 인식하고 있습니다. .









이번 포럼의 성공적인 개최는 AI 영상 분야 실무자들에게 소통과 학습을 위한 플랫폼을 제공할 뿐만 아니라 관련 산업 체인의 모든 링크에 더 많은 협력 기회를 제공합니다. 미래를 내다보면 AI 비디오 기술은 더 넓은 개발 공간과 더 풍부한 애플리케이션 시나리오를 제공하여 인간에게 더 나은 시각적 경험을 선사할 것입니다.