소식

미니맥스가 영상세대 난투에 합류, 대형모델로 영상을 만드는 세상은 종말인가?

2024-09-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

또 다른 국내 유니콘이 비디오 세대 모델 난투에 합류합니다.
8월 31일, 항상 조용히 있는 "ai의 여섯 작은 용" 중 하나인 minimax가 공식적으로 첫 공개되었으며 상하이에서 "minimax link partner day" 행사를 개최했습니다. 회의에서 minimax 창립자인 yan junjie는 비디오 세대 모델과 음악 모델의 출시를 발표했습니다. 아울러, 앞으로 몇 주 안에 속도와 효과 면에서 gpt-4o와 경쟁할 수 있는 대형 모델인 abab7의 새 버전이 출시될 것으로 내다봤다.
이 비디오 생성 모델의 외부 이름은 video-1이며 minimax에서는 구체적인 매개 변수에 대해 많이 소개하지 않습니다. yan junjie는 시중의 비디오 모델과 비교할 때 video-1은 높은 압축률, 우수한 텍스트 응답 및 다양한 스타일의 특성을 가지며 기본 고해상도 및 높은 프레임 속도 비디오를 생성할 수 있다고 언급했습니다. 현재 video-1은 wensheng 비디오만 제공합니다. 앞으로 이 제품은 wensheng 비디오, 편집 가능성, 제어 가능성 및 기타 기능을 반복할 것입니다.
현재 모든 사용자는 conch ai 공식 홈페이지에 로그인하여 video-1의 영상 생성 기능을 체험할 수 있으며, 기자는 간단한 프롬프트 단어를 입력하고 약 1~2분 정도 기다린 후 현장에서 체험했습니다. 두 번째 비디오를 생성할 수 있습니다. 출력 효과로 볼 때 그림은 기본적으로 프롬프트 단어에 언급된 사항을 다루고 있습니다. 고화질과 색상 톤은 미학적으로 만족스러운 부분입니다.
컨퍼런스 토론회에서 옌준지에 씨는 대형 모델이 굉장히 뜨거운 분야인 것 같지만, 2b를 하든, 2c를 하든, 2c를 하든 합의가 안 되는 부분도 많다고 언급했다. 국내에서 하든 해외에서 하든, 스케일링법이 계속될 수 있을지..." 등의 반응을 보였다.
수많은 비합의에도 불구하고, 비디오 생성은 올해 주요 모델 제조업체의 합의일 수 있습니다.
openai는 올해 2월 대형 비디오 모델 sora를 출시한 이후 업계에서 많은 이름을 가진 제품이 출시되었습니다. 지난 4월 shengshu technology는 대형 비디오 모델 vidu를 출시했으며, kuaishou는 대형 ai 비디오 생성 모델인 keling a를 출시했습니다. 일주일 후, 루마(luma) ai가 출시되었습니다. 빈센트(vincent) 비디오 모델 드림 머신(dream machine)은 지난 7월 초 세계 인공 지능 컨퍼런스(world artificial intelligence conference) 기간 동안 알리바바 damo 아카데미(alibaba damo academy)가 모든 사용자에게 공개되었다고 발표했습니다. 7월 말 aishi technology는 pixverse v2를 출시했고, 이후 zhipu는 공식적으로 qingying 비디오를 출시했으며, 8월 초에는 bytedream ai가 앱 스토어에 출시되었습니다.
1년 전만 해도 시장에 공개되는 vincent 비디오 모델은 거의 없었습니다. 불과 몇 달 만에 수십 개의 비디오 세대 모델이 등장했습니다. 업계 관계자는 지난 한 해가 전례 없는 시간이었다고 한탄했습니다. ai 비디오 세대. 역사적인 순간.
인터뷰에서 china business news 기자는 minimax 레이아웃 비디오 생성의 필요성에 대해 물었습니다. yan junjie는 “우리가 보는 대부분의 콘텐츠에 인류 사회의 정보가 더 많이 반영되기 때문”이라고 말했습니다. 일상은 텍스트가 아니라 모두 역동적인 콘텐츠입니다. xiaohongshu를 열면 모두 사진과 텍스트이고, douyin을 열면 모두 비디오이며, pinduoduo를 열 때도 대부분 사진입니다.” 텍스트 상호 작용은 매우 일반적입니다. 작은 부분은 음성 및 비디오 상호 작용에 관한 것입니다.
따라서 대형 모델 제조업체로서 매우 높은 사용자 범위와 더 높은 사용 깊이를 갖기 위해서는 순수한 텍스트 기반 콘텐츠를 출력하는 대신 다중 모드 콘텐츠를 출력할 수 있는 유일한 방법이 있다고 yan junjie는 설명했습니다. 핵심 판단.
"먼저 텍스트를 만들고 그다음 소리, 그림을 만든 것뿐입니다. 이제는 기술이 강해져서 영상도 만들 수 있게 됐어요. 이 루트는 일관성이 있고, 멀티모드 상태도 할 수 있어야 해요." 준지가 말했다.
다만, 영상 생성 트랙이 까다롭다. 오픈ai가 연초 소라를 출시한 것만 봐도 아직 외부에 공식적으로 공개되지 않은 상황이고, 업계의 몇 가지 난관도 엿볼 수 있다.
한편, 현재의 비디오 생성 결과는 사용자 기대에 미치지 못합니다. 모델은 물리적 규칙을 이해하지 못하고 생성 프로세스를 제어하기 어렵습니다. 영상, 이미지, 3차원 생성 알고리즘은 구조적, 세부적으로 많은 문제를 겪게 됩니다. 예를 들어, 한 가지가 더 커지거나 한 가지가 누락되거나, 정제된 영상은 특히 손이 틀을 뚫고 들어가게 됩니다. 물리적 규칙에 대한 비디오는 현재 생성하기 어렵습니다.
인터뷰에서 yan junjie는 "이 문제는 매우 어렵다"고 말했습니다. 그렇지 않으면 이렇게 한다고 주장하는 많은 회사가 이미 그렇게 했을 것입니다. 영상의 작업복잡성은 영상의 맥락적 텍스트가 당연히 매우 길기 때문에 텍스트의 작업보다 더 어렵습니다. 예를 들어, 비디오에는 수천만 개의 입력과 출력이 있는데 이는 당연히 어려운 과정입니다. 둘째, 영상의 양이 매우 크다. 5초짜리 영상은 몇 메가바이트에 달할 수 있지만, 100단어 정도의 5초짜리 영상은 1k의 데이터에도 미치지 못할 수 있다. 이는 수천 배의 저장 공백이다.
"여기서 문제는 텍스트를 기반으로 구축된 기본 인프라가 데이터를 처리하는 데 사용되는 방법, 데이터를 정리하는 방법 및 레이블을 지정하는 방법이 비디오에 적합하지 않다는 것입니다." yan junjie는 인프라를 업그레이드해야 한다고 믿습니다. 두 번째는 인내심입니다. 텍스트 작성을 위한 오픈 소스가 많이 있습니다. 오픈 소스를 기반으로 하면 자체 연구 및 개발이 더 빨라집니다. 동영상을 만들면 오픈 소스 콘텐츠가 많지 않습니다. 콘텐츠가 만들어지면 다시 작성해야 하므로 더 많은 인내심이 필요하다는 것을 알게 될 것입니다.
업계 실무자들은 이전에 기자들에게 현재의 비디오 세대는 이미지 생성과 약간 비슷하다고 말했습니다. 2022년을 앞두고 stable diffusion이 2022년 8월에 오픈 소스가 된 후 aigc 이미지 생성이 폭발적으로 증가하기 시작했지만 현재는 특별히 강력한 '오픈 소스'가 없습니다. "비디오 생성 분야에서. sora"가 출시되었지만 모두가 여전히 길을 탐색해야 합니다.
qiming venture partners는 지난 7월 "2024년 생성 ai에 대한 10가지 전망"을 발표했습니다. 그 중 하나는 3d 기능과 결합된 제어 가능한 비디오 생성이 영화, tv, 산업에 영향을 미칠 것이라고 믿습니다. 애니메이션, 단편영화 등 제작 모델이 변화를 가져옵니다. 앞으로는 이미지와 영상의 잠재공간 표현 압축률이 5배 이상 높아져 생성 속도가 5배 이상 빨라질 예정이다.
(이 기사는 중국경제신문에서 발췌한 것입니다)
보고/피드백