반년이 지났는데 AI 영상은 어디로 갔나?

2024-07-23

고정 초점(dingjiaoone) 원본

저자 | 왕 루

편집자 웨이 지아

올해 초 소라가 등장한 이후 국내외 사람들은 AI를 활용해 할리우드를 전복시키려는 움직임을 보이고 있다. 소라.

해외 AI 영상 스타트업 2곳이 선두를 달리고 있다. 샌프란시스코 인공지능 기술 기업 루마(Luma)가 드림머신 영상 생성 모델을 출시하고 영화 수준의 홍보 영상도 공개했다. AI 영상 분야로 잘 알려진 스타트업 런웨이도 빛, 그림자 등 디테일을 연출할 수 있다며 Gen-3 알파 모델을 일부 사용자에게 테스트하겠다고 밝혔다.

Kuaishou는 중국에서 뒤처지지 않기 위해 사용자가 최대 10초 길이의 비디오 콘텐츠를 생성할 수 있고 첫 번째와 마지막 프레임 제어 및 카메라 렌즈 제어 기능을 갖춘 Keling 웹 클라이언트를 출시했습니다. 오리지널 AI 판타지 단편 드라마 '산해의 기경: 자르는 파도'도 AI가 생성한 모든 이미지와 함께 Kuaishou에서 방송됩니다. AI 공상과학 단편 드라마 '삼성퇴:미래의 묵시록'도 최근 방송됐으며 바이트의 AI 영상 제품 지멍(Jimeng)을 위해 제작됐다.

AI 영상의 빠른 업데이트 속도로 인해 많은 네티즌들은 “할리우드에서 또 총파업이 일어날 수도 있다”는 말을 하기도 했다.

현재 AI 영상 트랙에는 구글, 마이크로소프트, 메타, 알리바바, 바이트, 메이투 등 국내외 기술 및 인터넷 거대 기업은 물론 런웨이, 아이시 테크놀로지 등 신흥 기업도 참여하고 있다. 픽스포커스(Fix Focus)'에서는 국내 유일 20여개 기업이 자체 개발한 AI 영상 제품/모델을 출시했다.

Toubao Research Institute의 데이터에 따르면 2021년 중국 AI 비디오 생성 산업의 시장 규모는 800만 위안이며, 2026년에는 이 시장 규모가 92억 7900만 위안에 이를 것으로 예상됩니다. 업계의 많은 사람들은 생성된 비디오 트랙이 2024년 Midjourney 순간을 안내할 것이라고 믿습니다.

전 세계적으로 Soras는 어떤 발전 단계에 도달했나요? 누가 가장 강한가? AI가 할리우드를 무너뜨릴 수 있을까?

소라 공성전: 제품은 많지만 사용할 수 있는 제품은 적습니다.

AI 영상 트랙에 출시된 제품/모델은 많지만 실제로 대중이 사용할 수 있는 제품/모델은 매우 제한적이다. , 해외의 뛰어난 대표자는 소라(Sora)로, 6개월이 지난 지금도 내부 테스트 중이며 보안팀과 일부 비주얼 아티스트, 디자이너, 영화 제작자에게만 공개됩니다. 국내 상황도 비슷하다. 알리바바 다모 아카데미의 AI 동영상 제품 'Xunguang'과 바이두의 AI 동영상 모델 UniVG는 모두 내부 테스트 단계에 있으며, 현재 인기 있는 Kuaishou Keling의 경우 사용자가 사용하려면 줄을 서서 신청해야 한다. . 이것은 대부분의 제품을 구입한 내용입니다.

사용 가능한 나머지 AI 비디오 제품 중 일부는 사용 임계값을 설정했으며 사용자는 특정 기술을 지불하거나 알아야 합니다.예를 들어 Luchen Technology의 Open-Sora에 대한 코드 지식이 조금이라도 없으면 사용자가 시작할 수 없습니다.

'픽스포커스'는 국내외 출시된 AI 영상 제품을 정리한 결과 각각의 작동 방식과 기능이 유사한 것을 확인했다. 사용자는 먼저 텍스트를 사용해 명령어를 생성하고 동시에 프레임 크기, 이미지를 선택한다. 명확성, 생성 스타일, 생성 초 및 기타 기능을 확인하고 마지막으로 한 번의 클릭으로 생성을 클릭합니다.

이러한 기능의 기술적 어려움은 다양합니다. 가장 어려운 점은,생성된 비디오의 해상도와 초, 이는 프로모션 중 AI 영상 트랙에서 기업 간 경쟁의 초점이기도하다.이는 학습 과정에 사용되는 자료의 품질 및 컴퓨팅 성능의 양과 밀접한 관련이 있습니다.

AI 연구원 사이러스는 'Fixed Focus'에 현재 국내외 AI 영상 대부분이 480p/720p 세대를 지원하고, 일부는 1080p 고화질 영상을 지원한다고 전했다.

그는 고품질의 소재와 컴퓨팅 파워가 높을수록 훈련된 모델이 더 높은 품질의 영상을 생성할 수 있지만, 고품질의 소재와 컴퓨팅 파워가 있다고 해서 고품질의 소재를 생성할 수 있는 것은 아니라고 소개했습니다. 그러나 저해상도 자료로 훈련된 모델이 강제로 고해상도 영상을 생성하게 되면 손과 다리가 여러 개 생기는 등 붕괴되거나 반복되는 현상이 발생합니다. 이런 종류의 문제는 확대하고 고치고 다시 그려서 해결할 수 있지만 효과와 디테일은 평균 수준입니다.

많은 회사에서는 긴 초를 생성하는 것을 판매 포인트로 간주합니다.

국내 AI 영상은 대부분 2~3초를 지원하는데, 5~10초까지 가능하다면 상대적으로 강력한 제품으로 꼽힌다. 최대 12초까지 지속할 수 있는 지멩 등 매우 긴 제품도 있지만 전혀 나오지 않는다. 그 중 가장 긴 A 60초 영상이 생성된다고 하는데 아직 공개되지 않아 구체적인 성능은 확인할 수 없다.

라이트 릴의 길이가 충분하지 않아 생성된 비디오 콘텐츠도 합리적이어야 합니다. 석류 AI 수석 연구원 장헝(Zhang Heng)은 "기술적으로 AI는 항상 출력을 해야 할 수 있다"며 "1시간 동안 영상을 생성해도 문제가 되지 않는다고 해도 과언이 아니다"라고 말했다. 대부분 우리가 원하는 것은 감시가 아닙니다. 영상은 반복되는 풍경 애니메이션이 아니라 아름다운 그림과 이야기가 담긴 단편 영화입니다.

"Fixed Focus"는 Byte의 Jimeng, Morph AI의 Morph Studio, Aishi Technology의 PixVerse, MewXAI의 Yiying AI, Right Brain Technology의 Vega AI 등 중국에서 인기 있는 5가지 무료 Wensheng 비디오 AI 제품을 테스트하여 동일한 텍스트 명령을 제공했습니다. : "빨간 드레스를 입은 어린 소녀가 공원에서 작은 흰 토끼 당근을 먹였습니다."

여러 제품의 생성 속도는 비슷해 2~3분 밖에 걸리지 않지만 선명도와 지속 시간은 상당히 다르며 정확도는 더욱 "혼란스러운 춤"입니다.

이잉 AI

베가 AI

꿈

변형

픽스 버스

각각의 장점과 단점은 분명합니다. 게임 시간이 짧았음에도 불구하고 게임의 질은 높지 않았다. 후반부에서 주인공인 어린 소녀가 직접 변형되는 문제도 있었다. PixVerse의 화질은 상대적으로 좋지 않습니다.

이에 비해 Morph에서 생성된 콘텐츠는 정확하지만 단 2초 동안만 정확합니다. Yiying의 화질도 좋지만 텍스트를 잘 이해하지 못하고 토끼의 핵심 요소를 직접적으로 잃어버리고 생성된 비디오가 충분히 현실적이지 않고 더 만화적인 스타일입니다.

즉, 어떤 제품도 요구 사항을 충족하는 비디오를 제공할 수 없습니다.

AI 비디오 과제: 정확성, 일관성, 풍부함

'고정 초점'의 경험은 여러 회사에서 공개하는 홍보 영상과 매우 다릅니다. AI 영상이 진정한 상용화를 원한다면 아직 갈 길이 멀습니다.

Zhang Heng은 "Fixed Focus"에서 기술적 관점에서 주로 3차원의 다양한 AI 비디오 모델 수준을 고려한다고 말했습니다.정확성, 일관성, 풍부함.

이 세 가지 차원을 이해하는 방법에 대해 Zhang Heng은 예를 들었습니다.

예를 들어, "운동장에서 농구 경기를 보고 있는 두 소녀"의 비디오를 생성합니다.

정확성은 첫째, 콘텐츠 구조에 대한 정확한 이해에 반영됩니다. 예를 들어 영상에 두 명의 소녀가 등장하는 경우 둘째, 프로세스 제어의 정확성, 예를 들어 슛이 이루어진 후 농구는 점차적으로 떨어집니다. 마지막으로 정적 데이터 모델링은 정확합니다. 예를 들어 렌즈에 장애물이 있으면 농구공이 축구공으로 변할 수 없습니다.

일관성은 공간과 시간에 대한 AI의 모델링 능력을 의미하며, 여기에는 주제 주의력과 장기적인 주의력도 포함됩니다.

주요 초점은 농구 경기를 보는 동안 두 어린 소녀가 항상 사진 속에 있어야 하고 아무렇지도 않게 뛰어다닐 수 없다는 점으로 이해될 수 있습니다. 장기적인 관심은 운동하는 동안 비디오의 다양한 요소를 의미합니다. 또한, 분실 등의 이상이 없어야 합니다.

풍부함은 AI가 자체 논리를 갖고 있으며 텍스트 프롬프트 없이도 합리적인 세부 정보를 생성할 수 있음을 의미합니다.

기본적으로 시중에 나와 있는 AI 영상 도구 중 그 어떤 것도 위의 차원을 완벽하게 달성할 수 없으며, 각 회사는 지속적으로 솔루션을 제안하고 있다.

예를 들어, 영상에서 매우 중요한 캐릭터 일관성 측면에서 Meng과 Keling은 다음을 사용하는 것을 생각했습니다. Tusheng Video가 Vincent Video를 대체합니다. 즉, 사용자가 먼저 텍스트를 이용해 사진을 생성한 후, 그 사진을 이용해 동영상을 생성하거나, 직접 한두 장의 사진을 주고 AI가 이를 동영상으로 연결해 주는 방식이다.

Zhang Heng은 "그러나 이것은 새로운 기술 혁신이 아니며 Tusheng 비디오는 Vincent 비디오보다 덜 어렵습니다."라고 Zhang Heng은 "Dingzhong"에 말했습니다. Vincent 비디오의 원리는 AI가 사용자가 입력한 텍스트를 먼저 분석하고 이를 구성 요소로 분해하는 것입니다. 거울 설명을 텍스트로 변환한 후 사진으로 변환하면 영상의 중간 키 프레임을 얻을 수 있으며, 이러한 사진을 연결하면 동작이 포함된 연속 영상을 얻을 수 있습니다. Tusheng Video는 AI에게 모방할 수 있는 특정 사진을 제공하는 것과 동일하며 생성된 비디오는 주인공의 일관성을 달성하기 위해 사진의 얼굴 특징을 계속 유지합니다.

그는 또한 실제 시나리오에서는 텍스트가 그림 세부 사항을 표현하는 능력이 제한되어 있기 때문에 Tusheng 비디오의 효과가 사용자 기대에 더 부합한다고 말했습니다. 사진을 참조로 사용하면 비디오를 생성하는 데 도움이 되지만 아직 상용화되지 않았습니다. 직관적으로 말하면 5초가 Tusheng 비디오의 상한선입니다. 10초보다 길면 내용이 반복되거나 구조가 왜곡되어 품질이 저하될 수 있습니다.

현재 전체 제작 과정에 AI를 사용한다고 주장하는 많은 단편 영화 및 TV 영화는 대부분 Tusheng 비디오 또는 비디오-비디오를 사용합니다.

Jimeng의 마지막 프레임 기능도 Tusheng 비디오를 사용하며 특별히 "고정 초점"을 시도한 결과는 다음과 같습니다.

결합하는 과정에서 문자는 변형되고 왜곡되어 나타난다.

사이러스는 또한 비디오가 일관적이어야 한다고 말했습니다. 이미지-비디오 변환을 지원하는 많은 AI 비디오 도구는 단일 프레임 사진을 통해 후속 조치도 예측합니다. 예측이 올바른지 여부는 여전히 운에 달려 있습니다.

다음과 같이 이해됩니다.Vincent Video에서 주인공의 일관성을 달성하는 데 있어 각 회사는 순전히 데이터 생성에만 의존하지 않습니다.Zhang Heng은 대부분의 모델이 원래의 기본 DIT 대형 모델을 기반으로 하며 ControlVideo(하얼빈 공과대학 및 화웨이 클라우드가 제안한 제어 가능한 텍스트 비디오 생성 방법)와 같은 다양한 기술이 중첩되어 주인공에 대한 AI의 이해가 깊어진다고 말했습니다. 얼굴 특징을 기억하면 움직이는 동안 얼굴이 크게 변하지 않습니다.

그러나 아직은 실험단계에 불과하며, 기술적인 중첩에도 불구하고 문자 일관성 문제가 완전히 해결되지는 않았습니다.

AI 영상, 왜 느리게 진화하는 걸까?

AI계에서는 현재 미국과 중국이 가장 인기가 높다.

"2023년 세계에서 가장 영향력 있는 인공지능 학자" 관련 보고서(이하 "AI 2000 학자" 목록)를 보면, 글로벌 "AI 2000 기관"에 포함된 1,071개 기관 중 2020년부터 2023년까지 4년간 미국이 443명, 중국이 137명으로 그 뒤를 이었다. 2023년 'AI 2000 학자'의 국가별 분포를 보면 미국이 1,079명으로 가장 많은 선발자를 보유하고 있다. 전 세계 전체의 54.0%를 차지했으며, 중국이 280명으로 그 뒤를 이었습니다.

지난 2년 동안 AI가 빈첸시안 사진, 빈첸시안 음악 분야에서 눈부신 발전을 이룬 것 외에도, 가장 돌파하기 어려웠던 AI 영상 분야에서도 획기적인 발전을 이루었습니다.

최근 개최된 세계 인공 지능 컨퍼런스에서 Etian Capital의 파트너인 Le Yuan은 비디오 생성 기술이 지난 2~3년 동안 기대 이상으로 발전했다고 공개적으로 밝혔습니다. 싱가포르 난양기술대학교의 조교수인 Liu Ziwei는 비디오 생성 기술이 현재 GPT-3 시대에 있으며 성숙 단계까지는 아직 약 반년 정도 남았다고 믿습니다.

그러나 Leyuan은 다음과 같이 강조했습니다.대규모 상용화를 지원하기에는 아직 기술 수준이 부족하다., 언어 모델을 기반으로 응용 프로그램을 개발할 때 사용되는 방법론과 직면하는 과제는 비디오 관련 응용 분야에도 적용 가능합니다.

연초 Sora의 등장은 전 세계를 놀라게 했습니다. 트랜스포머 아키텍처를 기반으로 한 새로운 확산 모델 DiT는 확산 및 생성 분야에서 기술적 혁신을 이루어 이미지 생성의 품질과 현실성을 향상시켜 AI 비디오를 획기적인 발전으로 만들었습니다. 사이러스는 현재 국내외 대부분의 빈센트 영상이 유사한 기술을 사용하고 있다고 말했다.

사진 출처/소라 공식 홈페이지

현재 기본 기술에 대해서는 기본적으로 모든 사람이 동일합니다. 각 회사도 이를 기반으로 기술 혁신을 모색하고 있지만 제품 기능을 강화하기 위한 교육 데이터의 양이 더 많아지고 있습니다.

Byte의 Jimeng과 Morph AI의 Morph Studio를 사용할 때 사용자는 비디오 이동 방법을 선택할 수 있으며 그 뒤에 있는 원리는 데이터 세트가 다르다는 것입니다.

"과거에는 여러 회사에서 훈련할 때 사용하는 사진이 상대적으로 단순했어요. 대부분 사진에 어떤 요소가 있는지 표시했지만, 이 요소를 촬영하기 위해 어떤 렌즈를 사용했는지는 설명하지 않았어요. 이로 인해 많은 회사에서 이러한 차이를 발견하게 되기도 했으니까요. 그들은 3D를 사용했습니다. 렌더링 비디오 데이터 세트는 렌즈 기능을 보완합니다." Zhang Heng은 현재 데이터가 영화 및 TV 산업과 게임 회사의 렌더링에서 나온 것이라고 말했습니다.

'고정 초점'도 이 기능을 시도했지만 렌즈 변화는 그다지 눈에 띄지 않았습니다.

Sora가 GPT 및 Midjourney보다 느리게 발전한 이유는 다른 타임라인이 있고 비디오 모델 훈련이 텍스트 및 그림보다 어렵기 때문입니다. Zhang Heng은 "현재 사용할 수 있는 비디오 훈련 데이터는 모두 소진되었으며 우리는 훈련에 사용할 수 있는 일련의 데이터를 생성하는 몇 가지 새로운 방법도 생각하고 있습니다."라고 말했습니다.

그리고 각 AI 비디오 모델에는 자신이 잘하는 스타일이 있습니다. 예를 들어 Kuaishou Keling의 식사 및 방송 비디오는 그 뒤에 많은 양의 데이터 지원이 있기 때문에 더 좋습니다.

Pomegranate AI의 창립자인 Shen Renkui는 AI 비디오 기술이 텍스트를 비디오로(텍스트를 비디오로), 이미지를 비디오로(그림을 비디오로), 비디오를 비디오로(비디오를 비디오로), 아바타를 비디오로(디지털 인간)를 포함한다고 믿습니다. 이미지와 음성을 갖춘 디지털 인력이 마케팅 분야에 활용되어 상업적 활용 수준에 도달한 반면, Vincent Video는 여전히 정확성과 제어 가능성의 문제를 해결해야 합니다.

지금 이 순간, 두인과 보나가 공동 제작한 AI SF 단편 드라마 '삼성퇴:미래의 묵시록'인지, 아니면 원래 창작한 AI 판타지 단편 드라마 '산해 기경: 절단파도'인지. Kuaishou, 점점 더 많은 대형 모델 회사가 영화 및 TV 제작팀을 적극적으로 찾고 있습니다. 협력을 위해 자체 기술 제품을 홍보할 필요가 있으며 작품은 업계에서 벗어나지 않습니다.

단편영화 분야에서는 AI가 아직 갈 길이 멀고, 헐리우드를 죽일 것이라고 말하기도 이르다.

*제목 사진은 Pexels에서 가져왔습니다.

소식