소식

무료 공개 베타가 서버를 압도했고, 소라는 피지컬 센스로 호평을 받았다.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자丨Zimo

Sora, Runway 및 Pika에 이어 또 다른 이미지 기반 및 비디오 생성 AI 제품인 Dream Machine이 폭발적으로 인기를 얻었습니다.

Behind Dream Machine은 Luma AI라는 이름으로 2021년에 설립된 미국 회사입니다. 지난 3년 동안 3차례의 자금 조달을 성공적으로 수행했으며 총 자금 조달 금액은 6,730만 달러에 이릅니다. 가장 최근의 시리즈 B 파이낸싱은 올해 1월 엔비디아의 2차 투자로 유명 벤처캐피탈 기관인 a16z가 주도해 4,300만 달러 규모의 시리즈 B 파이낸싱이 이뤄졌으며, 사후 가치 평가액은 2억~3억 달러에 달했다.


올해 6월 드림머신은 전 세계에 무료 공개 베타를 출시했습니다. 각 사용자는 매달 30번의 무료 동영상 생성 기회를 가지며 각 동영상의 길이는 5초입니다. 먼저 게임에 뛰어든 이들을 벤치마킹하고 경쟁하기 위해 '효율성', '물리학', '거울 움직임'의 특징을 부각시킨다. 주요 특징 중 하나는 120프레임 영상을 생성하는 데 120초밖에 걸리지 않는다는 점이다.(단, 퍼블릭 베타 기간에는 줄을 서 있는 사람이 너무 많아 영상 생성에 10~20분 정도 걸린다는 사용자들의 일반적 보고가 있었다. 일부는 2시간까지 소요됩니다.) 실제 세계를 시뮬레이션하는 것도 캐릭터 일관성에 특히 중점을 두고 있으며 자연스러운 카메라 기술을 사용하여 표현된 감정과 통합하여 그림을 더 부드럽고 더 사실적으로 만들 수 있습니다. 사용자의 브레인스토밍을 통해 생성된 동영상은 창의성과 상상력으로 가득 차 있으며, 이를 광고, 교육 및 훈련, 스토리 제작 및 기타 분야에 적용하는 것도 비용 절감과 효율성 향상에 중요한 역할을 했습니다.

어떤 AI 영상생성 제품이 가장 좋은가요?

디자인 측면에서 Dream Machine의 페이지는 직관적이고 단순하며 Vincent Video와 Tusheng Video의 두 가지 기능을 갖추고 있습니다. Wensheng 동영상에서는 영어로 설명하는 것이 더 나은 효과를 발휘합니다. 생성된 동영상을 원하는 대로 만들고 싶다면 최대한 정확하고 상세한 텍스트 설명을 사용해야 합니다. 감정 표현에 대한 단어도 추가할 수 있습니다. 효과를 더욱 현실감 있게 만들어보세요.

하지만 텍스트 작성 능력이 그다지 강하지 않은 사용자에게는 Tusheng 비디오 기능이 작품의 2차 처리에 가깝기 때문에 더 인기가 있을 것입니다. 사진을 업로드하고 마음속에 떠오르는 장면을 바탕으로 텍스트 설명을 추가하면 정적인 사진에 애니메이션을 적용하고 동영상 형식으로 스토리를 전달할 수 있습니다.

트위터에서는 모나리자를 움직이게 만드는 재미있는 영상, 셀카를 찍을 때 셀카를 이용해 장면을 복원하는 영상, 중요한 사람들을 다정하게 '부활'시켜 장면을 재현하는 영상 등 사용자들이 공유하는 다양한 창의적인 영상을 볼 수 있습니다. AI 창작 도구와 사용자의 풍부한 상상력이 작품에 새로운 활력을 불어넣는다고 할 수 있다.

이 트랙에서 벤치마킹은 항상 떼려야 뗄 수 없는 주제였습니다. 건축적인 관점에서 볼 때 드림머신과 소라는 모두 Diffusion Transformer 아키텍처를 사용하며, Runway와 Pika에 비해 생성된 콘텐츠의 관점에서 상관관계가 더 높을 것입니다. Dream Machine의 차별화는 더 넓은 범위의 움직임과 렌즈 전환이 단순히 영상 속 사물을 살짝 움직이게 하는 것보다 각도가 더 많고 속도도 빠르지만 아직 모델이 초기 단계이기 때문에 제어성 문제도 발생합니다. 예를 들어, 사용자 테스트 중 동물 렌즈를 교체할 때 무리한 다중 머리 현상이 발생했습니다. 전체적으로 데이터와 모델에서 최적화할 수 있는 점이 많습니다.

단일 영상 생성 시간을 살펴보면 드림머신은 120초 만에 5초 영상을 생성할 수 있고, 런웨이는 더 빠르며, 최신 버전에서는 10초 영상을 90초 만에 생성할 수 있다. Pika는 여전히 1회성 비디오를 생성할 수 있지만, 원본인 Sora는 시간 제한을 깨고 1분짜리 비디오를 생성할 수 있지만 렌더링하는 데 거의 1시간이 걸립니다. . 여러 제품의 가격을 비교해 보면, 무료 평가판 기간 이후 전체 가격은 Dream Machine이 가장 높은 반면, Pika의 Professional 버전은 표준 버전의 6배, 기타 제품은 약 2~3.5배 가격이 책정되었습니다.


(AI영상생성 제품 가격비교)

마지막으로 영상 생성 효과로 볼 때 동일한 텍스트 문단이 제품별로 생성되는 영상의 스타일에 따라 다르게 표현되는 것으로 나타났다. 다른 제품에 비해 영화적 느낌과 물리적 현실감은 드림머신을 사용할 때 사용자가 느끼는 공통된 느낌 중 하나입니다. 요약하면 두 가지 이유가 있습니다. 첫째, 제품이 모델 훈련 중에 많은 수의 동영상 클립을 사용하므로 생성된 비디오가 원본 사진에 국한되지 않고 추가됩니다. 애니메이션 캐릭터의 처리와 입의 움직임을 추가함으로써 더욱 사실적으로 보이게 만드는 또 다른 점은 3D 모델링에 대한 회사의 기술 및 경험 축적과 밀접한 관련이 있습니다.

Wen Sheng의 3D 미니 피규어는 그의 기술 축적으로 가능해졌습니다.

루마 AI는 설립 이후부터 3D 콘텐츠 제작에 집중해왔습니다. 앞서 출시한 빈센트 3D 모델 애플리케이션 지니1.0은 한때 글로벌 히트를 쳤습니다. 해당 애플리케이션은 PC 웹 버전과 모바일 APP 버전(명명 Luma AI)이 있으며, 해외에서 널리 사용되는 디스코드 서버에서도 사용할 수 있다.

텍스트 설명만 입력하면 '작은 인물'과 유사한 4개의 사실적인 3D 모델을 10초 안에 생성할 수 있습니다. 개인 취향에 따라 선택한 후 원본, 부드러움, 반사 등의 질감을 직접 편집할 수도 있습니다. 마지막으로, fbx, gltf, obj 등과 같은 다양한 형식으로 출력할 수 있어 다른 3D 편집 소프트웨어(예: Unity 및 Blender)와 원활하게 연결되어 모델이 움직일 수 있으며 게임, 애니메이션 및 기타 완벽하게 맞습니다. 다운스트림을 진정으로 달성합니다. 장면 권한 부여를 제공합니다.


Genie1.0의 낮은 기술 한계점 덕분에 사용자는 단순히 비디오 클립을 촬영하는 것만으로도 3D 장면을 재구성할 수 있습니다. 요구 사항에 따라 개체를 올려다보기, 아래로 보기, 올려다보기 등 세 가지 각도에서 360° 촬영합니다. 업로드한 후 Genie 1.0이 동영상의 3D 렌더링을 완료할 때까지 몇 분 정도 기다립니다.

기술적인 측면에서는 Luma AI가 NeRF(Neural Radiation Field)를 극한까지 끌어올렸다고 할 수 있습니다. 기존 NeRF에서는 많은 수의 사진을 촬영하기 위해 전문 장비를 사용해야 하며 좌표 위치를 엄격하게 따라야 합니다. 요즘에는 기본 코드의 오픈 소스 덕분에 점점 더 단순화된 모델이 개발되었으며 필요한 사진 및 촬영 각도 요구 사항이 크게 줄어들었습니다. Genie1.0은 더 높은 수준을 달성하여 가능한 가이드가 되었습니다. 언제 어디서나 NeRF를 사용할 수 있습니다.

3D 기술과 제품의 축적으로 회사는 3D 생성에서 영상 생성으로 원활하게 전환할 수 있었지만, 반대로 영상 생성은 3D를 위한 고품질 조건도 만들어냈습니다. Luma AI의 개념에서 비디오 생성 제품을 만드는 목적은 3D와 시간 차원을 추가하여 4D를 더 잘 만드는 것입니다. 여기서 비디오는 중간 역할을 합니다.

Genie1.0과 Dream Machine 두 제품을 결합하면 전자는 멀티앵글 영상을 통해 3D 모델을 구축할 수 있고, 후자는 3D 모델의 축적을 활용해 영상을 더 잘 생성할 수 있습니다. 그리고 3D는 사진이나 영상에 비해 데이터의 한계가 있기 때문에 3D를 더 잘 만들고 싶다면 이를 구동하기 위한 더 큰 모델 데이터가 필요합니다. 최종 4D 목표를 달성하기 위해 생성된 비디오에서 다시점 데이터를 수집한 다음 4D 효과를 생성하는 데 사용됩니다.

결국 나가는 길은 어디인가?

올해부터 AI 영상 생성 트랙이 점차 붐비고 있으며, 특히 주요 인터넷 기업이 자체 개발 모델이든 투자이든 이 분야에 일정한 조치를 취했습니다. 참가자 수가 계속 증가함에 따라 일부 문제가 점차 노출되고 있으며, 이는 주로 생성된 비디오의 제어 가능성과 일관성에 반영됩니다.

이 두 가지 문제는 앞서 언급한 동물의 여러 머리 장면과 같이 영상 각도를 전환할 때 주로 발생하며, 인물 장면에서는 사람의 표정이나 디테일이 빠르게 변해 포착하기 어렵기 때문에 영상에서는 전환할 때 발생합니다. 얼굴 각도에 따라 얼굴이 다음 순간에 변형되거나 심지어 같은 얼굴이 아닐 수도 있으며, 이것이 비디오 길이가 제한되는 이유 중 하나입니다. 비디오를 생성하는 데 시간이 오래 걸릴수록 일관성을 보장하기가 더 어려워집니다.


(생성된 영상에는 머리가 여러 개인 동물들이 등장합니다)

이 문제점은 많은 개발자들을 괴롭게 했습니다. 아직 완벽한 해결책은 없지만, 그들의 개발 활동을 보면 이미 이 핵심 방향을 향해 노력하고 있음을 알 수 있습니다. 예를 들어 Tencent AI Lab에서 개발한 VideoCrafter2는 저화질 비디오를 사용하여 사진 속 사물의 움직임의 일관성을 보장합니다. SenseTime에서 출시한 캐릭터 생성 모델 Vimi는 다음 두 가지 측면에 초점을 맞춰 캐릭터의 미세한 표현을 정확하게 모방할 수 있습니다. 캐릭터와 제어 가능성.

청중 그룹 측면에서 볼 때, AI 비디오 생성 제품은 현재 주로 C-end 사용자를 대상으로 합니다. 이 단계에서 사용자는 재생 가능성과 창의성에 대한 새로운 것을 테스트하고 있지만 제품 수가 증가함에 따라 이러한 열풍은 더 많이 사라집니다. 또한 B측 지원에 의존할 것입니다. 현재 이러한 유형의 제품은 API에 대한 수요를 지속적으로 증가시켜 다운스트림 회사에 생성된 비디오를 재처리하거나 직접 사용하는 경우 생성 시간과 비용을 크게 줄여줍니다.

또한 Kuaishou는 최근 Bona와 협력하여 중국 최초의 AIGC 오리지널 단편 드라마를 출시했으며, 이는 전통적인 영화 및 TV 산업의 창의적 사고도 전복시켰습니다. 두 가지 신흥 핫 트랙의 결합은 AI 비디오 생성의 응용 시나리오에서도 새로운 돌파구를 가져왔고, 둘 다 개발 초기 단계에 있지만 기술이나 제품 모두 성숙하지 않지만 직면하고 있습니다. 이중 추세와 두 가지 이점을 활용하는 "공동 브랜딩"은 업계의 발전 과정을 빠르게 추진할 것입니다.

AI가 만든 제품의 혁신은 사람들의 삶에 무한한 창의성과 놀라움을 선사하고, 생산의 어려움과 비용도 줄여줍니다. 현재 제품으로 볼 때 Wensheng Video와 Tusheng Video는 모두 매우 흥미롭고 참신한 게임 플레이를 만들어냈으며, 여기서 개인의 창의성은 더 나은 AI 출력을 이끌어내는 핵심 요소입니다. 일부 기술적 문제로 인해 가끔 버그가 발생하고 제품 형태가 모델의 실제 기능에 크게 좌우되지만 반복적인 업데이트, 건전한 시장 경쟁 및 트랙 조합을 통해 모델은 결국 점점 더 완벽하게 학습될 것이라고 믿습니다. 동시에, 국내에서 생산되는 대형 모델 제품이 글로벌 시장에서 자신만의 틈새 시장을 개척할 미래도 기대하고 있습니다.