ai가 모든 것을 "생성"할 수 있습니까?

2024-08-29

소라가 태어난 지 반년 만에 그 '도전자'들이 잇달아 찾아왔고, '기다릴 수 없었다', '따라잡지 못했다'는 엔비디아마저도 개인적으로 종말을 맞이했다.

지금까지 소라는 데모만 공개하고 아직 공개되지 않은 반면, 콰이쇼우켈링(kuaishou keling), 지푸칭잉(zhipu qingying), 비두(vidu)는 체험의 문을 열고 대중에게 다가가는 데 앞장섰다.

'원클릭 세대'의 첫 경험은 완벽하지는 않지만 콘텐츠 산업에 샘물을 불러일으켰다. 우리 주변의 많은 단편 드라마, 광고, 애니메이션에서 ai를 '효율 파트너'로 활용하기 시작했습니다. 인공지능 생성 기술은 얼마 전 빈첸시안 사진부터 오늘날의 빈첸시안 영상, 투성 영상, 영상 생성 영상까지 'aigc 우주'는 계속해서 확장되고 있다.

ai는 중국 신화 속 '마술펜 마량'인가? 얼마나 많은 상상력과 창의력이 생생하게 움직이게 할 수 있을까요?

"문성영상", "살아가는" 방법

"wensheng video는 블록버스터입니다." 지난 6개월 동안 sora가 대형 제조업체에서 유니콘으로 부활한 것은 모두 업계가 '세대'에 부여하는 중요성을 보여줍니다.

간단히 말해서 비디오 생성은 생성 인공 지능 기술을 사용하여 텍스트 및 그림과 같은 다중 모드 입력을 비디오 신호로 변환합니다.

현재 비디오 생성에는 두 가지 주요 기술 경로가 있습니다. 하나는 두 가지 범주로 구분되는 확산 모델입니다. 하나는 meta의 emuvideo, tencent에서 출시한 videocrafter 등과 같은 컨볼루셔널 신경망을 기반으로 하는 확산 모델입니다. openai의 sora, kuaishou의 keling ai, shengshu technology의 vidu 등. 다른 하나는 google의 videopoet, phenaki 등과 같은 자동 회귀 경로입니다.

2024년 7월 26일, 중국 기술 기업 zhipu ai는 자체 개발한 인공지능 생성 비디오 모델 qingying(ying)을 글로벌 사용자에게 공개했습니다. 그림은 사용자 로그인 인터페이스를 보여줍니다.

현재 transformer 아키텍처를 기반으로 하는 확산 모델은 "dit"(di는 diffusion의 약어, t는 transformer의 약어)라고도 알려진 비디오 생성 모델의 주류 선택입니다.

텍스트를 비디오로 "확산"하시겠습니까? "여기서 확산은 모델링 방법을 의미합니다." 북경대학교 정보공학부의 조교수이자 박사 지도교수인 yuan li가 생생한 예를 들었습니다.

미켈란젤로는 유명한 다비드상을 조각할 때 이렇게 말했습니다. “조각품은 원래 돌에 있었기 때문에 불필요한 부분만 제거했습니다. "이 문장은 '확산'의 모델링 과정을 생생하게 묘사하고 있습니다. 원본 순수 노이즈 영상은 마치 조각되지 않은 돌과 같습니다. 이 큰 돌을 두드려 윤곽선이 될 때까지 잉여 부분을 두드리는 방법 선명한 '데이비드', 이 방법은 '확산'이라고 yuan li는 말했습니다.

yuan li는 또한 다음과 같이 설명했습니다. "transformer는 '규모 규칙'을 따르고 돌을 부수는 과정을 수행하는 신경망입니다. 이는 입력된 시공간 정보를 처리하고, 내부의 복잡한 관계를 이해하여 현실 세계를 이해하며, 돌을 부수는 과정을 수행할 수 있습니다. 추론 기능을 갖춘 모델은 비디오 프레임 간의 미묘한 연결을 포착할 수 있을 뿐만 아니라 시각적 일관성과 시간적 부드러움도 보장합니다.”

"효율성 파트너", 얼마나 빨리

순진한 북극곰은 알람시계 소리에 잠에서 깨어 짐을 싸고, 헬리콥터를 타고, 고속열차로 환승하고, 택시로 환승하고, 배를 타고, 산과 강, 호수와 바다를 건너고, 고난을 겪고, 장애물을 넘고, 드디어 펭귄을 만나기 위해 남극에 도착했는데...

비디오 세대 모델 vidu가 완성한 1분 30초짜리 단편 애니메이션 "all the way south"입니다. 원래 한 달의 작업량이 소요됐던 작업이 ai를 '효율 파트너'로 추가해 단 1주일 만에 우수한 작품을 제작할 수 있어 효율성이 예전보다 4배나 향상됐다.

이로 인해 베이징 영화제 aigc 단편 영화 부문 최우수 작품상 수상자이자 ainimate lab ai 책임자인 chen liufang은 한숨을 쉬었습니다. 비디오 생성 기술은 고급 애니메이션을 더 이상 "돈 버는 게임"으로 만들지 않게 만들었습니다. 큰 스튜디오는 감히 플레이합니다.

ai 애니메이션 '올 더 웨이 사우스(all the way south)'의 크리에이티브팀은 감독, 스토리보드 아티스트, aigc 기술 응용 전문가 등 단 3명으로 구성됐다. 전통적인 공정을 사용하여 만들려면 20명의 인력이 필요합니다. 계산해 보면 생산비만 90% 이상 절감됩니다.

kuaishou의 시각적 생성 및 상호 작용 센터 책임자인 wan pengfei가 말했듯이 비디오 생성의 본질은 대상 분포에서 픽셀을 샘플링하고 계산하는 것입니다. 이 방법을 사용하면 더 낮은 비용으로 더 높은 수준의 콘텐츠 자유도를 얻을 수 있습니다.

vidu의 동영상 생성 페이지에 들어가면서 저자 역시 '원클릭 생성'의 자유로움을 경험했습니다. 사진을 업로드하고 "시작 프레임" 또는 "참조 캐릭터"로 설정한 후 대화 상자에 생성하려는 장면에 대한 텍스트 설명을 입력하고 "생성"을 클릭하면 스마트하고 흥미로운 짧은 비디오가 생성됩니다. 자동으로 생성됩니다. 페이지 진입부터 다운로드 완료까지 1분도 채 걸리지 않습니다.

국내 영상모델 비두에게 사진을 보내주시면 자동으로 애니메이션 영상이 생성됩니다. 사진은 영상의 스크린샷을 보여준다.

zhipu ai ceo인 zhang peng은 "과거 '누구나 마이크가 있다'처럼 '모두가 디자이너가 된다', '모두가 감독이 된다'는 시대가 올 것"이라고 말했다.

'월드 시뮬레이터', 드라마도 있나요?

비디오 세대는 콘텐츠 산업만을 전복시킬 것인가? 이는 분명히 openai의 원래 의도는 아닙니다. "비디오 생성"은 단지 "전채"일뿐입니다.

sora가 탄생하기 전에 openai는 이를 aigc 구현 도구로 포지셔닝한 것이 아니라 실제 세계를 복제하기 위한 "컨테이너"인 월드 시뮬레이터로 포지셔닝했습니다. 이 컨테이너에는 현실 세계의 물리적 법칙, 환경적 행동, 상호 작용 논리가 "매트릭스"에 묘사된 가상 세계처럼 실행되어 우리의 상상력과 감각에 영향을 미칩니다.

그러나 물리적 세계는 3차원이며 sora와 같은 현재 모델은 2차원 작업에만 기반을 두고 있으며 실제 물리 엔진이 아니므로 물리적 세계에 대한 심층적인 시뮬레이션이 없습니다.

"수년 동안 나는 세상을 '보는 것'이 세상을 '이해하는 것'이라고 말해왔습니다. 그러나 이제 나는 이 개념을 한 단계 더 발전시키고 '보는 것'은 단지 '이해하는 것'이 아니라 '행하는 것'을 뜻합니다. li feifei, 스탠포드 대학교 석좌교수는 공간 지능의 핵심은 '보는 것'과 '실행하는 것'을 연결하는 것이라고 공개적으로 밝혔습니다.

'보는 것'이 '행하는 것'과 같지 않을 때 인공지능의 창조는 멈출 수 없다. 최근에는 새로운 기술 경로가 등장했습니다. 여러분은 벡터와 모델로 구성된 이 지능적인 세계를 발전시키기 위해 서로 다른 경로로 서로를 쫓아가며 함께 전진하고 있습니다.

미래의 '세계관'은 아직까지 밝혀지지 않은 미스터리다. 미국의 물리학자 파인만이 말했듯이 "나는 내가 이해하지 못하는 세상을 만들 수 없다." 그러나 이것이 세상을 이해한다고 해서 반드시 세상을 만들 수 있다는 뜻은 아니다.

지금 이 순간은 여전히 전복의 전야이다. 이것이 바로 우리가 기술 탐구자들에게 미래에 대해 질문할 때 매우 다른 답변을 얻는 이유입니다. 어쩌면 '불확실함'이 이 시대의 축복인지도 모르겠다.

보고/피드백

소식

ai가 모든 것을 "생성"할 수 있습니까?

소개

내 연락처 정보