소식

shengshu technology ceo tang jiayu와의 대화: ai 비디오는 '대중화' 지점에 도달했으며 지속 시간을 늘리는 것은 제품화의 초점이 아닙니다.

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9월 11일, shengshu technology는 미디어 오픈 데이 이벤트를 열고 비디오 모델에서 피사체를 생성하는 '일관성' 문제를 해결하기 위한 '주제 일관성' 기능을 출시했습니다.

이번 행사에서 shengshu technology의 공동 창업자이자 ceo인 tang jiayu는 "daily economic news"의 비즈니스 모델에 대한 기자의 질문에 현재 두 가지 유형의 saas(software as a service) 구독과 업계의 maas(model as a service) vidu는 7월 30일 온라인에 접속한 이후 전 세계적으로 수만 개의 api 액세스 애플리케이션을 받았습니다.

기본 아키텍처에 대해 tang jiayu는 자신의 제품인 vidu에서 사용하는 "u-vit 아키텍처"가 sora에서 사용하는 "dit 아키텍처"와 거의 동일하다고 말했습니다. 차이점은 u-vit가 좀 더 구현 지향적으로 만들었다는 점입니다. 디자인. 기술 로드맵에서 모든 사람은 이제 기본 아키텍처의 수렴 상태에 있지만 동질성은 모든 사람이 동일한 진행 상황과 능력을 가지고 있음을 의미하지 않습니다. tang jiayu는 다음과 같은 예를 들었습니다. "예를 들어 현재 언어 모델에서는 (비록 ) 모두가 transformer 아키텍처를 사용하지만 지금부터는 현실적으로 openai가 여전히 분명히 앞서 있습니다.”

현재 ai 비디오의 주요 사용자는 여전히 영화 제작자 등 전문 사용자이지만 tang jiayu는 ai 비디오가 '대중화' 지점에 도달했다고 믿습니다.

또한 현재 수익으로 볼 때 shengshu technology는 b면 시장에서 더 많은 수익을 얻은 반면 vidu 제품 출시 이후 한 달 동안 c면 성장 곡선은 매우 "가파르게" 나타났습니다.

“궁극적인 목표는 보편적인 대형 모델을 만드는 것입니다.”

tang jiayu는 tsinghua university 자연어 처리 연구소의 마스터입니다. 그는 이전에 ruilai intelligence의 부사장 및 tencent youtu laboratory의 수석 제품 관리자를 역임했습니다. 현재 tang jiayu가 근무하고 있는 shengshu technology는 2023년 3월에 설립되었으며 올해 3월 초에 새로운 자금 조달 라운드가 완료되었다고 발표했습니다. 올해 4월 말, 회사와 칭화대학교가 공동 개발한 오리지널 대형 비디오 모델인 vidu가 7월 말에 공식 출시되어 전면적으로 사용 가능하게 되었습니다.

vidu는 출시 당시 "중국판 소라"로 불렸습니다. 한편으로 이 이름은 외부 세계가 중국의 대형 비디오 모델에 대한 기대로 가득 차 있기 때문입니다. 한편, 기술 아키텍처 관점에서 볼 때 두 가지도 유사한 접근 방식과 접근 방식을 가지고 있습니다.

보고서에 따르면 vidu의 하단 레이어는 자체 개발한 u-vit 아키텍처를 기반으로 하고 sora는 dit 아키텍처를 기반으로 합니다. u-vit와 dit 아키텍처의 차이점에 대해 tang jiayu는 "간단히 말하면 거의 동일합니다."라고 말했습니다. 둘 다 diffusion과 transformer의 융합이며 기본 기술 세부 사항 중 일부도 동일합니다. 차이점은 u-vit 아키텍처가 "보다 구현 지향적인 최적화 설계를 만들었다"는 것입니다. 요약하자면, 동일한 모델을 훈련할 때 u-vit는 동시에 더 적은 컴퓨팅 성능을 필요로 합니다.

전반적인 기술 경로의 관점에서 볼 때 현재 몇몇 주요 국내 비디오 모델이 "소라와 같은 경로"를 따르고 있습니다. 그들은 앞으로 더욱 동질화될 것입니까?

이와 관련하여 tang jiayu는 현재 모든 사람이 기본 아키텍처의 융합 상태에 있지만 "동질성이 모든 사람이 동일한 발전과 능력을 가지고 있음을 의미하지는 않습니다"라고 말했습니다. 언어 모델을 예로 들면 누구나 transformer 아키텍처를 사용하겠지만, 실용적인 관점에서 볼 때 여전히 openai가 앞서는 것은 분명하다고 분석했습니다. 이는 아직 이 아키텍처를 기반으로 기술과 실용성을 요구하는 링크가 많기 때문입니다. 어려움을 해결하는 데 도움이 되는 경험은 서로 다른 언어 모델 간의 기능 차이로 이어집니다.

현재 업계에서는 다중 모드 생성과 다중 모드 이해를 결합하는 등 새로운 아키텍처 경로도 모색하고 있지만 아직 특별히 좋은 솔루션은 없습니다.

"우리의 궁극적인 목표는 보편적인 대형 모델을 구축하는 것입니다. 비디오 생성은 대형 모델의 다중 모드 세대 중간 단계입니다. tang jiayu는 보편적인 대형 모델을 개발하려는 야망을 인정했습니다."

그는 또한 "이것은 우리가 이 한 가지 일(대형 비디오 모델 참조)만 하고 있다는 의미는 아닙니다. 우리는 비디오 외에도 다른 양식을 생성할 수 있는 능력도 가지고 있습니다."라고 말했습니다.

“현재 b-side 시장이 더 많은 수익을 올리고 있습니다”

기술의 기본 논리의 융합은 어느 정도 유사한 시장 개발 아이디어로 이어졌습니다.

"모든 사람의 비즈니스 선택은 상대적으로 유사합니다. sora 및 runway와 같은 회사도 헐리우드나 광고 협력을 적극적으로 수용하고 있습니다. tang jiayu는 ai 생성 비디오 분야가 일반적으로 아직 개발 초기 단계에 있으며 국제 리더 모두가 함께 나아가는 것, 또는 "공동으로 시장을 확장하는 것"입니다.

shengshu technology를 예로 들어 tang jiayu는 비즈니스 모델을 두 가지 방향으로 나눕니다. 하나는 saas 구독 모델입니다. vidu에는 매달 무료 할당량이 있지만 더 많은 요구 사항이 있거나 더 고급 기능을 사용하려면 비용을 지불해야 합니다. 구독료를 지불하고 vidu는 사용자의 창의적인 요구 사항을 충족하기 위해 계속해서 제품 기능을 강화할 것입니다. 두 번째는 모델 기능 출력 모드(maas)입니다. 현재 많은 고객이 워크플로의 링크로 비디오 생성 기능을 요구합니다. 게임플레이를 진행하면서 이러한 고객은 모델을 직접 호출하기를 원합니다.

수익 관점에서 볼 때, b-end 시장은 이 단계에서 더 많은 수익을 얻었습니다. 그러나 vidu가 출시된 지 한 달 만에 c측의 성장 곡선도 매우 '가파릅니다'. "현재 판단에 따르면 b사이드(수요)는 상대적으로 명확하고 직접적이며 안정적이므로 b사이드는 우리에게 장기적이자 핵심 방향입니다. 우리는 c사이드도 지속적으로 탐색하고 있습니다." tang 지아유가 말했다.

현재 국내 비디오 생성 모델과 도구는 '파도'를 형성하고 좋은 성능을 발휘하고 있지만 tang jiayu는 "중국이 완전히 주도권을 잡았다고 말할 수는 없습니다. 국내외 주요 플레이어가 첫 번째 계층에 속합니다"라고 믿습니다.

“ai 영상이 노드에 도달했습니다”

영상의 시청자층 중 대형 모델, 영화, tv, 애니메이션 실무자가 대다수를 차지하고 있으며 대부분이 '전문 관객'으로 간주되고 있다. 그렇다면 '보통 사람들'에게 ai 영상은 언제쯤 그들이 통제할 수 있는 도구가 될 것인가?

tang jiayu는 사진을 예로 들었습니다. 필름 카메라 시대부터 휴대폰 사진의 대중화까지 창작자의 문턱을 지속적으로 낮추는 과정입니다. "ai 영상은 이제 한계점에 이르렀습니다." tang jiayu는 shengshu technology가 9월 11일 출시한 '주제 참조' 기능은 창작자의 문턱을 낮추거나 창작 과정의 속도를 높이기 위한 노력이라고 말했습니다.

"기술은 여전히 ​​핵심 요소입니다. 현재의 비디오 세대는 처음에는 물리 법칙을 따르지만 더 강력한 모델 기능과 더 많은 양식의 공동 세대와 같이 극복해야 할 높은 천장이 여전히 있습니다." '주제참조' 기능은 일관성 생성 측면에서 확실히 많이 개선됐지만 아직 더 개선해야 할 부분이 많다고 소개했다. "예를 들어, 대형 모델을 제품에서 수공예품으로 변경하려고 하는데 이 수공예품에 복잡한 패턴과 속이 빈 부품이 있는 경우 이러한 복잡한 구조에 직면하여 현재 세대의 성공률은 여전히 ​​높지 않습니다. 장면 생성에는 스포츠 신발과 같은 많은 구성 요소가 모델 역량의 지속적인 개선이 필요한 더욱 복잡하고 역동적인 장면에서 더 나은 성능을 발휘할 수 있기를 바랍니다.”

이 과정에서 기술의 독창성과 혁신성이 좋은 사업화와 함께 이루어져야 합니다. 왜냐하면 영리 기업은 결국 과학 연구 기관이 아니기 때문입니다.

비디오 생성 기간을 예로 들면, 생성 기간을 확장하려면 모델의 세계를 추상적으로 이해하는 능력과 정보 압축 및 증폭의 양방향 능력을 향상시켜야 합니다. 현재 vidu는 최대 32초의 영상을 생성할 수 있으며, shengshu technology는 이를 더 길게 확장할 계획입니다. 그러나 지속 시간은 현재 제품화에 중점을 두고 있는 shengshu technology의 부분이 아닙니다.

"실제 제작 과정에서 대략적으로 말하면 클립의 90% 이상이 몇 초 길이입니다. 따라서 실용적인 관점에서 볼 때 tang jiayu는 공개 시간을 우선 순위로 고려하지 않았습니다." 모델 기능 각도, 회사는 실제로 계속해서 개선되고 있습니다.

기자 |리 샤오팅 케 양

편집하다|두안 리안웬두오 두헝펑

교정|왕 웨롱

|매일경제신문 엔비디뉴스 원문│

무단 전재, 발췌, 복사, 미러링을 금합니다.

매일 경제 뉴스

보고/피드백