소식

2024 서비스 무역 박람회 | shengshu technology는 대형 비디오 모델 생성의 불일치 문제를 해결합니다.

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

"영상을 생성하기 위해 ai에 명령을 입력할 때 실제로 핵심 매력은 ai가 완전한 내러티브를 완성하는 데 도움이 되기를 바라는 것입니다. 이 목표를 달성하려면 핵심 요소를 통일되고 제어 가능하게 유지해야 합니다." 최근 개최된 2024 중국 국제 서비스 무역 박람회(이하 "서비스 무역 박람회")에서 shengshu technology 회장 겸 ceo tang jiayu는 솔루션을 제시했습니다. 비디오 대형 모델 vidu can의 주제 참조 기능 일관된 세대의 통제를 실현합니다. 이를 위해 업계에서는 'ai가 먼저 사진을 생성하고, 그 다음 사진이 동영상을 생성한다' 등의 방법을 시도했지만, 피사체 참조 기능은 작업량을 줄일 뿐만 아니라 이미지 분할을 통해 영상 콘텐츠에 대한 제약을 깨뜨렸다. 기술의 획기적인 발전으로 인해 대형 비디오 모델의 상용화에 있어 상상의 여지가 더 커졌습니다.

대규모 언어 모델이 대중화되자 shenshu technology는 다중 모드 트랙을 목표로 삼고 2024년 1월 wensheng video 기능을 출시했습니다. shengshu technology의 계획에 따르면 비디오 기능을 개발하려면 더 긴 기간과 더 높은 일관성이 필요하지만 sora의 데뷔로 스타트업의 계획이 예정보다 앞당겨졌습니다.

비두(vidu)는 지난 4월 말 출시돼 원클릭으로 16초 고화질 영상 생성을 지원했으며, 6월에는 원클릭으로 32초 영상 생성을 지원하는 동시에 음향 효과를 생성하고 4d 영상을 재구성하는 기능도 지원했다. 단일 생성된 비디오. 7월 말 vidu는 공식적으로 전 세계적으로 출시되어 tuxing 비디오, 역할 일관성 기능 및 최대 8초의 비디오 생성 기능을 제공했습니다.

이번에 tang jiayu는 2024년 서비스 무역 회의에서 vidu의 최신 기능인 "주제 참조"를 소개하는 데 중점을 두었습니다. 소위 주제 참조를 통해 사용자는 모든 주제의 사진을 업로드할 수 있으며 vidu는 주제의 이미지를 잠그고 설명자를 통해 장면을 임의로 전환하고 동일한 주제의 비디오를 출력할 수 있습니다. 여기서 "any"는 키워드입니다. 즉, 사람이든, 동물이든, 상품이든, 애니메이션 캐릭터든, 허구적 대상이든 비디오 생성 시 일관성과 제어 가능성이 보장됩니다.

베이징 비즈니스 데일리(beijing business daily)의 한 기자는 이 기능이 출시되기 전에는 대형 비디오 모델에도 이 목표를 달성할 수 있는 솔루션이 없었다는 사실을 알게 되었습니다. "tusheng video" 및 "character consistency"와 같은 기능도 달성할 수 있었습니다.

먼저 ai에서 이미지를 생성한 다음 이미지에서 비디오를 생성하는 방법을 예로 들면, midjourney와 같은 ai 그리기 도구를 사용하여 분할 이미지를 생성하고, 먼저 이미지 수준에서 피사체를 일관되게 유지한 다음 이를 변환할 수 있습니다. 이미지를 비디오 클립으로 변환하고 편집하고 합성합니다.

하지만 문제는 ai 드로잉의 일관성이 완벽하지 않아 반복적인 수정과 부분적인 재드로잉을 통해 해결해야 하는 경우가 많다는 점이다. 더 중요한 것은 실제 영상 제작 과정에는 많은 장면과 렌즈가 포함된다는 점입니다. 이 방법으로 다중 구성 요소 렌즈 장면을 처리할 경우 드로잉 작업량이 엄청나며 이는 전체 과정의 절반 이상을 차지할 수 있으며 최종 영상 콘텐츠도 그만큼 늘어나게 됩니다. 또한 분할 샷에 대한 과도한 의존으로 인해 창의성과 유연성이 부족합니다.

vidu의 "주제 참조" 기능은 "주제 이미지 업로드 + 장면 설명 입력"을 통해 비디오 자료를 직접 생성합니다. 이 방법을 사용하면 작업 부하가 크게 줄어들고 이미지 분할로 인한 비디오 콘텐츠에 대한 제한이 해소되므로 제작자는 텍스트 설명을 기반으로 풍부하고 유연한 비디오 콘텐츠를 만들 수 있습니다.

중국 중앙 라디오 텔레비전 방송국 국장이자 aigc 아티스트인 shi yuxiang은 애니메이션 단편 영화 '여름 선물'의 창작 과정을 공유하면서 기본적인 사진 촬영 영상 기능에 비해 '주체 참조' 기능이 없어졌다고 말했습니다. 정적인 그림의 제약을 극복하고 더 아름다운 그림을 생성합니다. 전염성이 있고 자유롭기 때문에 창작의 일관성이 크게 향상됩니다. 동시에 그림 작업량의 약 70%를 절약하는 데 도움이 되었습니다.

베이징 비즈니스 데일리 기자 웨이 웨이

보고/피드백