소식

폭발 후 소라가 실격, 국내 영상 모델이 대신해 문턱을 낮췄다.

2024-09-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

오픈ai(openai)의 빈센트(vincent) 영상모델 소라(sora) 출시로 인한 업계 폭발이 아직까지 공식적으로 대중에게 공개되지 않은 것이 엊그제 같은데. 이에 비해 국내 대형 영상모델은 2024년 집중적으로 출시될 예정이다. 기술은 지속적으로 업데이트되지만 대부분의 완성품은 여전히 ​​후기 단계에서 수동 편집 및 합성이 필요해 애플리케이션 측면의 기술 구현 속도에 영향을 미친다. .
이를 바탕으로 9월 11일 shengshu technology는 모든 피사체를 일관되게 생성하여 비디오 생성을 더욱 안정적이고 제어 가능하게 만드는 세계 최초의 "주체 일관성" 기능인 기능 업데이트를 공개했습니다. 소위 '주제 참조'를 통해 사용자는 어떤 피사체의 사진도 업로드할 수 있습니다. ai는 피사체의 이미지를 잠그고 설명자를 통해 임의로 장면을 전환하고 동일한 피사체가 포함된 비디오를 출력할 수 있습니다.
shengshu technology의 ceo인 tang jiayu에 따르면 단편 비디오, 애니메이션, 광고 및 기타 영화 및 tv 작품은 모두 내러티브 기술에서 "일관된 주제, 일관된 장면 및 일관된 스타일"을 갖는 내러티브 시스템이 필요합니다. 이러한 핵심 요소에 대한 포괄적인 제어를 달성하는 것이 필요합니다.
한 번의 클릭으로 32초 비디오 생성
shengshu technology가 마지막으로 공개 성명을 발표한 것은 올해 4월이었습니다. shengshu technology의 공동 설립자이자 수석 과학자인 tsinghua university 인공 지능 연구소 부학장인 zhu jun 교수는 오래 지속되고 일관성이 뛰어난 보고서를 발표했습니다. vidu라는 매우 역동적인 비디오 모델을 사용하면 한 번의 클릭으로 최대 16초 길이의 비디오를 생성할 수 있습니다. 이번 기술 업데이트를 통해 vidu 비디오는 최대 32초 길이로 생성될 수 있습니다.
2024년에는 전체 대형 모델 트랙이 전년도의 광란 이후 점차 진정될 것이며 비디오 대형 모델은 다중 모드 대형 모델 또는 agi로 이동하는 유일한 방법으로 간주됩니다. kuaishou와 byte의 douyin으로 대표되는 단편 비디오 회사, alibaba와 tencent로 대표되는 주요 인터넷 회사, shengshu technology, zhipu ai, aishi technology 등으로 대표되는 스타트업은 모두 주요 비디오 모델 제품을 차례로 출시했습니다.
데본증권 통계에 따르면 소라 출시 이후 국내외 12개 이상의 기업이 비디오 생성 모델을 출시하거나 업데이트한 것으로 나타났다. 객관적으로 보면, 국내와 해외 간 격차는 점점 줄어들고 있다. 앞으로는 영상 지속 시간, 해상도 등 기본 기능이 복제 가능해지며, 앞으로는 사용자 확보와 접착력 향상 쪽으로 경쟁이 바뀔 수도 있다. 주관적인 관점에서 debon securities는 대형 모델에서 생성된 비디오의 품질이 크게 향상되었다고 믿고 있지만 실제 세계 시뮬레이터와는 여전히 거리가 멀습니다. 빈센트 영상 분야의 영상 이미지는 대체적으로 선명하지만 이동 범위와 물리적 복원에 큰 차이가 있습니다. 이는 이번 기능 업그레이드를 위한 고려 사항 중 하나이기도 합니다.
tang jiayu는 현재 32초의 vidu 생성 시간이 단 한 번의 클릭으로 생성되며 프레임을 이어 삽입하여 생성되는 것이 아니라고 말했습니다. 차이점은 모델이 정보 표현을 포함하여 장기적인 정보를 압축하는 더 강력한 능력을 가지고 있다는 것입니다. 이는 실제로 물리적 세계에 대한 이해와 의미론적 입력 간의 관계에 더 본질적으로 관련되어 있습니다. 따라서 지속 시간을 향상하려면 모델의 생성 기능을 포함하여 모델의 추상적 이해, 압축 및 세계에 대한 이해 기능을 향상해야 합니다.
단편 애니메이션 '여름 선물'을 제작한 aigc 아티스트 shi yuxiang은 현재 업계가 ai 영상에 비교적 관대하며 개선할 수 있는 세부 사항에는 복합 렌즈 처리, 다중 문자 렌즈 처리 및 일부 기술이 포함된다고 믿습니다. 장면과 장면 미장센 등의 처리가 있습니다. 기본 사진 생성 비디오 기능과 비교하여 "주체 참조" 기능은 정적 사진의 제약을 제거하고 생성 일관성을 향상하며 사진 생성 작업량을 거의 70% 절약합니다.
light chi matrix의 창립자이자 젊은 감독인 li ning은 vidu를 사용하여 영화의 남자 주인공의 비디오 클립을 사전 제작했습니다. 여기서 모든 캐릭터 장면은 남자 주인공의 최종 메이크업 사진 3장에서만 생성되었습니다. 업, 미디엄 샷, 롱 샷. 리닝은 기존 ai 영화 제작 과정은 대부분 전통적인 텍스트 기반 드로잉과 드로잉 기반 영상 프로세스를 사용해 스토리보드의 전체적인 형태를 일관되게 유지하는 것이 어려웠다고 말했다. 초기 단계에서 사진을 디버깅하는 데 많은 에너지가 필요했습니다. 동시에 사진은 제어 불능의 렌즈 빛과 그림자, 이미지 흐림, 심지어 길이 변형과 같은 일련의 문제가 발생하기 쉽습니다. 비디오가 증가할수록 이러한 문제는 더욱 증폭됩니다. vidu의 "주제 참조" 기능은 캐릭터의 전체적인 일관성을 크게 향상시킵니다. 더 이상 초기 단계에서 많은 수의 그림을 생성할 필요가 없으며 캐릭터의 움직임과 그림 전환도 더 자연스러워 긴 서사를 만드는 데 도움이 됩니다.
본질적으로 '주제 참조' 기능의 업그레이드는 대규모 비디오 모델 생성의 품질을 향상하고, 특정 산업과 기술을 결합하는 효율성을 향상시키며, 특정 애플리케이션에서 ai 구현을 가속화하는 것입니다. 현재 shengshu technology는 파트너 프로그램을 시작했으며 광고, 영화, tv, 애니메이션, 게임 및 기타 산업 조직의 참여를 초대했습니다.
현재 shengshu technology의 비디오 모델 비즈니스 모델은 saas 구독 모델과 ​​api 인터페이스로 구분됩니다. 이는 대형 모델 분야에서 일반적으로 채택되는 상용 테스트 방법이기도 합니다. b엔드와 c엔드 사이의 구체적인 분배 비율과 관련하여 tang jiayu는 소득 측면에서 b엔드 시장의 소득이 더 크다고 말했습니다. c-end 제품을 출시한 지 한 달 만에 성장 곡선이 매우 높아졌습니다. 종합적인 판단을 거쳐 b면은 상대적으로 명확하고 직접적이며 상대적으로 안정적인 수요를 포함하고 있으므로 b면은 회사의 장기적인 초점이 될 것입니다. 그러나 c-end 제품은 여전히 ​​지속적인 탐색 과정에 있습니다.
zhipu ceo zhang peng은 이전에 zhipu qingying(ying)을 출시했을 때 업계의 상용화 탐색에 대해 이야기하면서 현 단계에서 toc든 tob든 순전히 대규모로 나아가기에는 아직 이르다고 말했습니다. 상용화. 소위 충전 전략은 초기 시도에 가깝습니다. 또한 시장과 사용자의 피드백을 관찰하고 적시에 조정할 것입니다.
비디오 모형의 다음 단계는 무엇입니까?
특정 기능 수준의 업그레이드 및 업데이트 외에도 현재 업계에서는 다중 양식이 일반적인 추세인 반면 대형 비디오 모델은 단계적인 상태라는 일반적인 합의가 있습니다.
이와 관련하여 zhang peng은 비디오 생성이 고립되어 존재하는 것이 아니라 전체 기술 및 제품 개발 경로에 배치되어 있다고 말했습니다. zhipu는 이것이 다중 모드 또는 agi 다중 모드 경로의 연결 고리라고 믿습니다. 제품 측면에서도 영상제작은 독립된 제품이 되어 상품화와 가치 창출을 이루게 될 것입니다. tang jiayu는 또한 기자들에게 shengshu의 하단 레이어는 일반적인 대형 모델이며 비디오 생성은 중간 단계에 불과하다고 말했습니다.
다중 양식으로 전환하는 과정에서 여러 비디오 모델을 집중적으로 출시하면 동질성 문제가 발생합니까? 이와 관련하여 tang jiayu는 기자들에게 기술 경로에서 학생 수는 현재 수렴 상태에 있지만 동질성이 모든 진보와 능력이 동일하다는 것을 의미하지는 않는다고 말했습니다. 예를 들어 현재 언어 모델에는 모두 transformer 아키텍처가 포함되지만 실제로는 openai가 여전히 분명히 앞서 있습니다. 왜냐면 아키텍처를 기반으로 하면 어떻게 효과적으로 스케일업을 할 것인지, 어떻게 영상을 효과적으로 압축할 것인지 등 중간에 아직 많은 연결고리가 있고, 많은 기술과 실무 경험이 있기 때문입니다. 알고리즘 엔지니어링의 어려움을 포함한 알고리즘 기술과 알고리즘의 어려움은 모두 현재 대형 비디오 모델의 차이를 초래하는 요소입니다.
상업화에 관해서는 소라, 런웨이 같은 기업도 할리우드를 적극적으로 수용하거나 광고 협력에 참여하는 등 사업 선택 측면에서 업계가 상대적으로 유사하다고 탕자위는 생각한다. 이 분야는 기술이 자연스럽게 구현되기 쉬운 분야이기 때문이다. 업계 전체가 고유한 특성을 활용하여 발전하고 있습니다. 전반적인 ai 기반 비디오 분야는 아직 개발 초기 단계에 있으며, 선도적인 국제 플레이어들이 시장 확대를 위해 함께 나아가고 있습니다.
비디오 모델 분야의 집중적인 출시 상황과 관련하여 zhang peng은 제어 가능성이 업계에서 달성하기 위해 많은 노력을 기울여야 한다고 믿습니다. 한편으로, 기술적인 측면에서는 비디오 자체의 제어 가능성이 매우 큰 요구 사항입니다. 둘째, 보안 관점에서 비디오 신호에는 더 많은 콘텐츠와 세부 정보가 포함되어 있으므로 생성된 콘텐츠가 요구 사항을 충족하는지 확인해야 합니다. 마지막으로 생성된 콘텐츠가 상업적으로 적용 가능하려면 제어 가능성도 필요합니다. 창작자의 의도를 정확하게 표현하고 모두가 그에 대한 대가를 지불할 수 있도록 하기 위해 필요합니다.
기본 조건이 충족된 이후 현재 대형 영상 모델에 대한 업계의 기대는 소라 출시 이후 장편 영상 촬영 방식을 대체하는 ai에 더욱 집중됐다. zhang peng은 이것이 기술 발전의 관점에서 중요한 방향이며 영화 및 tv 산업의 변화에 ​​긍정적인 의미를 갖는다고 믿습니다. 그러나 현재 대형 비디오 모델은 관객을 위한 제작 과정에서 직접 사용하기에는 충분하지 않지만 보조 작업, 심지어 소규모 창작에도 사용할 수 있으며 실제로 높은 요구 사항을 변경하기까지는 아직 갈 길이 멀습니다. 영화 제작과 같은.
데뷔와 동시에 최고조에 달해 아직 대중에게 공개되지 않은 소라의 경우 아직까지 업계에서는 추격 대상으로 보고 있지만, 기술적인 세부 사항이 불투명해 기업들이 자체적으로 여러 측면을 모색해야 한다. . sora의 '실종'에 대해 tang jiayu는 기자들에게 그 이유가 여러 가지일 수 있다고 말했습니다. 비디오는 openai의 현재 주요 라인이 아니며 일부 데이터 저작권 문제는 생성 과정에서 해결되지 않았으며 일정 금액이 필요합니다. 해결하는 데 드는 시간과 비용이 회사 우선순위와 일치하지 않습니다.
zhang peng과 zhipu는 항상 세계 최고 수준과의 격차에 직면해 왔으며 동시에 이 길은 스스로 걸어야 한다고 믿습니다. 비디오에 대한 컴퓨팅 전력 비용을 생성하고 모든 사람이 사용할 수 있도록 응답 속도를 높입니다. "우리는 기술적 고도를 추구하는 동시에 기술의 대중화도 추구하고 있습니다."라고 zhang peng은 말했습니다.
(이 기사는 중국경제신문에서 발췌한 것입니다)
보고/피드백