“Jimeng AI” 출시 예정, 바이트는 Kuaishou를 따라잡을 수 있을까?

"Jimeng AI"가 출시되었습니다. Byte가 Kuaishou를 따라잡을 수 있을까요?

2024-08-13

저널리스트: Yang Xinyi 편집자: Wei Guanhong

"압력은 Douyin에 있습니다." 올해 6월 Kuaishou가 자체 개발한 대형 비디오 생성 모델 Keling으로 대표되는 경이로운 생성 AI(인공 지능) 제품이 등장했을 때 외부 세계는 모두 Byte의 추가 성능을 기대하고 있었습니다.

최근 ByteDance 편집팀이 개발한 원스톱 AI 창작 플랫폼인 'Jimeng AI'의 모바일 버전이 Apple App Store에 공식 출시되었습니다.

'매일경제신문' 기자는 해당 애플리케이션에 현재 텍스트 기반 사진, 텍스트/사진 기반 동영상 등의 기능이 있다는 사실을 알게 됐다. 또한 Jimeng은 멤버십 시스템을 출시하고 다양한 구독 방법을 출시했습니다.

"Daily Economic News"의 기자들은 Ji Meng, Ke Ling 및 Sora의 실제 응용 프로그램을 비교함으로써 세 가지 대형 비디오 생성 모델이 프롬프트 단어를 캡처하고 이해하는 데 더 정확하고 완전하지만 Ji Meng의 캐릭터는 다음과 같은 기능을 가지고 있음을 발견했습니다. 형성, 콘텐츠 풍부함 및 비디오 유창성은 상대적으로 부족합니다. 생성된 콘텐츠의 지속 시간 측면에서 Jimeng은 최대 12초의 비디오 생성을 지원합니다.

"부드러운 영상을 생성하는 데 걸리는 시간(초)은 영상이 대형 모델을 생성하는 능력을 판단하는 핵심 요소입니다." 대형 모델 엔지니어는 '매일경제 뉴스' 기자와의 인터뷰에서 이렇게 말했습니다. '부드러움'은 생성된 콘텐츠에 사실적 오류가 있는지, 기억력이 좋은지, 공간감이 맞는지 등 다차원적으로 측정해야 합니다.”

'Jimeng AI' 모바일 버전이 출시되었습니다. 이미지 출처: 앱 스크린샷

"Jimeng AI"가 출시되었습니다. 효과가 Ling을 따라잡을 수 있을까요?

올해 초 소라의 등장은 'ChatGPT 영상 시대'를 열었고, 이어 콰이쇼우가 출시한 '다크호스' 케링은 국내 대형 AI 영상 모델의 성능에 대한 기대감을 높였다. 역시 단편 비디오 거대 기업인 Douyin의 모회사인 ByteDance는 트랙을 따라잡을 가능성이 가장 큰 플레이어 중 하나로 간주됩니다.

Keling AI 웹페이지 이미지 출처: 공식 웹사이트 스크린샷

3월 말, 바이트의 최첨단 팀이 개발한 AI 생성 플랫폼 'Jimeng AI'가 5월 9일 내부 테스트를 위해 공개되었으며, 처음에는 웹 버전으로 애플리케이션이 출시되었습니다. 주요 기능: 이미지 생성, 스마트 캔버스 및 비디오 생성. 현재 새로운 스토리 생성 기능이 8월 6일 출시되었으며, 애플리케이션의 모바일 버전이 공식적으로 Apple App Store에 출시되었으며 현재 텍스트와 같은 기능이 있습니다. 사진 기반 및 텍스트/사진 기반 비디오.

Jimeng AI 웹페이지 이미지 출처: 공식 웹사이트 스크린샷

Jimeng의 실제 효과에 대해서는 올해 7월 초 국내 최초의 AIGC 생성 연속 서사 공상 과학 단편 시리즈 "Sanxingdui: Future Apocalypse"가 Douyin에서 출시되었습니다. 총 13개의 에피소드로 구성된 이 짧은 시리즈에서 Jimeng은 수석 AI 기술 서포터로서 AIGC 스크립트 작성, 컨셉 및 스토리보드 디자인, 이미지를 비디오로 변환, 비디오 편집 및 미디어 콘텐츠 향상을 포함한 10가지 AI 기술을 사용했습니다.

언론 보도에 따르면, Jimeng AI는 Bona Pictures와 협력하여 'Sanxingdui: Future Apocalypse'를 출시하는 과정에서 24fps, 30fps, 60fps 프레임 채우기 지원 및 슈퍼 스코어를 두 배로 늘리는 기능을 포함하여 '비디오 생성' 기능을 개선했습니다. , 렌즈의 수평 이동, 상하 이동, 렌즈 이동의 방향 및 진폭 제어 지원 등을 추가했습니다.

이미지 출처: Jianying WeChat 공개 계정 스크린샷

Jimeng 앱이 출시된 후, "Daily Economic News" 기자는 OpenAI가 공식적으로 발표한 Sora 비디오 프롬프트 단어 중 다수를 선택하여 Jimeng, Keling 및 Sora에 대한 비교 테스트를 실시했습니다.

기자의 테스트 결과에 따르면 3개의 대형 비디오 생성 모델은 프롬프트 단어를 캡처하고 이해하는 데 상대적으로 정확하고 완전하며 생성된 비디오 콘텐츠의 화면 성능도 일관되고 부드럽습니다.

그러나 캐릭터 묘사의 정확성 측면에서 Sora는 움직임의 자연스러움 측면에서 Ji Meng 및 Ke Ling에 비해 특정 이점을 가지고 있으며, 예를 들어 "The Lady on the Lady"에서는 Ji Meng이 세 가지 테스트 제품보다 약간 열등합니다. 도쿄의 거리''를 주제로 한 영상에서는 꿈에서 생성된 캐릭터의 머리와 목이 고개를 돌릴 때 약간 일그러지고, 가방을 들고 있는 손의 움직임도 변형되는 모습을 보여준다.

이미지 출처: 기자가 생성한 영상 스크린샷

제작 콘텐츠의 요소 풍부함 측면에서도 세 가지 중 소라가 더 나은 성능을 발휘합니다. 예를 들어, '우주비행사'라는 주제로 생성된 영상 콘텐츠에서 소라는 우주선, 우주선 외 장면 등 프롬프트 단어와 관련된 연상을 많이 제시한 반면, 지멍과 케링은 우주복을 입은 남성 캐릭터만 제시했다.

이미지 출처: 기자가 생성한 영상 스크린샷

분석 분석 연구 파트너 Chen Chen은 "Daily Economic News" 기자와의 인터뷰에서 생성 효과 측면에서 Dream의 AI 이미지의 전반적인 품질이 더 좋은 반면, 지속 시간, 요소 풍부함, 액션 측면에서 AI 비디오가 더 좋다고 말했습니다. 일관성 등 세부 사항은 아직 부족합니다.

"(요소 내용이 풍부하지 않습니다.) 모델의 정렬이 더 중요하지만 '우주 비행사'에서 '우주선'으로 연관시키는 기능이 없으면 기본 모델의 기능에 문제가 있습니다." 대형 모델 엔지니어는 '매일경제' 뉴스에 "부드러운 영상을 생성하는 데 걸리는 시간(초)이 영상의 대형 모델 생성 능력을 판단하는 핵심 요소"라고 지적했다. 생성된 콘텐츠에 사실적 오류가 있는지, 기억력이 얼마나 좋은지, 공간감이 동등하지 않은지 등 다차원에서 살펴봅니다."

매일경제 기자들은 동일한 프롬프트 단어를 입력할 경우 생성되는 영상의 길이가 길어질수록 그에 따라 영상의 메인 이미지와 움직임의 정확성과 부드러움이 손상될 가능성이 높다는 사실을 실험을 통해 알아냈습니다.

현재 Jimeng은 다양한 포인트 소모에 따라 3초, 6초, 9초, 12초의 비디오 콘텐츠 생성을 지원합니다. Sora는 6월 21일 출시되자마자 1분 길이의 동영상을 합성할 수 있었습니다. Keling은 다양한 텍스트 콘텐츠를 기반으로 정적 이미지를 생생한 5초 동영상으로 변환하는 기능을 지원하는 Tusheng 동영상 기능을 출시했습니다. write 해당 기능을 사용하면 약 5초 동안 영상을 지속시킬 수 있으며, 가장 긴 영상은 약 3분 동안 생성할 수 있습니다.

AI 영상은 대형 모델의 금광이 될 것인가?

Sora의 등장은 의심할 여지 없이 대형 모델을 위한 새로운 경쟁의 장을 열었습니다. 올해 7월 Alibaba Damo Academy는 원스톱 AI 동영상 제작 플랫폼 "Xunguang"을 출시했으며 SenseTime은 C-모델을 위한 최초의 제어 가능한 AI 동영상 제작 플랫폼을 출시했습니다. 최종 사용자들은 캐릭터 비디오 생성을 위한 대형 모델인 Vimi와 Zhipu도 AI 생성 비디오 모델 Qingying(Ying)이 Zhipu Qingyan에 공식 출시될 것이라고 발표했습니다⋯⋯

선두적인 AI 플레이어들이 영상으로 생성된 대형 모델에 대해 집단적으로 맹렬한 공격을 가할 때 피할 수 없는 질문이 우리 앞에 닥칩니다. AI 영상을 통해 대형 모델 회사가 돈을 벌 수 있을까?

업계 스타 기업인 오픈AI(OpenAI)를 예로 들면, 올해 7월 소라 등 선도적 역량을 갖춘 대규모 모델을 대거 출시한 뒤 일부 언론에서는 이 문제에 정통한 관계자와 미공개 내부 재무 데이터 분석을 인용했다. OpenAI는 올해 최대 50억 달러의 손실을 입을 수 있으며 회사의 연간 수익은 35억~45억 달러로 추정되며 이는 운영 비용보다 훨씬 낮습니다.

동시에 국내 대형 영상모델들 역시 상용화에 있어 다소 '불안'한 모습을 보이고 있다. 7월 30일, Keling은 국내 시장에서 출시된 멤버십 시스템과 유사한 글로벌 멤버십 시스템을 출시했습니다. 예를 들어 월간 카드는 10달러, 37달러, 92달러의 세 가지 레벨로 구분됩니다. 약 66, 300, 800개의 5초 동영상을 생성합니다.

매일경제뉴스 기자는 Jimeng이 멤버십 시스템을 출시했다고 밝혔는데, 기본 회원권은 1개월 79위안, 연속 월간 가입액 69위안, 연간 가입액 659위안으로 다양하게 가입할 수 있습니다. 구체적으로 기본 회원은 월 505포인트를 사용해 약 2,020장의 사진, 168개의 AI 영상을 생성할 수 있다. 이 밖에도 월 2020포인트를 제공하는 일반 멤버십 서비스와 월 6555포인트를 제공하는 고급 멤버십 서비스도 곧 출시될 예정이다.

"대형 AI 모델의 높은 모델 훈련 및 추론 비용과 C-end 사용자의 AI 도구에 대한 수요가 상대적으로 분산되어 있고 지불 의향이 부족하기 때문에 C-end 시장에서 대형 비디오 모델의 상용화는 아직 육성 기간이 길다." Chen Chen은 C-end 시장에서 대규모 비디오 모델의 상용화는 아직 갈 길이 멀다고 믿습니다.

B사이드 시장을 시작으로 Chen Chen은 "B사이드의 경우 AI 기술 혁명이 기존 워크플로우를 재편하고 중복 링크를 압축하며 창의적인 도구에 대한 새로운 수요를 촉발하고 있습니다."라고 기자에게 말했습니다. 이 과정에서 AI 비디오 대형 모델은 기존 영화 및 TV 제작, 광고 창의성, 미디어 콘텐츠 기획과 점진적으로 통합되어 복잡한 프로세스의 자동화와 지능형 콘텐츠 제작을 지원하고, 모델 기능이 효과적으로 내장될 수 있는지 여부를 확인합니다. 실제 워크플로가 구체화될 것입니다. 성적 효율성 향상과 비용 절감은 상용화 역량 구축의 핵심 요소입니다."

"키미의 상용화는 점차 모색될 예정이지만 현재의 초점은 아닙니다. 현재 초점은 더 강력한 성능을 갖춘 차세대 모델을 구축하는 것입니다." 매일 경제 뉴스의 Shi Zeng 기자는 현 단계에서는 상업화에 집중할 때가 아니라고 말했습니다.

아마도 도달하고 넘어야 할 이정표가 계속 남아 있는 "새내기" 꿈의 경우에도 마찬가지일 것입니다. "Jimeng의 현재 제품 기능과 비즈니스 모델은 UGC(사용자 생성 콘텐츠) 서비스에 중점을 두고 있으며 Douyin과의 생태학적 통합도 향후 개발의 초점이 될 것입니다."라고 Chen Chen은 말했습니다. 세부 사항 및 기타 기술 Jimeng이 현 단계에서 가장 주의해야 할 것은 매개변수에 대한 직접적인 벤치마킹이 아니라 애플리케이션 구현 및 생태학적 통합 기능에 핵심이 있습니다.”

소식

"Jimeng AI"가 출시되었습니다. Byte가 Kuaishou를 따라잡을 수 있을까요?

소개

내 연락처 정보