소식

Kuaishou의 "Keling"은 예상치 못한 인기를 얻었고 Byte는 따라잡기에 열중했으며 AI Wensheng 비디오 트랙에 대한 경쟁이 치열해졌습니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



2024년 2월, 소라의 등장으로 인해 많은 대형 모델사들이 좋은 봄 축제를 열지 못하게 됐다.

한 굴지의 AI 기업 직원은 '시티서클'에 "봄 축제 갈라가 아직 재생 중이라 긴급하게 그룹 토론을 준비하고 있다"고 말했다. 소라의 부드럽고 매끄러운 경험을 보고 강좌를 판매하는 블로거들조차 서둘러 온라인 튜토리얼을 시작하고 많은 돈을 벌고 있습니다.

국내판 소라를 가장 빠른 시간에 '복제'할 수 있는 사람은 누구일까요? 알리바바, 바이두, '빅 5'에 주목하는 사람들이 늘어나고 있습니다. 그러나 상대적으로 "부처님과 같은" 기술적 성능을 갖춘 빠른 ​​선수가 승자가 될 것이라고는 아무도 생각하지 못했습니다.

6월 7일, Kuaishou는 갑자기 최대 2분의 비디오 생성을 지원할 수 있는 Wensheng 비디오 모델 "Kling"을 출시했습니다. 또한, 아직 '미래' 단계에 있는 소라에 비해 케링은 발표되자마자 테스트용으로 오픈해 생성된 결과도 눈부시다.

벤처캐피털 업계 관계자는 시티서클에 “최근 업계에서 가장 많이 거론되는 주제는 켈링이다. 공식 데이터에 따르면 Keling은 출시 한 달 만에 50만 명 이상이 신청했으며 30만 명 이상의 사용자에게 공개되었으며 700만 개 이상의 단편 동영상이 생성되었습니다.

Ke Ling의 예상치 못한 인기는 필연적으로 Byte를 조금 당황하게 만들었습니다. 올해 5월 Byte는 Wensheng Video 모델 'Jimeng' 테스트도 열었지만 현재 인기 있는 Wensheng Video 트랙에서는 아직 효과가 뚜렷하지 않습니다.

'무시'되던 상대에게 갑자기 버림받은 바이트는 따라잡아야 했다. TMTPost에 따르면 ByteDance는 최근 AI 대형 모델을 그룹의 'P0 최고 수준' 방향으로 설정했습니다. Douyin 및 Jianying과 같은 많은 팀도 가까운 시일 내에 발표될 것으로 예상되는 AI 비디오 모델 애플리케이션을 개발하기 위해 열심히 노력하고 있습니다.

1. 빠르고, 거칠고, 격렬하게 할 수 있다.

많은 개발자들은 Keling의 출시와 뛰어난 성능이 업계에서 놀랍다고 "City"에 말했습니다.

최근 'City Boundary'는 '검은 고양이'라는 문단을 키워드로 사용하고 Zhipu AI가 최근 출시한 Keling, Jimeng 및 'Qingying'에도 동일한 프롬프트를 입력했습니다. 한 사람, 귀여운 검은 고양이가 녹색 눈과 노란색 목줄, 그리고 몸에 긴 검은 털을 가지고 지나가고 있습니다. 영상은 카메라의 관점에서 촬영되었습니다. 땅은 그것을 반사한다. 검은 고양이의 모습.”

생성된 3개의 비디오 중 Keling 버전은 빠른 달리기 효과를 얻지 못했지만 일반적으로 비디오는 객관적인 규칙을 준수했습니다.

이에 비해 '지몽' 버전에서는 땅에 물이 없었고, 검은 고양이가 앞으로 나아가지 않았다. "청잉" 버전에는 물이 쌓이지만 검은 고양이는 걸을 때 이상한 걸음걸이를 보이고 꼬리도 프레임을 잃습니다.

▲(영상은 Ke Ling, Ji Meng, Qing Ying 순서로 제작되었습니다)

"Silicon Star"에 따르면 Keling은 Kuaishou를 구성하는 데 3개월이 걸렸습니다. 팀은 20명 남짓으로 매우 작습니다. 리더는 현재 Kuaishou의 시각적 생성 및 상호작용 센터 책임자인 Wan Pengfei입니다. 방향에는 이미지/비디오 신호 처리, 컴퓨터 사진 및 컴퓨터 비전, 손실 함수 감소, 비전 생성 등이 포함됩니다.

Keling의 전신은 2023년 10월 Kuaishou가 다시 시작한 눈에 띄지 않는 프로젝트 "Puji"에서 나왔습니다. 이는 AI를 사용하여 정적 사진에서 2s Gif 이모티콘을 생성하는 도구 소프트웨어입니다. 올해 3월 초, Kuaishou는 소규모 내부 회의를 열었고 Wan Pengfei의 아이디어는 Kuaishou의 수석 부사장인 Gai Kun(Yu Yue)에 의해 확인되었고 Puchi는 사전 조사 대상 제품으로 빠르게 결정되었습니다.

'실리콘스타피플'에 따르면 "클링을 하면 빠르고, 거칠고, 치열하다는 실행력 수준에서 공감대가 있다"고 한다.

Keling 프로젝트가 시작된 지 한 달도 채 되지 않아 Kuaishou 창립자 Cheng Yixiao의 지원을 받았고, 그는 이를 회사의 전략적 프로젝트로 여겼습니다. Gai Kun은 또한 종종 다음과 같이 말합니다. 회사 카드는 모두 귀하가 사용하는 것이며 회사는 그것을 전폭적으로 지원합니다.

디지털 휴먼 트랙의 기업가 커란은 '시티'를 분석하며 "커링의 성공은 콰이쇼우가 축적한 영상 데이터 자료에 크게 힘입었다. 국내를 보면 이런 측면에서 경쟁할 수 있는 유일한 것은 도이슈 사운드뿐이다"라고 분석했다. ."

하지만 풍경은 아름답지만 바이트는 조금 외로운 것 같아요.

'Jimeng'은 5월 9일 공식적으로 발표되었지만 6월 17일에는 AIGC 단편 시리즈 'Sanxingdui: Future Apocalypse'에도 수석 AI 기술 서포터로 출연했습니다. 하지만 C면에서의 활약으로 보든, 지난 7월 13일 개봉한 콰이쇼우의 AIGC 단편 드라마 '산과 바다'에 비하면 지멍의 목소리는 그리 크지 않다.

7월 17일 시장에는 바이트가 소라 같은 빈센트 영상 기술의 발전을 발표할 것이라는 소식이 전해졌다. 외부에서도 이를 바이트가 켈링을 따라잡아 정면으로 경쟁하겠다는 의미로 해석하고 있다.

그러나 Byte는 나중에 "City Circle"에 뉴스가 정확하지 않다고 말했습니다. 7월 17일, '시티서클'은 이번 행사가 기술 공유회에 가깝다고 밝혔다. 회의는 주로 Doubao 대형 모델의 기초 시각 연구 팀장 Feng Jiashi가 주최했으며 전체 세션은 Byte 연구 과학자, 기관 학자 등이 영어로 공유했습니다.

바이트의 '큰 행보'는 아직 좀 더 기다려야 할 것으로 보인다.

2. 바이트가 아직 복구되지 않았습니다.

그렇다면 바이트는 최근 한창 진행 중인 빈센트 비디오 트랙의 향연을 왜 놓쳤는가?

어느 정도는 "커링"에 베팅하는 콰이쇼우에 비하면 "한 번의 노력으로 10가지 기술을 이길 수 있기" 때문일 수도 있습니다. Byte의 대규모 모델 레이아웃은 더 복잡합니다. 올해 상반기에 Byte의 더 중요한 상대는 Tencent와 Alibaba입니다.

대형 모델 앞에서 Byte의 속도는 더 이상 "급진적"이지 않습니다. 결국 업계에서 대형 모델 가격 전쟁을 주도한 것은 두 달여 전의 일이다.

5월 15일 ByteDance의 "FORCE Motive Power Conference"에서 바이트는 자체 개발한 빈백 모델을 기반으로 하는 API 서비스를 출시했습니다. 동시에 Volcano Engine 사장 Tan Dai는 한 걸음 더 나아가 “Doubao”의 최신 가격인 0.0008위안/천 토큰을 공개하며 이것이 업계의 99.3%보다 낮은 “하한 가격”이라고 발표했습니다.

당시에는 바이트의 '공격'이 주도권을 잡았다. 많은 출처의 "시장계"에 따르면 주요 플레이어는 Byte의 공격에 준비가 되어 있지 않았지만 모든 당사자는 무력감을 느꼈지만 수동적으로 따라갈 수 있었습니다.

앞으로 며칠 동안 Alibaba Cloud, Baidu Wenxin Model 및 Tencent Cloud는 대규모 모델 추론 입력 토큰 및 API의 가격을 대폭 낮추겠다고 발표했습니다. 이러한 영향으로 C측의 대규모 헤드 모델 요청은 이제 거의 무료가 되었고 업계는 다음 생태학적 수준을 향해 움직이기 시작했습니다.

합법적인 AI 응용업체 창업자에 따르면 API 서비스 오픈 이후 시차가 거의 없었고, 볼케이노엔진 영업사원들이 적극적으로 고객과 접촉하고 제품 홍보에 나섰다고 한다. 이는 바이트가 대형 모델을 최고 수준의 전략으로 삼았다는 시장 추측도 확인시켜준다.



▲(2024년 "FOECE 컨퍼런스"에서의 탄 다이. 출처/화산 엔진)

최근 바이트의 '대표 제품' 빈백이 크게 성장했다.

Questmobile 데이터에 따르면 2024년 6월 기준 국내 AIGC 앱 중 Doubao, Tiangong, Kimi Smart Assistant 및 Cat Box가 눈에 띄는 성장을 이루었으며 Doubao가 트래픽 1위를 차지했습니다.



▲(사진출처/QuestMobile)

Kuaishou와 비교할 때 Byte가 지금 더 우려하는 것은 기본 대형 모델부터 AI 응용 계층에 이르기까지 완전한 생태학적 경쟁일 수 있습니다. 게다가 볼케이노 엔진이 2021년에야 공식적으로 클라우드로 전환된다는 점을 고려하면 거대 클라우드 벤더 중 '최연소'다. 3년 넘게 Huoshan Cloud는 클라우드 시장에서 도전자로 여겨져 왔습니다. Byte가 기본 대형 모델, 애플리케이션 계층 및 클라우드 시장과 협력하는 방법은 포괄적인 제안입니다.

최근 'Photon Planet' 보고서에 따르면 Byte의 'Kouzi' 플랫폼 사용자 중 상당수가 자신이 만든 에이전트와 봇을 WeChat 공식 계정이나 미니 프로그램에 연결하는 방법을 찾고 있으며 논의가 매우 활발합니다.

바이트는 지난해 12월 AI 애플리케이션 개발 플랫폼 '코즈'를 해외에 출시했다. 올해 2월에는 '버튼' 국내 버전이 온라인에 출시됐다. 많은 Douyin 상인들도 그것으로 빨리 금 단지를 만들고 싶어합니다.

텐센트가 뒤늦게 AI 에이전트 생성·유통 플랫폼 '텐센트 위안치(Tencent Yuanqi)'를 올해 5월 출시한 점을 감안하면 말이다. 당시 버튼 방문 횟수는 233만 회에 이르렀습니다. 현재 Tencent Yuanqi는 미니 프로그램, 공식 계정, 고객 서비스 구독 계정으로 구성된 WeChat 시리즈 생태계를 아직 오픈하지 않았습니다.

결국 AI 개발은 아직 초기 단계다. Byte는 Tencent와 마찬가지로 여전히 사용자를 교육하는 데 많은 시간을 투자해야 합니다. AI 시대에 유통권을 놓고 경쟁하며 앞서나가는 것이 바이트가 텐센트를 공략하기 위해 해야 할 더 큰 교훈일 수도 있다.

3. 나중에 파업하세요. 아직 시간이 있습니다.

업계 수준에서 볼 때, 오늘날의 인터넷에서는 단기적으로는 단기적으로는 "한 발 뒤처져" 있지만, 장기적으로는 콘텐츠 트래픽, 전자상거래 트래픽, 금융 탄약이 부족하지 않습니다. 아직 따라잡을 가능성이 있습니다.

적극적 시장 전략을 활용해 뒤쳐진 포지션을 따라잡고 힘차게 기적을 이루는 것도 바이트의 특기입니다.

최근 알리바바를 겨냥해 바이트도 대형 모델 통합 작업을 진행 중이다. 6월 26일에 통과된 DingTalk 생태계 회의에서 Ye Jun 회장은 Alibaba의 자체 Tongyi 외에도 다른 6개 회사의 대형 타사 모델도 DingTalk에 포함될 것이라고 발표했습니다. 여기에는 MiniMax, Dark Side of the Moon, Zhipu AI, Orion Star, Zero One Thing 및 Baichuan Intelligence가 포함되며 중국에서 거의 모든 유명 대규모 모델 스타트업을 포괄하는 '중국에서 가장 개방적인 AI 생태계'를 구축하는 것이 자명합니다. ".

DingTalk의 게임 플레이와 유사하게 자체 "Doubao"를 지원하는 것 외에도 Byte의 Kouzi 플랫폼은 Tongyi Qianwen, Dark Side of the Moon 및 MiniMax와 같은 주요 외부 모델에 액세스할 수 있습니다. 6월 14일, Kouzi는 사용자가 두 명의 익명 모델을 선택하고 생성된 콘텐츠의 성능에 따라 점수를 매길 수 있는 "모델 스퀘어" 기능도 출시했습니다.



또 최근 바이트가 폭로해 'AI+하드웨어' 탐색이 가속화되고 있으며, 인수를 통한 인재 채용도 서슴지 않고 있다.

'테크플래닛'에 따르면 바이트 자회사 피코는 지난해 하반기부터 헤드폰, 스피커 등 다양한 웨어러블 기기를 개발해 왔으며 이들 기기에도 AI가 탑재될 예정이다. Byte Doubao 팀은 또한 대규모 모델 소프트웨어와 하드웨어의 결합을 탐색해 왔으며 점차 학습 기계, 로봇 개, 로봇과 같은 하드웨어 장치에 적용해 왔습니다.

36Kr의 또 다른 보고서에 따르면 Byte AI 하드웨어의 "D 라인"을 담당하는 사람은 Li Haoqian입니다. 후자는 올해 3월 바이트가 인수한 OWS(Open Wearable Stereo) 헤드폰 브랜드 올라댄스(Oladance)의 창업자다. 또 다른 AI 하드웨어 라인인 "O Line"의 책임자는 Byte가 인수한 회사의 창립자이기도 합니다. 그는 ByteDance Technology의 부사장인 Hong Dingkun에게 보고합니다.

최근 트랙의 인기에 직면한 빈센트 비디오의 방향에는 바이트를 포함한 추격자들이 아직 시간이 있다.

최근 한 개발자는 '시티월드'에 "현재는 Keling을 사용해 사진을 구성하고 워크플로우의 작업량을 줄이고 있다. 아직 창작에 충분히 활용하고 있지 않아 아직 의존도가 크지 않다"고 말했다.

다른 개발자이자 짧은 동영상 AIGC 블로거의 눈에 Keling은 여전히 ​​최적화할 여지가 많습니다. "Keling Wensheng Video에 의존하는 것은 가상 인간 IP의 일관성을 보장할 수 없습니다. 저는 보통 Kelingtu를 사용하여 동영상을 제작합니다. 기능은 동일합니다. Ke Ling에게 사진을 제공하여 다양한 관점에서 역동적인 비디오를 생성한 다음 이를 결합하여 카메라 이동 효과를 시뮬레이션할 수 있습니다. "

국내 AI 시뮬레이션 데이트 상품 R&D 관계자는 "현재 대규모 모델 응용 시장에서는 모두가 돌을 느끼며 강을 건너고 있다"며 "어떻게 상용화할지는 너무 멀고도 먼 문제"라고 말했다. 막연하지만 확실한 것은 더 많은 사람들이 사용하고 플레이할수록 제품의 최적화와 반복이 더 많이 보장될 수 있다는 것입니다.”

(케란은 가명입니다)

작성자 | 동웬슈

편집 | 리 위안

운영 | 리우샨