'수직모델'로 AIGC 상용화 선도하는 팬시테크의 기술경로

'수직형 모델'로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

2024-08-16

머신하트 오리지널

머신하트 편집부

우리는 또 다른 기술 혁신을 목격하고 있습니다. 이번에 AIGC는 개인에게 자신을 표현할 수 있는 도구를 제공하여 창작을 더 쉽고 대중적으로 만들지만, 그 원동력은 '큰' 모델이 아닙니다.

지난 2년 동안 AIGC 기술은 상상 이상으로 빠르게 발전해 텍스트, 이미지, 영상 등 모든 분야를 휩쓸었습니다. AIGC의 상용화 경로에 대한 논의는 끊이지 않았다. 그 중에서도 합의와 경로의 차이가 있다.

한편으로는 일반 모델의 강력한 성능이 놀랍고 다양한 산업 분야에 적용 가능성을 보여줍니다. 특히 DiT, VAR 등의 아키텍처 도입으로 스케일링 법칙이 텍스트 생성에서 시각적 생성으로 도약할 수 있게 되었습니다. 이 규칙에 따라 많은 대형 모델 제조업체는 훈련 데이터 증가, 컴퓨팅 성능 투자 및 매개변수 축적을 늘리는 방향으로 계속 전진하고 있습니다.

반면에, 우리는 보편적인 모델이 "모두 죽이기"를 의미하지 않는다는 것을 보았습니다. 많은 세분화된 트랙 작업에 직면하여 "잘 훈련된" 수직 모델이 더 나은 결과를 얻을 수 있습니다.

대형모델 기술이 가속화 구현기에 접어들면서 후자의 상용화 경로가 급속히 주목을 받고 있다.

이러한 발전 과정에서 중국의 스타트업 회사인 FancyTech가 눈에 띄었습니다.상업용 영상 콘텐츠 생성을 위한 표준화된 제품으로 시장을 급속히 확대했으며, 업계 구현 수준에서 경쟁사보다 먼저 '수직 모델'의 우수성을 검증했습니다.

국내 대형모델 창업계를 둘러보면 팬시테크의 상용화 실적은 누구나 쉽게 알 수 있다. 하지만 덜 알려진 것은 불과 몇 년 전에 탄생한 이 회사가 그 선두에 서 있는 수직적 모델과 기술적 이점이다.

독점 인터뷰에서 Machine Heart는 FancyTech와 그들이 하고 있는 기술 탐구에 대해 이야기했습니다.

FancyTech, 비디오 수직 모델 출시 DeepVideo

업계 장벽을 돌파하는 방법은 무엇입니까?

일반적으로 일반 모델의 제로샷 일반화 능력이 일정 수준에 도달한 후에는 이를 미세 조정하여 다운스트림 작업에 사용할 수 있습니다. 이는 오늘날 많은 대형 모델 제품이 출시되는 방식이기도 합니다. 그러나 실제로는 "미세 조정"만으로는 산업 응용 분야의 요구 사항을 충족할 수 없습니다. 각 산업의 콘텐츠 생성 작업에는 고유하고 구체적이고 복잡한 표준이 있기 때문입니다.

일반적인 모델은 일상적인 작업의 70%를 완료할 수 있지만 고객에게 실제로 필요한 것은 요구 사항을 100% 충족할 수 있는 "수직 모델"입니다. 상업용 시각 디자인을 예로 들면, 과거에는 관련 작업이 장기간 축적된 전문가에 의해 완료되었고, 브랜드의 구체적인 요구 사항에 따라 디자인하고 조정해야 했기 때문에 많은 수작업 경험이 필요했습니다. 심미성, 지시 준수 등의 지표에 비해 '제품 복원'은 브랜드가 이 작업에 더 많은 관심을 기울이는 지점이자, 브랜드가 지불할 의향이 있는지를 결정하는 요소이기도 합니다.

상업용 이미지/비디오용 수직 모델을 자체 개발하는 과정에서 FancyTech는 핵심 과제인 제품을 충분히 복원하고 특히 생성된 비디오에서 배경에 통합하여 변형 없이 제품의 제어 가능한 움직임을 달성하는 방법을 분해했습니다. .

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8 ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

오늘날 대형 모델 기술이 개발됨에 따라 애플리케이션 계층의 경우 오픈 소스 또는 폐쇄 소스 경로를 취하는 것은 더 이상 핵심 문제가 아닙니다. FancyTech의 수직 모델은 오픈 소스 기본 알고리즘 프레임워크를 기반으로 하며 자체 데이터 주석이 추가되고 재교육되며 좋은 생성 결과를 얻기 위해 지속적인 교육 반복을 위해 수백 개의 GPU만 필요합니다. 대조적으로, "제품 데이터"와 "훈련 방법"이라는 두 가지 요소는 최종 구현 효과에 더 중요합니다.

FancyTech은 방대한 3D 학습 데이터 축적을 전제로 모델의 2D 콘텐츠 생성을 안내하는 공간 지능 아이디어를 도입했습니다.특히, 이미지 콘텐츠 생성의 경우 팀은 제품 복원을 보장하기 위해 "다중 모드 기능 장치"를 제안하고, 비디오 콘텐츠 생성을 위해 제품과 배경의 자연스러운 통합을 보장하기 위해 특수 데이터 수집을 사용했으며, 팀은 비디오 생성을 재구성했습니다. 제품 중심의 비디오 생성을 달성하기 위해 기본 링크, 방향성 디자인 프레임워크 및 데이터 엔지니어링을 통합합니다.

진정한 차원 감소 공격: "공간 지능"이 2D 콘텐츠 생성을 어떻게 안내합니까?

많은 시각적 생성 제품의 효과가 만족스럽지 못한 핵심 이유는 현재 이미지 및 비디오 생성 모델이 2D 훈련 데이터를 기반으로 학습하고 실제 물리적 세계를 이해하지 못하는 경우가 많기 때문입니다.

이 점은 현장에서 합의에 도달했으며, 일부 연구자들은 자기회귀 학습 패러다임 하에서 모델의 세계에 대한 이해가 항상 얕다고 믿기까지 합니다.

그러나 상업용 영상 생성의 세분화 작업에서는 모델의 3D 물리적 세계에 대한 이해를 높이고 2D 콘텐츠를 더 잘 생성하는 것이 완전히 해결 불가능한 것은 아닙니다.

FancyTech은 "공간 지능" 분야의 연구 아이디어를 시각적 생성 모델 구축으로 전환했습니다. 일반적인 생성 모델과 달리, 공간 지능의 개념은 수많은 센서에서 얻은 원본 신호로부터 학습하고, 센서에서 얻은 원본 신호를 정확하게 보정하여 모델이 데이터를 인식하고 이해할 수 있는 능력을 부여하는 것입니다. 현실 세계.

따라서 FancyTech은 기존 스튜디오 촬영 대신 LiDAR 스캐닝을 사용하고 제품 통합 전후의 차이를 반영한 고품질 3D 데이터 쌍을 대량으로 축적했습니다. 3D 포인트 클라우드 데이터와 2D 데이터를 모델 훈련 데이터로 결합합니다. 현실에 대한 모델의 이해를 향상시킵니다.

우리는 시각적 콘텐츠를 생성할 때 빛과 그림자 효과를 형성하는 것이 매우 어려운 작업이라는 것을 알고 있습니다. 조명, 발광체, 역광, 광점 등의 요소는 그림의 공간적 레이어링을 더욱 강력하게 만들 수 있지만 이는 생성 모델에서는 이해하기 어려운 '지식 포인트'입니다.

FancyTech은 가능한 한 많은 자연광과 그림자 데이터를 수집하기 위해 각 환경에서 밝기와 색온도를 조정할 수 있는 수십 개의 조명을 구축했습니다. 이는 방대한 데이터의 각 쌍에 여러 개의 조명과 다양한 밝기 및 색온도를 중첩할 수 있음을 의미합니다. .

이 고강도 데이터 수집은 실제 촬영 장면의 조명을 시뮬레이션하여 전자상거래 장면의 특성에 더욱 부합하도록 만듭니다.

FancyTech은 고품질 3D 데이터 축적을 결합하여 알고리즘 프레임워크에서 일련의 혁신을 이루었습니다. 공간 알고리즘과 이미지 및 비디오 알고리즘을 유기적으로 결합하여 모델이 핵심 개체와 환경 간의 상호 작용을 더 잘 이해할 수 있도록 했습니다.

훈련 과정에서 모델은 어느 정도 물리적 세계에 대한 이해를 "발현"할 수 있으며, 3차원 공간, 깊이, 빛의 반사 및 굴절, 다양한 매체에서 작동하는 빛의 결과에 대한 더 깊은 이해를 갖게 됩니다. 그리고 이를 통해 우리는 마침내 생성된 결과에서 제품의 "강력한 감소"와 "과융합"을 달성했습니다.

'강한 감소'와 '초융합'의 알고리즘 혁신은 무엇인가요?

일반적인 제품 장면 이미지 생성 작업의 경우 현재 주류 방식은 주로 질감을 사용하여 제품 부분의 복원을 보장한 다음 Inpainting 기술을 기반으로 그림 장면 편집을 구현합니다. 사용자는 변경이 필요한 영역을 선택하고 Prompt에 진입하거나 제품 장면 생성을 안내하는 참고 이미지를 제공합니다. 이 방법의 융합 효과는 더 좋지만 장면 생성 결과의 제어 가능성이 높지 않다는 단점이 있습니다. 예를 들어 명확하지 않거나 너무 단순하며 단일 출력의 높은 가용성을 보장할 수 없습니다.

현재 방법으로는 해결할 수 없는 문제에 대응하기 위해 FancyTech에서는 다차원으로 제품 특징을 추출한 다음 이러한 특징을 사용하여 통합 장면 그래프를 생성하는 독자적인 "다중 모드 특징 생성기"를 제안했습니다.

특징 추출 작업은 "글로벌 기능"과 "로컬 기능"으로 나눌 수 있습니다. 글로벌 기능에는 VAE 인코더를 사용하여 추출되는 제품의 윤곽선, 색상 및 기타 요소가 포함됩니다. 그래프 신경망을 사용합니다. 그래프 신경망의 가장 큰 장점 중 하나는 제품 내 각 핵심 픽셀의 정보와 핵심 픽셀 간의 관계를 추출할 수 있고, 제품 내부의 세부 사항에 대한 복원력을 향상시킬 수 있다는 점입니다.

유연한 소재 제품의 콘텐츠 생성에서 이 방법으로 얻은 효과는 크게 향상됩니다.

영상의 생성은 이미지에 비해 제품 자체의 움직임 제어와 그것이 가져오는 빛과 그림자의 변화도 포함합니다. 일반 비디오 생성 모델의 경우 비디오의 특정 부분을 독립적으로 보호할 수 없다는 어려움이 있습니다. 이 문제를 해결하기 위해 FancyTech에서는 작업을 "제품 동작 생성"과 "비디오 장면 통합"이라는 두 가지 부문으로 나누었습니다.

첫 번째 단계에서 FancyTech는 화면 내 제품의 움직임을 제어하기 위한 일부 타겟 모션 계획 솔루션을 설계했습니다. 이는 비디오의 각 프레임에서 제품을 미리 "고정"하는 것과 같습니다.
두 번째 단계에서는 제어 모듈을 통해 제어 가능한 비디오 생성이 이루어집니다. 제어 모듈은 유연한 설계를 채택하고 U-net, DiT 등 다양한 아키텍처와 호환되므로 확장 및 최적화가 쉽습니다.

데이터 수준에서는 FancyTech의 고유한 제품 데이터 리소스를 사용하여 제어 교육 및 제품 보호를 제공하는 것 외에도 장면 일반화 기능을 보장하기 위해 여러 오픈 소스 데이터 세트도 추가됩니다. 훈련 계획은 비교 학습과 과정 학습을 결합하여 궁극적으로 물품 보호 효과를 달성합니다.

AIGC 시대의 배당금을 보자

수직 모델에서 시작하여 좀 더 평범한 사람들까지

'보편적'이든 '수직적'이든 두 노선의 종착점은 상용화다.

FancyTech의 수직 모델의 가장 직접적인 수혜자는 브랜드입니다. 과거에는 광고 영상의 제작 주기가 기획, 촬영, 편집까지 몇 주가 소요되었습니다. 하지만 AIGC 시대에는 이런 광고 영상을 만드는 데 10분밖에 걸리지 않고, 비용도 원래 비용의 5분의 1 수준에 불과하다.

방대한 고유 데이터와 업계 노하우를 바탕으로 수직형 모델의 장점을 바탕으로 국내외에서 폭넓은 인지도를 얻은 FancyTech은 국내 파트너인 Lazada와 계약을 맺었습니다. 동남아시아에서 알려진 전자상거래 플랫폼, 미국에서는 Kate Sommerville, Solawave 등 유럽 현지 브랜드의 선호를 받고 있으며 LVMH 혁신상을 수상했으며 유럽 고객과 긴밀한 협력 관계를 맺고 있습니다.

FancyTech은 핵심 수직 모델 외에도 AI 단편 비디오에 대한 풀 링크 자동 게시 및 데이터 피드백 기능을 제공하여 제품 판매의 지속적인 성장을 주도합니다.

더 중요한 것은,수직적 모델은 일반 대중이 AIGC 기술을 활용하여 생산성을 향상시키는 경로를 시각화합니다.예를 들어, 전통적인 길거리 사진 스튜디오는 FancyTech 제품의 도움으로 전문 장비와 전문가를 추가하지 않고도 간단한 인물 사진 촬영에서 전문가 수준의 상업용 시각 자료 제작으로 비즈니스 전환을 완료할 수 있습니다.

이제 휴대전화만 있으면 거의 모든 사람이 동영상을 찍고, 음악을 녹음하고, 자신의 창작물을 전 세계와 공유할 수 있습니다. AIGC가 다시 한 번 개인의 창의성을 발휘하는 미래를 상상해 보세요——

일반인들이 전문적인 한계를 뛰어넘고 보다 쉽게 아이디어를 현실화할 수 있게 함으로써 각 산업의 생산성이 도약하고 더 많은 신흥 산업을 창출할 수 있게 되면 AIGC 기술이 가져다주는 시대적 배당금은 진정으로 일반화될 것입니다. 사람들.

소식

'수직형 모델'로 AIGC 상용화를 선도하는 팬시테크의 기술 경로는 무엇인가?

소개

내 연락처 정보