2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
대형 모델이 출시되고 가속 버튼을 누르면 Vincentian 다이어그램은 의심할 여지 없이 가장 뜨거운 적용 방향 중 하나입니다.
스테이블 디퓨전의 탄생 이후 국내외에 빈첸시오 인물의 대형 모형이 끝없이 쏟아져 나와 한동안 '신들 간의 싸움'처럼 느껴졌다. 불과 몇 달 사이에 '최강 AI 아티스트'라는 타이틀이 여러 번 바뀌었습니다. 모든 기술 반복은 AI 이미지 생성 품질과 속도의 상한선을 계속해서 확장하고 있습니다.
이제 몇 단어만 입력하면 원하는 사진을 얻을 수 있습니다. 전문가 수준의 광고 포스터든 초현실적인 사진이든 AI 매핑의 충실도는 우리를 놀라게 했습니다. AI는 2023년 소니 월드 포토그래피 어워드(Sony World Photography Awards)에서도 우승을 차지했습니다. 대상이 발표되기 전, 이 '사진'은 런던 서머셋 하우스에 전시된 적이 있었다. 만약 작가가 이를 공개적으로 공개하지 않는다면, 그 사진이 실제로 AI가 만든 사진인지 누구도 알 수 없을 것이다.
Eldagse와 그의 AI 생성 작품 "Electrician"
AI가 그린 그림을 더욱 아름답게 만드는 방법은 AI 기술자들의 끊임없는 노력과 떼려야 뗄 수 없습니다."AIGC Experience School" 6호에서는 Doubao Vincent Chart 기술 전문가 Li Liang과 NVIDIA 솔루션 설계자 Zhao Yijia를 초대하여 Vincent Chart 모델의 기술에 대한 심층 분석을 제공하여 더 아름답고, 더 빠르고, 더 나은 이해를 제공합니다. 사용자의 마음의 링크.
라이브 방송이 시작될 때 Li Liang은 먼저 최근 '최상급' 국내 대형 모델인 ByteDance Doubao 대형 모델의 Vincent 다이어그램 모델의 기술 업그레이드를 자세히 분석했습니다.
Li Liang은 Doubao 팀이 해결하고자 하는 문제는 주로 세 가지 측면을 포함한다고 말했습니다. 첫째, 사용자의 아이디어 디자인을 충족시키기 위해 더 강력한 이미지와 텍스트 일치를 달성하는 방법, 둘째, 더 궁극적인 사용자 경험을 제공하기 위해 더 아름다운 이미지를 생성하는 방법; 세 번째는 초대형 서비스 요청에 맞춰 그래프를 더 빠르게 생성하는 방법입니다.
이미지와 텍스트 매칭 측면에서 Doubao 팀은 데이터로 시작하여 방대한 이미지와 텍스트 데이터를 정제하고 필터링한 후 최종적으로 수천억 개의 고품질 이미지를 데이터베이스에 저장했습니다. 또한 팀은 요약 작업을 위해 다중 모드 대형 언어 모델도 특별히 훈련했습니다. 이 모델은 사진 속 이미지의 물리적 관계를 보다 포괄적이고 객관적으로 설명합니다.
고품질, 고해상도의 이미지와 텍스트 데이터를 확보한 후, 모델의 강점을 더욱 잘 활용하려면 텍스트 이해 모듈의 능력을 향상시켜야 합니다. 팀은 네이티브 이중 언어 대형 언어 모델을 텍스트 인코더로 사용하여 모델의 중국어 이해 능력을 크게 향상시켰습니다. 따라서 "당나라" 및 "등불 축제"와 같은 국가적 요소에 직면하여 Doubao 및 Vincent 다이어그램 모델을 사용했습니다. 또한 더 깊은 이해를 보여줍니다.
Diffsuion 모델 아키텍처의 경우 Doubao 팀은 효과적인 확장을 위해 UNet을 사용하여 매개변수 수를 늘림으로써 이미지-텍스트 쌍에 대한 이해와 충실도가 높은 생성 기능을 더욱 향상시켰습니다. .
사용자가 직관적으로 느끼는 가장 확실한 미적 스타일을 위해 Doubao 팀은 전문적인 미적 지침을 도입했으며 항상 사용자와 대중의 미적 선호도에 주의를 기울입니다. 동시에 팀은 데이터 및 모델 아키텍처에도 열심히 노력했습니다. 사용자가 얻는 이미지와 데모 디스플레이 간의 비교는 실제로 "구매자 쇼" 및 "판매자 쇼"와 같습니다. 실제로 제공된 프롬프트는 모델에 대해 충분히 자세하고 명확하지 않으며 Doubao Vincent 다이어그램입니다. 모델은 "Rephraser"를 도입하고 사용자의 원래 의도를 따르면서 프롬프트 단어에 보다 자세한 설명을 추가하여 모든 사용자가 보다 완벽한 생성 효과를 경험하게 됩니다.
모델이 사진을 더 빨리 생성하고 사진당 비용을 덜 소비하도록 하기 위해 Doubao 팀은 모델의 증류 방법에 새로운 문제 해결 아이디어도 제공했습니다. 대표적인 성과는 새로운 확산 모델 증류인 Hyber-SD입니다. 노이즈 제거 단계 수를 압축하면서 거의 무손실 성능을 유지하는 프레임워크입니다.
다음으로 NVIDIA 솔루션 아키텍트 Zhao Yijia는 기본 기술부터 시작하여 Vincent Graph의 가장 주류인 두 가지 Unet 기반 SD 및 DIT 모델 아키텍처와 해당 특성을 설명하고 NVIDIA의 Tensorrt, Tensorrt-LLM, Triton, Nemo 등의 How 도구를 소개했습니다. Megatron은 모델 배포를 지원하고 대규모 모델이 보다 효율적으로 추론할 수 있도록 돕습니다.
Zhao Yijia는 먼저 Stable Diffusion 모델의 원리에 대한 자세한 설명을 공유하고 Clip, VAE 및 Unet과 같은 주요 구성 요소의 작동 원리에 대해 자세히 설명했습니다. Sora가 인기를 끌면서 DiT(Diffusion Transformer) 아키텍처도 인기를 끌었습니다. Zhao Yijia는 모델 구조, 특성, 컴퓨팅 전력 소비라는 세 가지 측면에서 SD와 DiT의 장점을 포괄적으로 비교했습니다.
Stable 확산을 사용하여 이미지를 생성할 때 프롬프트 단어의 내용이 생성된 결과에 표시되지만 이미지가 원하는 대로 표시되지 않는 경우가 많습니다. 이는 텍스트 렌더링을 기반으로 한 Stable 확산이 세부 사항을 제어하는 데 좋지 않기 때문입니다. 구도, 움직임, 얼굴 특징, 공간 관계 등과 같은 이미지의 따라서 연구진은 안정 확산의 작동 원리를 바탕으로 안정 확산의 단점을 보완하기 위해 많은 제어 모듈을 설계했습니다. Zhao Yijia는 대표적인 IP 어댑터와 ControlNet을 추가했습니다.
계산 집약적인 Vincentian 그래프 모델의 추론 속도를 높이기 위해서는 NVIDIA의 기술 지원이 핵심적인 역할을 합니다. Zhao Yijia는 고성능 컨볼루션, 효율적인 스케줄링 및 분산 배포 기술을 통해 이미지 및 텍스트 생성 모델의 추론 프로세스를 최적화하는 Nvidia TensorRT 및 TensorRT-LLM 도구를 소개했습니다. 동시에 NVIDIA의 Ada, Hopper 및 곧 출시될 BlackWell 하드웨어 아키텍처는 이미 FP8 교육 및 추론을 지원하여 모델 교육에 보다 원활한 경험을 제공할 것입니다.
여섯 번의 멋진 라이브 방송을 마친 후, Volcano Engine, NVIDIA 및 CMO CLUB이 공동으로 시작한 "AIGC Experience Party"가 성공적으로 마무리되었습니다. 이 6가지 프로그램을 통해 AIGC가 어떻게 '흥미로움'에서 '유용함'으로 변화하는지에 대해 모두가 더 깊이 이해하게 될 것이라고 믿습니다. 우리는 또한 "AIGC 체험 학교"가 프로그램에 대한 논의에 머물 뿐만 아니라 실제로 마케팅 분야의 지능형 업그레이드 과정을 가속화하기를 기대합니다.
"AIGC 체험학교" 6개 이슈 전체 주소 검토:https://vtizr.xetlk.com/s/7CjTy