소식

메타컴퍼니, 특정 사물에 맞춰 미세조정할 필요 없는 맞춤형 이미지 생성 AI 모델 '이매진 유어셀프(Imagine Yourself)' 출시

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT하우스 뉴스가 8월 23일자 소셜미디어부터 가상현실까지 다양한 활용 가능성으로 인해 개인화 이미지 생성에 대한 관심이 높아지고 있습니다. 기존 방식은 사용자별로 많은 조정이 필요해 효율성과 확장성이 제한되는 경우가 많다. 이런 이유로 메타컴퍼니는 'Imagine Yourself' AI 모델을 혁신적으로 제안했다.

기존 개인화 이미지 생성 방법의 과제

현재의 개인화된 이미지 생성 방법은 각 사용자에 맞게 모델을 조정하는 데 의존하는 경우가 많으며 이는 비효율적이고 일반성이 부족합니다. 새로운 방법은 조정 없이 개인화를 달성하려고 시도하지만 종종 과적합되어 복사하여 붙여넣기 효과가 발생합니다.

자신의 혁신을 상상해 보세요

Imagine Yourself 모델은 특정 사용자에 맞게 미세 조정할 필요가 없으며 단일 모델을 통해 다양한 사용자의 요구를 충족할 수 있습니다.

이 모델은 변경 없이 참조 이미지를 복사하는 경향과 같은 기존 방법의 단점을 해결하여 보다 다양하고 사용자 친화적인 이미지 생성 프로세스를 위한 길을 열어줍니다.

Imagine Yourself는 정체성 유지, 시각적 품질, 적시 정렬 등 주요 영역에서 탁월하여 이전 모델보다 훨씬 뛰어난 성능을 발휘합니다.

모델의 주요 구성요소는 다음과 같습니다.

다양성을 장려하기 위해 합성 쌍 데이터를 생성합니다.

3개의 텍스트 인코더와 학습 가능한 시각적 인코더를 통합한 완전 병렬 주의 아키텍처

거친 것부터 미세한 것까지 다단계 미세 조정 프로세스

이러한 혁신적인 기술을 통해 모델은 강력한 신원 보호 및 텍스트 정렬 기능을 유지하면서 고품질의 다양한 이미지를 생성할 수 있습니다.

Imagine Yourself는 훈련 가능한 CLIP 패치 인코더를 사용하여 신원 정보를 추출하고 이를 병렬 교차 주의 모듈을 통해 텍스트 프롬프트와 통합하여 신원 정보를 정확하게 보존하고 복잡한 프롬프트에 반응합니다.

이 모델은 LoRA(Low Order Adapter)를 사용하여 아키텍처의 특정 부분만 미세 조정하여 높은 시각적 품질을 유지합니다.

Imagine Yourself의 뛰어난 기능은 SynPairs 데이터 생성입니다. 표정, 포즈, 조명의 변화를 포함하는 고품질 쌍 데이터를 생성함으로써 모델은 보다 효율적으로 학습하고 다양한 출력을 생성할 수 있습니다.

특히, 복잡한 큐 단어를 처리하는 데 있어 최첨단 모델에 비해 텍스트 정렬이 27.8%나 크게 향상되었습니다.

연구원들은 51개의 서로 다른 정체성과 65개의 단서 세트를 사용하여 Imagine Yourself를 정량적으로 평가하여 인간 평가를 위한 3,315개의 이미지를 생성했습니다.

이 모델은 시각적 매력, ID 보존, 큐 정렬과 같은 지표에 중점을 두고 최첨단(SOTA) 어댑터 기반 모델 및 제어 기반 모델과 비교됩니다.

인간 주석자는 ID 유사성, 적시 정렬 및 시각적 매력을 기반으로 생성된 이미지의 점수를 매깁니다. Imagine Yourself는 어댑터 기반 모델에 비해 큐 정렬이 45.1%, 컨트롤 기반 모델에 비해 30.8%의 획기적인 개선을 달성하여 그 우수성을 다시 한번 입증했습니다.

Imagine Yourself 모델은 개인화된 이미지 생성에 있어서 중요한 발전입니다. 이 모델은 주제별 튜닝의 필요성을 제거하고 합성 쌍 데이터 생성 및 병렬 주의 아키텍처와 같은 혁신적인 구성 요소를 도입하여 이전 접근 방식이 직면한 주요 과제를 해결합니다.