소식

이 논문은 Paints-UNDO 이전에 구현된 것입니다.

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

저자 소개: Song Yiren: 싱가포르 국립 대학교 ShowLab 박사 과정. 주요 연구 방향은 이미지 및 비디오 생성, AI 보안입니다.

Huang Shijie: 싱가포르 국립대학교 석사 2년차 학생. 현재 Tiamat AI에서 알고리즘 엔지니어 인턴으로 일하고 있습니다. 그의 주요 연구 방향은 시각적 생성입니다. 현재 2025년 가을 박사과정 입학 기회를 찾고 있습니다.

최근 lvmin은 최신 모델인 Paints-UNDO를 출시했습니다. 이 AI 생성 도구는 사진을 기반으로 전체 페인팅 프로세스를 복원할 수 있으며 전체 AIGC 커뮤니티는 충격을 받았습니다.



페인트 - UNDO 데모.

이르면 한 달 전 NUS, SJTU, Tiamat 및 기타 기관에서 유사한 작업에 대한 작업인 ProcessPainter: 시퀀스 데이터에서 페인팅 프로세스 배우기를 공동으로 발표했습니다. Paints-UNDO 기술 보고서는 아직 공개되지 않았습니다. ProcessPainter가 이를 어떻게 구현하는지 살펴보겠습니다!



  • 논문 제목: ProcessPainter: 시퀀스 데이터에서 페인팅 프로세스 학습
  • 논문 링크: https://arxiv.org/pdf/2406.06062
  • 코드 링크: https://github.com/nicolaus-huang/ProcessPainter

그림 지침서를 열면 그리는 방법에 대한 단계별 지침이 표시됩니다. 하지만 생성적 AI 시대에는 노이즈 제거 과정을 통한 이미지 생성이 인간 화가의 페인팅 과정과 완전히 다릅니다. AI 페인팅 과정은 회화 교육에 직접 사용될 수 없습니다.

이 문제를 해결하기 위해 ProcessPainter는 인간 화가가 그림을 그리는 영상과 합성 데이터에 대한 시간적 모델을 학습시켜 처음으로 확산 모델을 통해 그림 프로세스를 생성할 수 있습니다. 또한 다양한 주제와 화가의 그림 과정이 크게 다르며 스타일도 매우 다릅니다. 그러나 현재 회화 과정을 연구 대상으로 삼은 연구는 거의 없다. 논문의 저자는 사전 학습된 Motion Model을 기반으로 특정 아티스트의 소수의 페인팅 시퀀스에 Motion LoRA를 트레이닝하여 아티스트의 페인팅 기법을 학습했습니다.



ProcessPainter의 핵심 기술에 대한 심층적인 해석



1. 시간적 주의 메커니즘

시간적 주의를 사용하여 페인팅 프로세스를 생성하는 방법을 배우는 것이 ProcessPainter의 핵심 혁신입니다. 회화 시퀀스 생성의 핵심은 전체 시퀀스가 ​​동일한 그림의 추상에서 콘크리트로의 변화 과정이며, 이전 프레임과 이후 프레임이 내용과 구성에서 일관되고 관련성이 있다는 것입니다. 이 목표를 달성하기 위해 저자는 AnimateDiff의 Timing Attention 모듈을 Unet에 도입했습니다. 이 모듈은 각 확산 레이어 뒤에 위치하며 프레임 간 Self-Attention 메커니즘을 통해 다양한 프레임의 정보를 흡수하여 전체 시퀀스의 원활한 전환과 연속성을 보장합니다.

실험에 따르면 이 훈련 전략은 프레임 간에 일관된 페인팅 효과를 유지할 수 있음을 보여줍니다. 페인팅 프로세스 생성과 비디오 생성 작업의 차이점은 페인팅 프로세스 전후의 변화가 더 급격하다는 것입니다. 첫 번째 프레임은 완성도가 낮은 컬러 블록 또는 선 그리기이며, 마지막 프레임은 완전한 페인팅입니다. 이는 모델 훈련에 어려움을 초래합니다. 이를 위해 논문의 저자는 먼저 다수의 합성 데이터 세트에 대해 타이밍 모듈을 사전 훈련하여 모델이 다양한 SBR(Stroke-based Rendering) 방법의 단계별 페인팅 프로세스를 학습할 수 있도록 했습니다. 그런 다음 수십 명의 아티스트의 페인팅 프로세스 데이터를 사용하여 페인팅 LoRA 모델을 훈련했습니다.

2. 작품 복제 네트워크

회화 실습에서 우리는 작품이 어떻게 그려지는지, 원하는 완성 효과를 얻기 위해 반제품 그림부터 계속해서 다듬는 방법을 알고 싶습니다. 이는 페인팅 과정의 재구성과 완성이라는 두 가지 작업으로 이어집니다. 두 작업 모두 이미지 입력이 있다는 점을 고려하여 논문 작성자는 Artwork 복제 네트워크를 제안했습니다.

이 네트워크 설계는 모든 프레임의 이미지 입력을 처리하고 페인팅 프로세스 생성을 유연하게 제어할 수 있습니다. 이전의 제어 가능한 생성 방법과 유사하게, 이 논문의 저자는 참조 이미지와 일치하도록 생성된 결과의 특정 프레임을 제어하기 위해 ControlNet의 변형을 도입했습니다.

3. 합성 데이터 세트 및 훈련 전략

실제 도장 공정 데이터를 확보하기 어렵기 때문에 대규모 교육을 지원하기에는 수량이 부족합니다. 이를 위해 논문의 저자는 사전 훈련을 위한 합성 데이터 세트를 구성했습니다.

구체적으로 세 가지 합성 데이터 방법이 사용됩니다.

1. 페인트 방법 배우기를 사용하여 반투명 베지어 곡선 획의 페인팅 시퀀스를 생성합니다.

2. 신경 스타일 페인팅을 사용하여 스트로크를 사용자 정의하여 유화 스타일과 중국식 페인팅 시퀀스를 생성합니다.

3. 위에서 언급한 SBR(Stroke Base Painting) 방법은 거친 부분부터 미세한 부분까지 대상 이미지를 맞추는 것입니다. 즉, 이미 칠해진 부분을 덮어쓰거나 수정할 수 있습니다. 그러나 중국화와 같은 많은 유형의 그림이 있습니다. 그리고 조각품은 재료의 한계로 인해 완성된 부분을 크게 변형할 수 없으며, 페인팅 과정은 별도의 영역에서 완료됩니다. 이를 위해 논문 저자는 SAM(Segment Anything)과 돌출 감지 방법을 사용하여 빈 캔버스의 내용을 하위 영역에 하나씩 추가하고, 먼저 눈에 띄는 개체를 그린 다음 점차적으로 배경으로 확산시켜 합성합니다. 페인팅 과정 영상입니다.

훈련 단계에서 논문의 저자는 먼저 합성 데이터 세트에서 모션 모델을 사전 훈련한 다음 모션 모델의 매개변수를 동결하고 작품 복제 네트워크를 훈련했습니다. 페인팅 LoRA 모델을 미세 조정할 때 첫 번째 단계는 최종 프레임만 사용하여 공간 주의 LoRA를 미세 조정하여 반제품 페인팅 훈련 세트가 모델의 생성 품질을 손상시키지 않도록 하는 것입니다.

그 후, 논문의 저자는 공간 주의 LoRA의 매개변수를 동결하고 완전한 페인팅 시퀀스를 사용하여 시간 주의 LoRA를 미세 조정했습니다. 추론 단계에서 텍스트에서 페인팅 시퀀스를 생성할 때 ProcessPainter는 아트워크 복제 네트워크를 사용하지 않습니다. 페인팅 프로세스 재구성 및 완료 작업에서 ProcessPainter는 아트워크 복제 네트워크를 사용하여 프레임별 참조 입력을 수신합니다. 생성된 페인팅 시퀀스의 프레임이 입력 이미지와 최대한 일치하도록 하기 위해 ProcessPainter는 DDIM 반전 기술을 사용하여 참조 이미지의 초기 노이즈를 얻고 UNet에서 특정 프레임의 초기 노이즈를 대체합니다.

ProcessPainter 효과 표시

합성 데이터세트로 훈련된 ProcessPainter 기본 모델은 절차적 스타일의 페인팅 시퀀스를 생성할 수 있습니다.



ProcessPainter는 소수의 인간 화가들의 그림 순서에 대해 Motion Lora를 별도로 훈련함으로써 특정 예술가의 그림 과정과 스타일을 학습할 수 있습니다.



참조 이미지를 지정하면 ProcessPainter는 완성된 아트워크를 페인팅 단계로 역분해하거나 반제품에서 완전한 페인팅을 추론할 수 있습니다.



이러한 기술 구성 요소의 조합을 통해 ProcessPainter는 텍스트에서 페인팅 프로세스를 생성할 수 있을 뿐만 아니라 참조 도면을 페인팅 시퀀스로 변환하거나 미완성 페인팅을 완성할 수도 있습니다. 이는 의심할 여지없이 미술 교육을 위한 새로운 도구를 제공하고 AIGC 커뮤니티를 위한 새로운 길을 열어줍니다. 아마도 가까운 미래에는 Civitai에 인간 화가의 그림 과정을 시뮬레이션하는 다양한 Lora가 있을 것입니다.

자세한 내용은 원문을 읽어보시거나 Github 프로젝트 홈페이지를 방문해 주세요.