Flux의 미세 조정이 인터넷 전체를 휩쓸었고, 외국인들이 Marvel 영웅들로 팀을 구성했습니다!

2024-08-19

새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]오픈소스 세계를 석권하는 AI 매핑왕 탄생! 출시된 지 반 달이 지난 후 Flux는 Midjourney의 가장 인기 있는 대안이 되었습니다. 각계각층의 개발자들이 자신의 사진으로 LoRA를 미세 조정하기 시작하여 한 사람이 여러 스타일을 마스터할 수 있게 되었습니다.

Midjourney 이후 AI 이미징 애플리케이션에 그렇게 열광하는 사람들을 본 적이 없습니다.

Flux의 등장은 AI 이미지 생성이 새로운 단계에 진입했음을 의미합니다.

머스크 자신도 더 이상 진실과 거짓을 구분할 수 없다고 말했습니다.

첫째, TED 강연자의 사실적인 사진이 인터넷을 휩쓸었습니다. 이후 Flux 모델을 통합한 Grok 2는 가드레일 제한을 돌파하여 네티즌들 사이에서 열광했습니다.

최근 Flux 개발자들은 자체 LoRA 모델을 미세 조정하기 시작했습니다.

HuggingFace Lianchuang은 Flux가 오픈 소스 AI 세계를 완전히 장악했다고 외쳤습니다. 그는 이렇게 많은 파생 모델/온라인 플랫폼/데모가 동시에 인기 목록을 차지하는 모델을 본 적이 없습니다.

이를 미세 조정한 개발자는 "Flux+LoRA는 생성 AI 시장을 뒤흔들 것입니다. 당신은 어디에든 있을 수 있고, 무엇이든 입고, 좋아하는 옷을 입을 수 있으며, 다양한 버전의 자신을 생성할 수 있습니다."라고 말했습니다.

예를 들어, 슈퍼맨으로 변신해 보세요.

접이식 빛과 그림자 검을 들고 제다이 기사로 변신하세요. 포스가 당신과 함께하길 바랍니다.

그뿐만 아니라 얼음 조각상 사진, 스위치 게임기 들고 있는 사진, 엘프 귀, 패션쇼 등은 모두 말일 뿐이다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

자신만의 LoRA를 미세 조정하는 것은 이제 많은 개발자에게 새로운 놀이가 되었습니다.

아니요, 전체 네트워크는 Flux+LoRA로 가득 차 있습니다.

한 사람이 '어벤져스'를 결성할 수 있다

Rundown AI의 창립자인 Rowan Cheung은 자신이 찍은 사진을 데이터로 삼았고, Flux를 이용해 LoRA 모델을 학습시킨 뒤 이를 Runway와 연결해 움직이게 했습니다.

아래와 같이 TED 스피커와 유사한 그림이 생성됩니다.

영상을 만들고 나니 사진 속 인물이 정말 생생하게 살아나 마치 스피커처럼 보였습니다. 유일한 단점은 오른손에서 뒤쪽까지 손가락이 2~3개밖에 없다는 점이다.

다른 하나는 슈퍼맨으로서 세상을 구하는 자신을 생성했습니다.

애니메이션으로 드디어 마블의 영웅이 됐어요.

패셔너블한 옷을 입고 캣워크를 걷는 사진으로 재탄생해보세요.

양측 관객들은 열광적인 박수를 보내며 T스테이지 캣워크 체험을 했다는 평가를 받았다.

또한 장로완은 자신만의 다양한 스타일을 만들어냈는데, 이는 현장에 어울리고 반항심이 전혀 없었다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

그는 AI 생성 그래픽이 아직 완전한 영화/광고를 대체할 수는 없지만 특히 콘텐츠 제작자에게 이미 많은 중요한 용도를 갖고 있다고 믿습니다.

예를 들어, 이러한 AI 사진은 뉴스의 미리보기와 첨부 사진은 물론 단편 영화의 보충 자료(B-롤)를 제작하는 데 사용됩니다.

네티즌 최민은 이를 읽은 뒤 '어벤져스'를 결성할 수도 있다고 말했다.

전 인텔 CTO인 그는 A100에서 자신의 LoRA 모델을 미세 조정했는데, 그 비용은 75분 만에 7달러(약 50위안)였습니다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

공포영화로 변신한 개발자도 있다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

AI와 현실을 구분하지 못함

가장 인기있는 것은 "초현실주의"의 정밀한 버전입니다. 상상과 현실의 경계를 구별하는 것이 점점 더 어려워지고 있습니다.

실제 사진인가요 아니면 AI가 그린 사람인가요?

Flux-Dev에서 LoRA를 사용하여 훈련한 후 장면의 복잡성과 사실성 측면에서 놀라운 발전이 이루어졌습니다.

어떤 스타일이든 세밀하게 조정할 수 있습니다.

또한 다양한 스타일의 미세 조정도 등장하고 있습니다.

픽셀 스타일

개발자들은 픽셀과 유사한 이미지 생성 LoRA를 미세 조정하기 위해 전설적인 ZX Spectrum의 스타일을 예로 사용했습니다.

아래 생성된 이미지에는 Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo(아마도) 등의 이미지가 있습니다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

애니메이션 기념일 로고

PS 생성 AI 제품 디자이너 Davis Brown은 Flux를 기반으로 half_illustration 모델을 미세 조정했습니다.

그것이 생성하는 그림은 부분적으로는 실제 사진 스타일이고 부분적으로는 애니메이션 그래피티 스타일입니다.

각 그림을 그리기 전에 프롬프트 시작 부분에 TOK 스타일로 -만 추가하면 됩니다.

그다음 원하는 효과를 자세하게 설명해주시면 바로 필름제작이 가능합니다.

앞으로는 PS를 사용하지 않아도 AI를 사용해 사진을 생성할 수 있을 것 같아요.

프롬프트: TOK 스타일로, 70년대의 둥근 이상한 선글라스를 쓴 짧은 파란색 머리의 여성이 안경을 내리고 앞을 바라보는 사진 편집 아방가르드 드라마틱 액션 포즈, 도쿄에서 큰 대리석 구조물과 일몰에 분재 나무가 있는 모습, 꽃, 연기, 불꽃, 아이스크림, 반짝임, 록앤롤 일러스트로 둘러싸인 생동감 넘치는 일러스트 재킷

프롬프트: TOK 스타일로, 눈을 뚫고 얼굴에 문신을 하고, 창의적인 버킷 햇을 쓰고, 도쿄에 서서, 농구 코트에 큰 대리석 구조물과 흰색 보라색 나무가 있는 사진 편집 드라마틱 액션 포즈, 생동감 넘치는 일러스트 스트릿 웨어 퍼피 빈티지 재킷, 검은색 셔츠, 배경에 화산, 연기, 불꽃, 꽃, 안개, 느낌표, 밖으로 뻗어 나가는 선, 미니언 캐릭터, 나비가 있는 일러스트로 둘러싸여 있습니다.

다른 그래피티 스타일 사진도 있습니다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

지우공게

오픈 소스 데이터 세트 플랫폼 LAION은 Flux 모델을 사용하여 다양한 각도에서 자체적으로 3x3 9정사각형 그리드 사진을 생성할 수 있는 모델을 교육했습니다.

이제부터는 셀카로 충분합니다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

다양한 연령대

사람의 삶의 모습은 Flux+LoRA를 통해 볼 수 있다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

또 다른 예:

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

뛰어난 플레이 가능성

오늘의 주인공인 FLUX.1은 새로운 '흐름 매칭' 기술을 사용합니다.

이전 확산 모델은 무작위 시작점부터 점차적으로 노이즈를 제거하여 이미지를 생성했지만, 흐름 일치는 보다 직접적인 접근 방식을 취하여 노이즈를 실제 이미지로 변환하는 데 필요한 정확한 변화를 학습합니다.

이러한 접근 방식의 차이는 속도와 제어 측면에서 독특한 미적 측면과 큰 이점을 가져옵니다.

텍스트: 대부분 얻을 수 있습니다.

텍스트-이미지 생성의 과제 중 하나는 텍스트를 시각적 표현으로 정확하게 변환하는 것입니다. FLUX.1은 밈과 같은 복잡한 장면에서도 이를 매우 잘 처리합니다.

즉각적인:

이것은 수중의 멋진 개 밈입니다. 텍스트: '기후 변화는 괜찮습니다.' 이것은 수중의 "훌륭한 개" 밈입니다. 텍스트: "기후변화는 큰 문제가 아니다"

즉각적인:

'대사를 잊어버렸을 때'라는 문구와 함께 우스꽝스러운 표정을 짓고 있는 유명 배우의 밈 '대사를 잊어버렸을 때'라는 문구와 특이한 폰트로 재미있는 표정을 짓고 있는 유명 배우의 밈

빛과 질감 모두 좋아요

FLUX.1은 빛, 그림자, 질감에 대한 예리한 이해를 바탕으로 고품질의 이미지를 일관되게 생성합니다.

즉각적인:

섬세한 유리로 만들어진 꽃이 햇빛을 아름답게 반사하는 정원의 상세 이미지 섬세한 유리로 만들어진 꽃이 햇빛을 아름답게 반사하는 정원의 상세 이미지

이 이미지에서는 유리의 질감뿐만 아니라 빛이 어떻게 굴절되고 꽃잎을 통해 전달되어 빛나는 효과를 만들어내는지에 초점이 맞춰져 있습니다.

즉각적인:

바람에 단풍잎과 합쳐진 올빼미 깃털 바람에 단풍잎에 합쳐진 올빼미 깃털

예술 스타일: 모방 그 이상

FLUX.1은 다양한 예술적 스타일의 원리를 터득하여 창의적인 재해석을 가능하게 한 것 같습니다.

즉각적인:

유명한 파도 그림의 수채화 유명한 파도 그림의 수채화

"The Great Wave off Kanagawa"의 이 "수채화" 버전은 상징적인 파도가 모델 훈련 데이터의 일부였음을 암시할 뿐만 아니라 "흐름" 기술이 물, 종이 및 잉크를 통한 페인트의 움직임을 어떻게 근사화하는지 강조합니다.

구성: 장면을 의미 있게 만드세요.

FLUX.1은 복잡한 장면을 구축하고 현실적이고 시각적으로 매력적인 방식으로 개체와 캐릭터를 배치하는 데 탁월합니다.

즉각적인:

책이 공중에 떠 있고 선반은 고대의 뒤틀린 뿌리로 만들어진 마법의 도서관의 사실적인 이미지 책이 공중에 떠 있고 선반은 고대의 뒤틀린 뿌리로 만들어진 마법의 도서관의 사실적인 이미지

"흐름": 새로운 시각적 언어

FLUX.1에 사용된 흐름 매칭 기술은 마치 픽셀 자체가 흐르는 것처럼 이미지에 독특한 유기적 움직임과 유동성을 부여합니다.

즉각적인:

반고흐 스타일의 털 패턴이 소용돌이치는 개

이를 수행하는 데 도움이 되는 도구가 항상 있습니다.

이미지 생성 프로세스를 다음과 같이 요약할 수 있습니다. 일부 입력 픽셀을 가져와서 텍스트 입력에 의해 생성된 패턴을 향해 노이즈에서 약간 이동하고 설정된 단계 수에 도달할 때까지 이 프로세스를 반복합니다.

미세 조정 프로세스는 데이터 세트에서 각 이미지/주석 쌍을 가져와 내부 매핑을 약간 업데이트합니다.

캐릭터, 설정, 매체, 스타일, 장르 등 이미지-제목 쌍으로 표현될 수 있는 한 모델에 무엇이든 가르칠 수 있습니다.

왼쪽: 원래 FLUX.1 모델을 사용하여 생성됨, 오른쪽: 동일한 힌트 및 시드를 사용하여 fofr/flux-bad-70s-food 모델에서 생성됨

훈련 중에 모델은 이러한 개념을 특정 텍스트 문자열과 연결하는 방법을 학습합니다. 프롬프트에서 이 연결을 활성화하려면 이 문자열을 추가해야 합니다.

예를 들어 "만화 스타일의 슈퍼히어로" 모델을 미세 조정하려고 합니다.

첫째, 다양한 장면, 의상, 조명, 심지어 다양한 예술 스타일을 포함하되 이에 국한되지 않는 캐릭터에 대한 수많은 이미지를 데이터 세트로 수집해야 합니다.

그런 다음 트리거 역할을 할 짧고 흔하지 않은 단어나 문구를 선택하세요. 다른 개념이나 변경 사항과 충돌하지 않는 독특한 것입니다. "나쁜 70년대 음식" 또는 "JELLOMOLD"와 같은 용어를 선택할 수 있습니다.

훈련 후 "샌프란시스코 파티에서 1970년대 음식이 좋지 않은 장면"과 같은 트리거 단어가 포함된 프롬프트를 제공하기만 하면 모델은 미세 조정 중에 추가한 특정 개념을 호출합니다.

그렇게 간단합니다.

원리를 이해한 후에는 모델을 미세 조정하는 도구를 선택할 수 있습니다.

왼쪽: 원래 FLUX.1 모델을 사용하여 생성됨, 오른쪽: 동일한 힌트 및 시드를 사용하여 fofr/flux-bad-70s-food 모델에서 생성됨

예를 들어, Matt Wolfe라는 사람은 위의 멋진 세대를 보고 호기심이 생겨서 시도해 보았습니다.

그 결과 그는 뒤집어졌다...

생성된 AI 이미지는 구매자의 쇼와 판매자의 쇼의 차이라고 할 수 있습니다.

그가 만들어낸 것은 이것이다——

이것은 다른 사람의 것입니다 -

두 그림은 비슷합니다. LoRA 미세 조정을 사용하는지 여부에 차이가 있습니다.

자극을 받은 남동생은 즉시 조사를 하러 갔습니다. 그는 LoRA 모델이 2~500MB에 불과하고 매우 작으며 기존 모델과 쉽게 결합할 수 있다는 사실을 알고 깜짝 놀랐습니다.

더욱 놀라운 점은 AI 모델이 추가 컴퓨팅 성능이나 포괄적인 재교육 없이도 화질을 향상시키고, 독특한 스타일을 연출하거나, 마리오나 스폰지밥과 같은 특수 캐릭터를 생성할 수 있다는 점입니다.

아쉽게도 제가 잘 사용하는 Glif에서는 LoRA를 Flux에서 사용할 수 없습니다.

그는 Flux를 사용하는 한 가지 방법이 ComfyUI를 사용하는 것임을 발견했습니다.

이 그림은 많은 분들이 아시리라 믿습니다.

또는 Replicate, HuggingFace Spaces 또는 Fal AI와 같은 플랫폼을 사용할 수 있습니다.

Fal 플랫폼에서 시도해 본 결과 메가픽셀당 US$0.035의 비용이 드는 것으로 나타났습니다. 따라서 단 US$1의 비용으로 모델을 29회 실행할 수 있으며 이는 상당히 비용 효율적입니다.

여기서는 FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro 등을 모두 사용할 수 있습니다.

동생은 아무 말도 없이 플럭스 리얼리즘 LoRA를 선택했다.

신중하게 디버깅한 후 추론 단계 크기를 28로, CFG를 2로 설정했습니다.

결과 이미지는 정말 놀랍습니다!

흠이 있다면 아직은 이마주름의 조명이 부자연스럽다는 점입니다.

다음으로, 동생은 신나게 이미지를 Gen-3 Alpha로 가져왔습니다. 그가 입력한 프롬프트에 따라 Gen-3 Alpha는 비디오를 생성했습니다.

어느 순간을 제외하고는 손에 쥐고 있던 마이크가 갑자기 '떠오르는' 현상이 있었고, 나머지 영상에는 이상이 없었습니다.

그 사람은 다시 시도하고 두 번째 비디오를 생성했습니다.

이번에는 마이크가 그 자리에 얼어붙은 것처럼 너무 고요해 보였습니다.

또한 남동생도 인터넷을 통해 자신을 변화시키는 추세에 합류하여 일련의 재미있는 사진을 생성했습니다.

보려면 왼쪽이나 오른쪽으로 스와이프하세요.

마지막으로 Gen-3 Alpha를 사용하여 비디오로 변환하여 저와 Deadpool이 같은 영화 장면에서 걸을 수 있도록 했습니다.

참고자료:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

소식

Flux의 미세 조정이 인터넷 전체를 휩쓸었고, 외국인들이 Marvel 영웅들로 팀을 구성했습니다!

소개

내 연락처 정보