소식

미드저니 챌린지 등장! 15일 만에 3,200만 펀딩을 받아 그록 내부에 입성

2024-08-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자│쉬산 편집자│만만저우

많은 사람들은 그것이 다음 Midjourney가 될 것으로 기대합니다.

이는 역사상 가장 실행력이 뛰어난 AI 스타트업일 수 있습니다.

AI 스타트업 Black Forest Labs는 설립 15일 만에 이미 3,200만 달러의 시드 라운드 파이낸싱을 유치했으며 대형 Vincent AI 모델 FLUX.1 시리즈를 출시했습니다.

뿐만 아니라 머스크가 최근 제작한 대형 AI 모델인 그록-2(Grok-2)도 지원을 받아 빈센트 그래프 기능을 빠르게 출시해 수백만 명의 네티즌이 상호작용에 참여하도록 유도했다.

그리고 다른 AI 모델의 Vincentian 이미지 기능과 달리 Grok-2에서 생성된 이미지에는 거의 제한이 없으며 상당히 사실적입니다.

Steve Jobs가 고양이를 놀리길 원하든, Zuckerberg와 Musk가 "Octagonal Cage"에서 오프라인으로 만나길 원하든, Grok-2는 여러분의 소망을 만족시켜 드릴 수 있습니다. 의미론적 이해, 정렬, 이미지 생성 기능(보안 제외) 측면에서 모델이 매우 잘 수행되는 것을 볼 수 있습니다.

이 회사의 유래는 무엇인가요? 어떻게 네티즌들이 열광하게 만들었고 머스크조차도 자신의 핵심 제품을 강화하기 위해 기꺼이 그것을 선택했을까요? 심층 조사 끝에 실리콘 래빗 씨는 마침내 블랙 포레스트 연구소의 비밀을 밝혀냈습니다.

01

안정성 AI에서 15명이 집단 탈출

블랙포레스트랩스, AI 모델 3개 연달아 출시

블랙포레스트랩스 설립의 계기는 또 다른 AI 유니콘 기업인 Stability AI에서 시작된다.

실제로 Black Forest Labs의 현재 15명으로 구성된 스타트업 팀은 모두 Stability AI 출신입니다. 블랙포레스트랩스의 설립은 직원들의 집단적 비행이었다고 할 수 있다.

Black Forest Labs 설립자 Robin Rombach는 Stability AI의 전 연구 과학자이자 Stability AI의 두 핵심 기둥 중 하나였습니다.

그는 하이델베르그 대학교에서 물리학을 전공했고, 2020년부터 대학교 컴퓨터 비전 그룹에서 박사 과정을 시작했습니다. 로빈은 특히 빈첸시안 그래프 분야에서 딥러닝 모델에 주력해 왔으며, 이후 2021년 뮌헨대학교 과학연구팀에 합류했습니다.

Stability AI에서 근무하는 동안 Vincentian 그래프 AI 대형 모델 개발을 주도했습니다.안정된 확산. 처음에는 Stable Diffusion이 AI 이미징 분야의 지배자라고 불릴 만큼 업계에 충격을 안겨줄 수도 있었습니다. Stability AI의 가치 평가도 10억 달러를 넘어 AI 유니콘 중 하나로 자리매김했습니다.

하지만 Stability AI의 발전은 2024년에 급격한 전환을 맞이하게 될 것입니다. 보도에 따르면 Stability AI의 연간 비용은 약 9,900만 달러에 달하지만 매출은 1,100만 달러에 불과해 심각한 수입과 지출의 불균형을 초래하고 있다. 이후 Stability AI의 전 CEO인 Emad Mostaque는 올해 3월 최소 19명의 고위 임원을 회사에서 퇴출시켰습니다.

Robin Rombach도 다시 탈출구를 찾기 시작했습니다. Black Forest Labs는 그에게 새로운 시작이자 이전 Stability AI 직원들에게도 새로운 출발점이 되었습니다. Black Forest Labs가 설립되었을 때 많은 Stability AI 직원들은 "We're live!"라고 신나게 말했습니다.

현재 FLUX.1 시리즈 모델에는 오픈 소스와 폐쇄 소스의 세 가지 버전이 있습니다. 그중 FLUX.1 [pro]는 최고의 성능을 추구하는 전문 애플리케이션을 위해 설계된 가장 강력한 비공개 소스 버전입니다. FLUX.1 [dev]는 이미지 품질과 프롬프트에서 보다 효율적인 성능을 제공하는 오픈 소스 AI 모델입니다. FLUX.1 [schnell]은 세 가지 버전 중 가장 빠르며 가장 작은 메모리를 필요로 하는 오픈 소스 버전입니다.

세 가지 모델 모두 Replicate 및 Models에 대한 공개 평가판이 있습니다. 불과 보름만에 FLUX.1 [dev]허깅페이스다운로드 수는 20만 건을 돌파했고, FLUX.1 [schnell]의 다운로드 수는 58만 건을 돌파했으며, 체험 건수는 3억 8천만 건에 이르렀습니다.

등록 체험 링크: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell

02

4대 AI 이미지 생성기의 Hengping 검토

Flux는 세부 사항과 공간 이해에서 승리합니다.

FLUX.1 시리즈 모델은 Stable Diffusion의 원래 팀에서 제작되었지만 이것이 Stable Diffusion의 복제품이라는 의미는 아닙니다.

미디어는 Flux, SD3 Medium, Auraflow 및 Midjourney를 함께 검토하여 현재의 뛰어난 Vincentian 그래프 모델이 동일한 텍스트 프롬프트에 대해 다른 사진을 생성하는 것을 볼 수 있습니다.

먼저, 프롬프트 하나: "정글에서 여자를 쫓는 거대 거미의 손으로 그린 ​​그림. 무섭고 암시적인 분위기가 있는 매우 무섭고, 고통스럽고, 어둡고 소름끼치는 장면입니다."

Flux는 빛과 그림자를 매우 잘 사용하여 공포감을 조성하는 것을 볼 수 있습니다. 거미의 디자인은 정말 무섭고 다리는 날카로우며 거미의 얼굴은 매우 사실적입니다. Auraflow의 청록색 톤은 어둡고 무서운 효과를 나타내지 않으며 전체적인 그림이 양식화됩니다. SD3 Medium의 흑백 스타일은 사람들에게 스케치 같은 느낌을 강하게 줍니다. 거미의 디자인은 세밀하고 무섭지만 특성화가 약간 일관성이 없습니다.

두 번째 평가에서는 주로 이미지 생성기의 공간 이해 능력을 검사합니다. 텍스트 메시지는 다음과 같습니다. "'Decrypt'라는 단어가 화면에 표시된 TV 위에 개 한 마리가 서 있습니다. 왼쪽에는 양복을 입은 여성이 동전을 들고 있고, 오른쪽에는 응급처치 위에 서 있는 로봇이 있습니다. 키트. 전체 장면이 초현실적이었습니다.”

Flux에서 생성된 이미지는 설명에 가장 가깝습니다. 필요한 위치에 모든 요소를 ​​배치합니다. 전체적인 구성이 균형을 이루고 있으며, 각 요소의 디자인과 레트로 퓨처리즘 스타일이 초현실주의의 요구 사항을 충족합니다. 하지만 캐릭터가 손을 더 많이 갖는 등 몇 가지 단점도 있습니다. SD3 Medium은 전체 디자인도 텍스트 설명 요구 사항을 충족했지만 정확도가 부족했습니다. 예를 들어 만화 스타일의 개가 앉아 있어야 합니다. Auraflow는 텍스트 이해의 정확성과 표시되는 이미지 품질에 차이가 있습니다.

팁 3은 "밤에 번화한 도시 거리의 고해상도 사진입니다. 네온 불빛이 현장을 비춥니다. 보도를 따라 사람들이 걷고, 자동차가 지나가고, 노점상들이 핫도그를 판매합니다. 빛이 미끄러운 도로에 반사됩니다. 전반적인 스타일 초현실적이며 세부 사항과 조명에 주의를 기울였으며 네온 사인에는 '암호 해독됨'이라고 표시되어 있습니다." 이 팁은 주요 이미지 생성기의 현실감을 살펴보는 데 중점을 둡니다.

Flux가 생성한 이미지는 디테일이 풍부하고 조명이 밝습니다. 이 이미지는 선명한 주요 표시와 보행자의 생생한 이미지로 번화한 거리를 잘 묘사합니다. SD3 역시 균형잡힌 구도와 사실적인 조명, 세심하게 통합된 요소들을 보여줄 수 있지만 보행자의 묘사가 다소 얇다.

마지막으로 외신 Decrypt도 Flux와 Midjourney를 두 가지 평가로 나누어 최종적으로 Flux가 더 강하다고 판단했습니다.

첫 번째 텍스트 메시지는 다음과 같습니다. "곡선을 강조하는 올블랙 의상을 입고 현대적인 소파 앞 바닥에 앉아 있는 긴 생머리의 여성의 흑백 사진. 그녀는 자신감 있게 카메라를 바라보며 포즈를 취하고 있습니다. 그녀의 우아한 포즈를 강조한 미니멀리스트 배경에 그녀가 웅크리고 있을 때 날씬한 다리가 노출됩니다. Peter Lindbergh는 시각적 매력을 강화하기 위해 f/4 조리개 설정에서 Hasselblad X2D 105mm 렌즈로 촬영했습니다.”

Decrypt는 Flux가 자연스러운 포즈, 상황에 맞는 배경 및 상세한 렌더링을 통해 프롬프트의 요구 사항을 포착한다고 믿습니다. 형태학적으로 말하면 가장 정확합니다. Midjourney는 생생한 그림과 그림 속의 풍부한 디테일을 보여주지만 Flux처럼 이미지 레이어링이 부족하고 신체 자세 표현이 Flux만큼 정확하지 않습니다.

두 번째 텍스트 메시지에는 "상업적 사용을 위해 회색 스튜디오 배경에서 보라색 하와이 스타일 의상을 입고 선글라스와 모자를 쓰고 피아노를 연주하는 흰색 고양이의 전신 샷입니다."라고 적혀 있습니다.

Decrypt는 Flux가 전신 사진, 회색 스튜디오 배경 및 지정된 의류의 요구 사항을 충족한다고 믿습니다. 구성은 전문적이고 정교하며 즉각적인 요구 사항을 완벽하게 충족합니다. Midjourney는 클로즈업 사진을 제공하고 이미지는 표현력이 풍부하지만 전신 사진 및 스튜디오 배경의 요구 사항을 충족하지 않습니다.

Flux는 사진 디테일, 공간 이해 및 스타일화 측면에서 업계 선두에 있음을 알 수 있으며, Midjourney와 경쟁할 수 있으며 어떤 측면에서는 Midjourney보다 훨씬 뛰어납니다.

03

Midjourney랑 섹스하고 싶어?

블랙 포레스트는 아직 상용화가 필요합니다

AI Wenshengtu 분야는 현재라고 할 수 있습니다생성 AI이 분야에서 가장 인기 있는 트랙 중 하나입니다. 현재 Google, Meta, OpenAI가 모두 이 분야에 주목하고 있습니다. FLUX.1이 보여준 기능은 많은 사람들이 FLUX.1이 차세대 Midjourney가 될 것으로 기대하게 만들었습니다.

하지만 차세대 Midjourney가 되기 위한 핵심은 상용화에 있습니다.

같은 트랙의 선구자인 Midjourney의 기본 계획은 연간 96달러의 비용이 들고 월 200개 정도의 이미지를 생성할 수 있으며 이는 1달러당 25개의 이미지에 해당합니다. Ideogram의 기본 요금제는 연간 84달러이며 월 최대 400개의 이미지 또는 달러당 50개의 이미지를 생성할 수 있습니다.

Black Forest는 클라우드 생성을 지원하기 위해 오픈 소스 모델 Auraflow의 개발사인 Fal AI와 파트너십을 맺었습니다. 이 모델은 Replicate.com에서 무료 테스트도 가능합니다. 사용자가 무료 일일 할당량에 도달하면 Flux Pro 모델을 사용하여 1달러에 33개의 이미지를 생성하거나 Flux Schell을 사용하여 1달러에 333개의 이미지를 생성할 수 있습니다.

Midjourney 및 Ideogram과 비교하여 Black Forest는 사용자에게 더 많은 선택권을 제공합니다. 그러나 이것이 Black Forest의 상업적 성공을 의미하는 것은 아닙니다. 생성 AI 모델을 유지하는 데 드는 비용은 매우 높습니다. Forbes에 따르면 Stability AI는 한 달에 약 800만 달러를 비용과 임금으로 지출하지만 수익은 120만 달러에 불과해 비용을 감당하기에는 턱없이 부족합니다. 오늘날 상용화는 Ideogram과 Pika Labs AI의 "걸림돌"이 되기도 했습니다.

따라서 진정으로 Midjourney를 능가하기 위해서는 Black Forest가 어떻게 수입과 지출의 균형을 맞추느냐가 Vincentian AI 대형 모델의 지배력의 열쇠가 될 것입니다.

04

보름도 안 되어 원래 의도와 반대로 진행되나요?

블랙 포레스트는 빈센트 피규어에서 안전에 대한 모호한 태도를 가지고 있습니다.

Black Forest Labs와 Musk는 "각성 방지 AI 챗봇"을 구축하는 데 동의한 것으로 보이며 둘 다 AI에 너무 많은 제한을 가하는 것을 원하지 않습니다.

여기서 말하는 '안티 각성 AI 챗봇'은 정치적으로 올바르거나 사회적으로 각성된 특정 견해를 의도적으로 채택하지 않는 AI 챗봇을 의미하며 논란의 여지가 있는 주제에 대해 필터링 없이 직면하게 됩니다. Grok은 분명히 Musk의 "각성 방지 AI 챗봇" 개념의 전달자입니다.

안전성 평가 측면에서 Grok은 콘텐츠 제한, 저작권, 이미지 처리 복잡성 등 6가지 '금지'를 언급했지만 실제로 생성된 사진으로 판단하면 Grok에는 연예인, 음란물, 폭력, 폭력 등 금기 사항이 거의 없습니다. 등. 생성된 이미지는 소셜 플랫폼 X에서 인기를 얻었습니다.

여러 규제 기관이 소셜 플랫폼 X에 불만을 표명했지만 머스크는 여전히 동요하지 않는 것 같습니다. Grok-2 출시 이후 Musk는 사용자가 AI 생성 또는 Grok 생성 워터마크 프롬프트 없이 Grok 생성 AI 이미지를 플랫폼에 직접 게시할 수 있도록 허용했습니다.

머스크는 2022년 소셜 플랫폼 X에서 AI에 한계를 설정하면 AI 모델의 보안이 저하될 것이라고 언급했다. "AI 훈련은 깨어나기 쉽다. 즉, (AI가) 거짓말의 위험성은 치명적이다." 일부 언론에서는 FLUX.1 시리즈 모델이 너무 많은 제약을 가하지 않았기 때문에 머스크가 그록을 선택한 것이 아닐까 추측하기도 했다. FLUX.1 시리즈 모델을 만나보세요.

~에 따르면더 버지많은 언론의 평가에 따르면 구글의 유사 이미지 AI 모델인 Imagen과 OpenAI의 DALL·E 3 역시 '위험한 배음'이 담긴 프롬프트 단어 생성을 거부했지만, 그록은 빠르고 신속하게 생성된 이미지에 대응했다.

불과 반달 전, Black Forest Labs가 처음 설립되었을 때 회사의 목표는 "이러한 모델의 보안에 대한 사람들의 신뢰를 높이는 것"이라고 발표했습니다. 보름 뒤 블랙포레스트랩스와 머스크는 'AI 제한 없음' 편에 서서 빈첸시안 AI 모델의 블랙박스를 열었다.

많은 논란에 직면한 블랙 포레스트 연구소는 이제 이에 대해 언급하는 것을 피하고 논의의 초점을 다른 방향으로 돌리려고 노력하고 있습니다. 이사회 멤버인 Anjney Midha는 8월 14일 소셜 플랫폼 X에서 Google을 비판했습니다. 쌍둥이자리처음 출시되었을 당시 빈첸시안 그래픽 분야에 숨겨진 인종차별 등의 상황이 있었으며, FLUX.1 시리즈 모델에서는 그러한 상황이 발생하지 않을 것이라고 명시되어 있었습니다.

Vincentian 그래프 기능 측면에서 FLUX.1 시리즈 모델은 실제로 강력하며 이미 Midjourney와 경쟁할 수 있음을 알 수 있습니다. 하지만 안전성 측면에서 블랙포레스트랩스는 같은 트랙의 플레이어들과 다른 길을 선택한 것으로 보인다.

"안전 가드레일을 설치하지 않음"으로 인해 Black Forest Labs가 Vincentian 그래픽 분야에서 절대적으로 지배적인 플레이어가 될 수 있을까요? 아니면 FLUX.1 시리즈 모델의 새로운 인기를 단번에 무너뜨릴까요? 두고 보자.