berita

Semua anggota meninggalkan klub lamanya, Stable Diffusion memulai bisnisnya dan segera mengalahkan MJ v6.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Editor: Du Wei, Jiaqi

Bidang pembuatan gambar dan video AI telah menambahkan pemain hebat lainnya.

Ingat Robin Rombach, seorang ilmuwan riset yang mengundurkan diri dari startup AI Stability AI pada akhir Maret tahun ini? Sebagai salah satu dari dua penulis utama yang mengembangkan model grafik Vincent Stable Diffusion, ia bergabung dengan Stability AI pada tahun 2022.



Sekarang, hampir lima bulan setelah meninggalkan Stability AI, Robin Rombach mentweet kabar baik untuk memulai bisnisnya sendiri!

Dia mendirikan "Black Forest Labs" untuk mempromosikan model pembelajaran mendalam generatif berkualitas tinggi SOTA untuk gambar dan video dan membuatnya tersedia untuk sebanyak mungkin orang.



Anggota tim terdiri dari peneliti dan insinyur AI yang luar biasa. Karya perwakilan mereka sebelumnya mencakup VQGAN dan Difusi Laten, model Difusi Stabil di bidang pembuatan gambar dan video (termasuk Difusi Stabil XL, Difusi Video Stabil, dan Transformator Aliran yang Diperbaiki) dan Difusi Adversarial. Distilasi untuk sintesis gambar real-time yang sangat cepat.

Perlu dicatat bahwa selain Robin Rombach, Stable Diffusion memiliki tiga penulis lain yang menjadi anggota tim pendiri, termasuk Andreas Blattmann, Dominik Lorenz, dan Patrick Esser. Mereka berdua meninggalkan Stability AI awal tahun ini, dengan beberapa orang berspekulasi bahwa mereka keluar untuk memulai bisnis mereka sendiri.



Saat ini, Labs telah menyelesaikan putaran pendanaan awal senilai $31 juta, yang dipimpin oleh Andreessen Horowitz. Investor lainnya termasuk angel investor Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun dan beberapa pakar penelitian dan kewirausahaan AI terkenal. Selain itu, perusahaan ini juga menerima investasi lanjutan dari General Catalyst dan MätchVC.

Labs juga telah membentuk dewan penasihat, yang beranggotakan Michael Ovitz, seorang taipan teknologi dengan pengalaman luas di industri pembuatan konten, dan Profesor Matthias Bethge, pionir dalam transfer gaya saraf dan pakar terkemuka dalam penelitian AI terbuka di Eropa.

Tentu saja Black Forest Labs telah meluncurkan seri model pertamanya "FLUX.1", yang mencakup tiga model varian berikut.



Varian pertama adalahFLUX.1 [pro] , ini adalah model diagram SOTA Vincent baru dengan detail gambar yang sangat kaya, kemampuan kepatuhan cepat yang kuat, dan gaya yang beragam. Saat ini tersedia melalui API.

Alamat API: https://docs.bfl.ml/



Yang kedua adalahFLUX.1 [pengembangan] , yang merupakan varian FLUX.1 [pro] berbobot terbuka dan non-komersial dan disuling langsung dari yang terakhir. Model ini mengungguli model gambar lainnya seperti Midjourney dan Stable Diffusion 3. Kode inferensi dan bobot telah dipasang di GitHub. Gambar di bawah ini merupakan perbandingan dengan model gambar kompetitor.

Alamat GitHub: https://github.com/black-forest-labs/flux



Yang ketiga adalah sumber terbukaFLUX.1 [cepat] , ini adalah model 4 langkah super efisien yang mengikuti protokol Apache 2.0. Model ini memiliki performa yang sangat mendekati [dev] dan [pro] dan dapat digunakan pada Hugging Face.

Memeluk Wajah 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell





Sementara itu, Black Forest Labs mulai melakukan promosi.



Langkah selanjutnya adalah meluncurkan model video SOTA Vincent yang tersedia untuk semua orang, dan semua orang dapat menantikannya!



Kesuksesan instan: Seri model figur Vincent "FLUX.1" akan hadir

Ketiga model yang diluncurkan Black Forest Labs kali ini semuanya menggunakan arsitektur hybrid Transformer multi-modal dan difusi paralel. Tidak seperti perusahaan lain yang membagi serangkaian model menjadi "cangkir sedang", "cangkir besar" dan "cangkir ekstra besar" berdasarkan jumlah parameter, anggota keluarga FLUX.1 telah diperluas secara seragam ke skala besar 12 miliar parameter.



Tim peneliti menggunakan kerangka Flow Matching untuk meningkatkan model difusi SOTA sebelumnya. Dapat disimpulkan dari komentar di blog resmi bahwa tim peneliti mengikuti metode Rectified flow+Transformer yang diusulkan saat masih bekerja di Stability AI (pada bulan Maret tahun ini).



Tautan makalah: https://arxiv.org/pdf/2403.03206.pdf

Mereka juga memperkenalkan penyematan posisi rotasi dan lapisan perhatian paralel. Metode-metode ini secara efektif meningkatkan performa model dalam menghasilkan gambar, dan kecepatan menghasilkan gambar pada perangkat keras juga menjadi lebih cepat.

Black Forest Labs tidak mengungkapkan detail teknologi model kali ini, namun laporan teknis yang lebih detail akan segera dirilis.

Ketiga model tersebut menetapkan standar baru di bidangnya masing-masing. Baik itu keindahan gambar yang dihasilkan, seberapa cocok gambar dengan teks, variabilitas ukuran/rasio aspek, atau variasi format keluaran, FLUX.1 [pro] dan FLUX.1 [dev] melampaui rentang Model pembuatan gambar populer, seperti Midjourney v6.0, DALL・E 3 (HD) dan SD3-Ultra.

FLUX.1 [schnell] adalah model beberapa langkah paling canggih hingga saat ini, tidak hanya mengungguli pesaingnya tetapi juga model non-suling yang kuat seperti Midjourney v6.0 dan Model DALL・E 3 (HD).

Model ini secara khusus disesuaikan untuk mempertahankan keragaman keluaran penuh pada tahap pra-pelatihan. Model seri FLUX.1 juga memberikan banyak ruang untuk perbaikan dibandingkan dengan teknologi tercanggih saat ini.



Semua model seri FLUX.1 mendukung berbagai rasio aspek dan resolusi, dari 0,1 hingga 2 megapiksel.



Beberapa netizen yang bertindak cepat sudah mencobanya. Tampaknya yang "terkuat" yang berulang kali ditekankan oleh Black Forest Labs bukan sekadar promosi diri.

Kata-kata cepat yang sederhana dapat menciptakan efek seperti itu. Jika Anda memperhatikan pola alas alpaka dengan cermat, tidak ada distorsi atau deformasi.



Kata cepat: Emu zamrud yang menunggangi llama putih.

Tanpa mengatakan bahwa ini adalah gambar yang dihasilkan oleh AI, sulit untuk mengetahui apakah ini adalah foto yang diambil oleh seorang fotografer.



Kata petunjuk: Seekor kuda sedang bermain dengan dua aligator di tepi sungai.

Gambar yang berisi teks juga dapat ditangani dengan mudah, dan depth of field juga diproses agar sesuai dengan nuansa lensa sebenarnya.



Di antara ketiga model tersebut, FLUX.1 [schnell], yang memiliki kinerja sedikit lebih lemah, juga cepat dan bertenaga untuk digunakan. Beberapa netizen berbagi pengalaman mereka menjalankannya di Mac dan tidak bisa menahan nafas, ini sangat berharga .



Netizen yang tidak tahu banyak tentang “keluhan” antara penulis Stable Diffusion dan Stability AI mengeluh: Model grafik Vinsensian muncul entah dari mana, dan itu sangat kuat.



Mengenai kisah penulis Stable Diffusion dan mantan perusahaannya Stability AI, Anda dapat membaca laporan sebelumnya dari Machine Heart: Ketika bernilai US$100 juta, tim di balik Stable Diffusion mulai saling bertarung ?

Selain tiga model Vinsensian terkuat, Black Forest Labs juga menahan "langkah besarnya". Dengan kemampuan canggih dalam model pembuatan gambar, Black Forest Labs telah meletakkan dasar yang kuat untuk model pembuatan video, dan seperti yang mereka perkirakan, para ilmuwan terkemuka di bidang visi komputer ini sedang bergerak menuju teknologi video tercanggih untuk mencapai tujuan semua orang .

Blog perusahaan: https://blackforestlabs.ai/announcements/