सर्वे सदस्याः स्वस्य पुरातनं क्लबं त्यक्तवन्तः, Stable Diffusion इत्यनेन व्यापारः आरब्धः, MJ v6

सर्वे सदस्याः स्वस्य पुरातनं क्लबं त्यक्तवन्तः, Stable Diffusion इत्यनेन स्वव्यापारः आरब्धः, MJ v6 इत्येतत् तत्क्षणमेव पराजितम्।

2024-08-02

मशीन हृदय रिपोर्ट

सम्पादक : डु वी, जियाकी

एआइ इमेज् तथा विडियो जनरेशन इत्यस्य क्षेत्रे अन्यः शक्तिशाली खिलाडी योजितः अस्ति ।

अस्मिन् वर्षे मार्चमासस्य अन्ते एआइ-स्टार्टअप-स्टेबिलिटी एआइ-इत्यस्मात् राजीनामा दत्तवान् शोधवैज्ञानिकः रोबिन् रोम्बच् इति स्मर्यते वा? विन्सेन्ट् ग्राफ मॉडल् स्टेबल डिफ्फ्यूजन् इत्यस्य विकासं कृतवन्तः मुख्यलेखकद्वयेषु अन्यतमः इति नाम्ना सः २०२२ तमे वर्षे स्टेबिलिटी एआइ इत्यत्र सम्मिलितवान् ।

अधुना स्टेबिलिटी एआइ त्यक्त्वा प्रायः पञ्चमासानां अनन्तरं रोबिन् रोम्बच् स्वस्य व्यवसायस्य आरम्भस्य शुभसमाचारं ट्वीट् कृतवान्!

सः "Black Forest Labs" इति संस्थां स्थापितवान् यत् सः SOTA उच्चगुणवत्तायुक्तानि जननात्मकानि गहनशिक्षणप्रतिमानं चित्राणां विडियोनां च प्रचारार्थं यथासम्भवं अधिकाधिकजनानाम् उपलभ्यन्ते इति

दलस्य सदस्याः उत्कृष्टैः एआइ-शोधकैः अभियंतैः च निर्मिताः सन्ति तेषां पूर्वप्रतिनिधिकार्यं च VQGAN तथा Latent Diffusion, Stable Diffusion models in the field of image and video generation (Stable Diffusion XL, Stable Video Diffusion and Rectified Flow Transformers सहित) तथा च Adversarial Diffusion इति अति-द्रुत-वास्तविक-समय-प्रतिबिम्ब-संश्लेषणार्थं आसवनम् ।

ज्ञातव्यं यत् रोबिन् रोम्बच् इत्यस्य अतिरिक्तं स्टेबल डिफ्यूजनस्य अन्ये त्रयः लेखकाः सन्ति ये संस्थापकदलस्य सदस्याः अभवन्, येषु आन्द्रियास् ब्लैट्मैन्, डोमिनिक लोरेन्ज्, पैट्रिक एस्सर् च सन्ति अस्मिन् वर्षे पूर्वं तौ द्वौ अपि Stability AI त्यक्तवन्तौ, केचन अनुमानं कुर्वन्ति यत् तौ स्वस्य व्यवसायस्य आरम्भार्थं गतवन्तौ ।

सम्प्रति लैब्स्-संस्थायाः वित्तपोषणस्य ३१ मिलियन-डॉलर्-रूप्यकाणां बीज-परिक्रमः सम्पन्नः, यस्य नेतृत्वं आन्द्रेस्सेन् होरोवित्ज्-इत्यनेन कृतम् । अन्येषु निवेशकेषु एन्जलनिवेशकाः ब्रेण्डन् इरिबे, माइकल ओवित्ज्, गैरी तान्, टिमो ऐला, व्लादलेन् कोल्टुन् तथा च केचन सुप्रसिद्धाः एआइ-संशोधन-उद्यम-विशेषज्ञाः सन्ति तदतिरिक्तं जनरल् कैटलिस्ट्, एक्ट्च् वीसी इत्येतयोः अनुवर्तननिवेशः अपि प्राप्तः ।

प्रयोगशालाभिः एकं सल्लाहकारमण्डलम् अपि स्थापितं, यस्य सदस्येषु सामग्रीनिर्माण-उद्योगे विस्तृतः अनुभवः विद्यमानः प्रौद्योगिकी-उद्यमी माइकल ओवित्ज्, न्यूरल-शैली-स्थानांतरणस्य अग्रणीः, यूरोपे मुक्त-एआइ-संशोधनस्य शीर्ष-विशेषज्ञः च प्रोफेसरः मथियास् बेथ्गे च सन्ति

अवश्यं, Black Forest Labs इत्यनेन प्रथमा मॉडल् श्रृङ्खला "FLUX.1" प्रारब्धा, यस्मिन् निम्नलिखितत्रयं वेरिएण्ट् मॉडल् समाविष्टम् अस्ति ।

प्रथमः रूपः अस्तिFLUX.1 [pro] . , अत्यन्तं समृद्धं चित्रविवरणं, सशक्तं शीघ्रं अनुपालनक्षमता च विविधशैल्याः च सह एकं नूतनं SOTA Vincent आरेखप्रतिरूपम् अस्ति । सम्प्रति एपिआइ मार्गेण उपलभ्यते।

एपिआइ पताः https://docs.bfl.ml/

द्वितीयः इतिFLUX.1 [देव] । , यत् FLUX.1 [pro] इत्यस्य मुक्तभारयुक्तं, अव्यावसायिकं रूपं भवति, उत्तरतः प्रत्यक्षतया आसुतं भवति । इदं प्रतिरूपं अन्येषां चित्रमाडलानाम् यथा Midjourney तथा Stable Diffusion 3 इत्येतयोः अपेक्षया अधिकं कार्यं करोति । अनुमानसङ्केतः भाराः च GitHub इत्यत्र स्थापिताः सन्ति । अधोलिखितं चित्रं प्रतिस्पर्धात्मकैः चित्रप्रतिमानैः सह तुलना अस्ति ।

गिटहब पता: https://github.com/black-forest-labs/flux इति

तृतीयः मुक्तस्रोतः अस्तिFLUX.1 [schnell] इति । , एतत् सुपर-कुशलं ४-चरणीयं प्रतिरूपं यत् अपाचे २.० प्रोटोकॉलस्य अनुसरणं करोति । इदं मॉडल् प्रदर्शने [dev] तथा [pro] इत्येतयोः अतीव समीपे अस्ति तथा च Hugging Face इत्यत्र उपयोक्तुं शक्यते ।

गले मिलने वाला चेहरा 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell

इदानीं कृष्णवनप्रयोगशालायाः प्रचारः आरब्धः अस्ति ।

अग्रिमः सोपानः अस्ति SOTA Vincent video model इत्यस्य प्रारम्भः यत् सर्वेषां कृते उपलभ्यते, सर्वे च तस्य प्रतीक्षां कर्तुं शक्नुवन्ति!

तत्क्षणं सफलता : विन्सेन्ट् आकृति मॉडल श्रृङ्खला "FLUX.1" आगच्छति

अस्मिन् समये ब्लैक फॉरेस्ट् लैब्स् इत्यनेन प्रक्षेपिताः त्रयः मॉडल् सर्वे बहु-मोडल-समानान्तर-प्रसार-ट्रांसफॉर्मर-इत्यस्य संकर-वास्तुकलानां उपयोगं कुर्वन्ति । अन्येषां कम्पनीनां विपरीतम् ये मापदण्डानां संख्यानुसारं "मध्यमकपः", "बृहत् कपः" "अतिरिक्तबृहत् कपः" इति मॉडल्-श्रृङ्खलां विभजन्ति, FLUX.1-परिवारस्य सदस्यानां समानरूपेण १२ विशालपरिमाणे विस्तारः कृतः अस्ति अरब पैरामीटर।

शोधदलेन पूर्वस्य SOTA प्रसारप्रतिरूपस्य उन्नयनार्थं Flow Matching framework इत्यस्य उपयोगः कृतः । आधिकारिकब्लॉगे टिप्पणीभ्यः अनुमानं कर्तुं शक्यते यत् शोधदलेन अद्यापि Stability AI इत्यत्र (अस्मिन् वर्षे मार्चमासे) कार्यं कुर्वन् प्रस्तावितायाः Rectified flow+Transformer पद्धतेः अनुसरणं कृतम्।

पेपर लिङ्कः https://arxiv.org/pdf/2403.03206.pdf

तेषां कृते घूर्णनस्थानस्य एम्बेडिंग्, समानान्तर-अवधान-स्तराः अपि आरब्धाः । एतानि पद्धतयः चित्राणि जनयितुं प्रतिरूपस्य कार्यक्षमतां प्रभावीरूपेण सुधारयन्ति, हार्डवेयर-यन्त्रेषु चित्राणि जनयितुं वेगः अपि द्रुततरः अभवत्

अस्मिन् समये ब्लैक वन प्रयोगशालाभिः अस्य मॉडलस्य विस्तृतप्रौद्योगिकी न प्रकाशिता, परन्तु अधिकविस्तृतं तकनीकीप्रतिवेदनं शीघ्रमेव प्रकाशितं भविष्यति।

त्रयः अपि आदर्शाः स्वस्वक्षेत्रेषु नूतनानि मानकानि निर्धारयन्ति । भवेत् तत् उत्पन्नचित्रस्य सौन्दर्यं, चित्राणि पाठप्रोम्प्ट्-मध्ये कियत् सम्यक् उपयुज्यन्ते, आकार/आस्पेक्ट् रेश्यो परिवर्तनशीलता, अथवा आउटपुट् प्रारूपस्य विविधता, FLUX.1 [pro] तथा FLUX.1 [dev] इत्येतयोः परिधितः परं गच्छन्ति लोकप्रियाः चित्रजननमाडलाः, यथा Midjourney v6.0, DALL・E 3 (HD) तथा SD3-Ultra ।

FLUX.1 [schnell] अद्यपर्यन्तं सर्वाधिकं उन्नतं कतिपय-चरणीयं मॉडलं वर्तते, यत् न केवलं तस्य प्रतियोगिनां अपितु Midjourney v6.0 तथा DALL・E 3 (HD) Model इत्यादीनां शक्तिशालिनां गैर-आसुत-माडलानाम् अपि अधिकं प्रदर्शनं करोति

पूर्वप्रशिक्षणपदस्य पूर्णनिर्गमवैविध्यं धारयितुं मॉडलं विशेषतया सूक्ष्मरूपेण परिष्कृतं भवति । FLUX.1 श्रृङ्खलायाः मॉडल् अपि वर्तमानस्य अत्याधुनिकप्रौद्योगिक्याः तुलने सुधारस्य बहु स्थानं त्यजति ।

सर्वे FLUX.1 श्रृङ्खला मॉडल् 0.1 तः 2 मेगापिक्सेलपर्यन्तं विविधानि आस्पेक्ट् रेशियो तथा रिजोल्यूशनं समर्थयन्ति ।

केचन नेटिजनाः ये शीघ्रं कार्यं कृतवन्तः ते पूर्वमेव तस्य प्रयोगं कृतवन्तः इति भाति यत् कृष्णवनप्रयोगशालाभिः यत् "सशक्ततमम्" बोधितं तत् केवलं आत्मप्रचारः एव नास्ति।

सरलाः प्रॉम्प्ट् शब्दाः एतादृशं प्रभावं जनयितुं शक्नुवन्ति यदि भवन्तः अल्पाकायाः चटाईयाः प्रतिमानं सम्यक् पश्यन्ति तर्हि विकृतिः विकृतिः वा न भवति ।

प्रॉम्प्ट् वर्ड : श्वेतस्य लामा इत्यस्य उपरि सवारः एकः पन्ना इमुः।

एतत् एआइ-जनितं चित्रम् इति न वदन्, एतत् कस्यचित् छायाचित्रकारस्य गृहीतं चित्रम् अस्ति वा इति वक्तुं कठिनम् ।

शीघ्रं वचनम् : एकः अश्वः नदीयां द्वयोः एलिगेटरयोः सह क्रीडति।

पाठयुक्तानि चित्राणि अपि सुलभतया नियन्त्रयितुं शक्यन्ते, तथा च क्षेत्रस्य गभीरता अपि वास्तविकलेन्स-अनुभूति-सङ्गतिं कर्तुं संसाधितं भवति ।

त्रयाणां मॉडल्-मध्ये FLUX.1 [schnell], यस्य कार्यक्षमता किञ्चित् दुर्बलं भवति, तस्य उपयोगाय अपि द्रुतगतिः शक्तिशाली च अस्ति केचन नेटिजनाः Mac-इत्यत्र चालयितुं स्वस्य अनुभवं साझां कृतवन्तः, ते च निःश्वसितुं न शक्तवन्तः, तत् वस्तुतः तस्य योग्यम् अस्ति .

ये नेटिजन्स् स्थिरप्रसारस्य स्थिरता एआइ च लेखकानां मध्ये “शिकायतां” बहु न जानन्ति स्म, ते शोचन्ति स्म यत् कुत्रापि न दृश्यमानं विन्सेन्टियन-ग्राफ-प्रतिरूपं प्रादुर्भूतम्, तथा च तत् केवलं भयानकरूपेण शक्तिशाली आसीत्

Stable Diffusion इत्यस्य लेखकस्य तस्य पूर्वकम्पन्योः Stability AI इत्यस्य च कथायाः विषये भवन्तः Machine Heart इत्यस्य पूर्वप्रतिवेदनानि पठितुं शक्नुवन्ति: यदा तस्य मूल्यं US$100 मिलियन आसीत् तदा Stable Diffusion इत्यस्य पृष्ठतः दलाः परस्परं युद्धं कर्तुं आरब्धवन्तः यत् वास्तविकः अधिकारी कः अस्ति ?

त्रयाणां शक्तिशालिनां विन्सेन्टियन-माडलानाम् अतिरिक्तं ब्लैक-वन-प्रयोगशाला अपि स्वस्य "बृहत् चालनं" निरुद्धं कुर्वन् अस्ति । इमेज जनरेशन मॉडल् कृते एतादृशी शक्तिशालिनः क्षमताभिः ब्लैक फॉरेस्ट् लैब्स् इत्यनेन विडियो जनरेशन मॉडल् इत्यस्य कृते ठोसः आधारः स्थापितः, तथा च यथा ते भविष्यवाणीं कुर्वन्ति, सङ्गणकदृष्टौ एते शीर्षस्थवैज्ञानिकाः सर्वेषां कृते अत्याधुनिकं विडियो प्रौद्योगिकीम् अग्रे गच्छन्ति .

कम्पनी ब्लॉगः https://blackforestlabs.ai/घोषणानि/

समाचारं

आमुख

मम सम्पर्कसूचना