uutiset

FancyTechin salaisuuksien paljastaminen: "voimakkaan vähentämisen" ja "hyperkonvergenssin" takana oleva algoritmiinnovaatio

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Äskettäisessä teknologian muutoksen aallossa AIGC:stä (artificial Intelligence generated content) on tulossa tärkeä työkalu ihmisten itseilmaisulle ja luomiselle. Tämän teknologisen innovaation aallon liikkeellepaneva voima ei ole vain valtavat algoritmimallit, vaan syvästi räätälöidyt ratkaisut, jotka keskittyvät tiettyjen alojen tarpeisiin. Kahden viime vuoden aikana AIGC on kehittynyt nopeammin kuin monet odottivat, ja sen sovellukset ovat laajentuneet tekstin luomisesta kaikkiin kuviin ja videoihin.
Äskettäin "Heart of the Machine" teki eksklusiivisen haastattelun kiinalaisen FancyTech-nimisen startup-yrityksen kanssa. Yritys ei ainoastaan ​​laajentanut nopeasti markkinoita tarjoamalla standardoituja kaupallisia visuaalisen sisällön tuotantotuotteita, vaan se oli myös ensimmäinen, joka todisti vertikaalisen mallin edut käytännön sovelluksissa.
"Heart of the Machine" esittelee myös yksityiskohtaisesti FancyTechin viimeisimmän videovertailumallin DeepVideo, joka vastaa menestyksekkäästi haasteeseen, kuinka tuotteet voidaan palauttaa tarkasti ja luonnollisesti integroida videoihin varmistaen, että tuotteet pysyvät muuttumattomina liikkeessä.
FancyTechin vertikaalinen malli perustuu avoimen lähdekoodin taustalla olevaan algoritmikehykseen, jonka päälle on lisätty oma datamerkintä ja joka on koulutettu uudelleen, ja se vaatii vain muutaman sadan GPU:n jatkuvaan harjoitteluiteraatioon hyvien sukupolvien tulosten saavuttamiseksi. Sitä vastoin kaksi tekijää "tuotetiedot" ja "koulutusmenetelmät" ovat kriittisempiä lopullisen toteutusvaikutuksen kannalta.
Suuren 3D-harjoitusdatan keräämisen perusteella FancyTech esitteli ajatuksen tilaälystä ohjaamaan mallin 2D-sisällön luomista. Kuvasisällön luomisen osalta tiimi ehdotti "multimodaalista ominaisuuslaitetta" tavaroiden palauttamisen varmistamiseksi ja varmisti tavaroiden ja taustan luonnollisen integroinnin erityisen tiedonkeruun avulla. Mitä tulee videosisällön luomiseen, tiimi rakensi uudelleen videoiden luomisen taustalla olevat linkit, suuntasuunnittelukehyksen ja tietotekniikan luodakseen tuotteisiin keskittyviä videoita.
Lisäksi "Heart of the Machine" paljastaa perusteellisesti, kuinka FancyTech soveltaa spatiaalisen älykkyyden tutkimusideoita visuaalisen sukupolven malleihin. Perinteisistä generatiivisista malleista poiketen spatiaalinen älykkyys analysoi suuria määriä anturidataa ja suorittaa tarkan kalibroinnin, jolloin malli voi havaita ja ymmärtää todellista maailmaa.
FancyTech käyttää lidar-skannausta perinteisen studiokuvauksen sijaan ja on kerännyt suuren määrän korkealaatuista 3D-dataa. Nämä tiedot yhdistetään 2D-tietoihin mallin harjoitustietoina, mikä parantaa huomattavasti mallin ymmärrystä todellisesta maailmasta.
Haastavaan tehtävään muotoilla valo- ja varjotehosteita visuaalisen sisällön luomisessa, FancyTech otti käyttöön useita valoja säädettävällä kirkkaudella ja värilämpötilalla jokaisessa ympäristössä kerätäkseen mahdollisimman paljon luonnollista valoa ja varjodataa parantaakseen luotujen kuvien tilakerrosta.
Tämä korkean intensiteetin tiedonkeruu simuloi todellisten kuvauskohtausten valaistusta, mikä tekee siitä paremmin linjassa verkkokaupan kohtausten ominaisuuksien kanssa. Yhdistämällä korkealaatuisen 3D-datan keräämisen, FancyTech on tehnyt joukon innovaatioita algoritmikehykseen yhdistäen orgaanisesti tilaalgoritmit kuva- ja videoalgoritmeihin, jolloin malli pystyy ymmärtämään paremmin ydinobjektien ja ympäristön välistä vuorovaikutusta.
Kaupallistamisen selvitys ei ole koskaan pysähtynyt AIGC:n alalla Vaikka yksimielisyys vallitsee, on myös erilaisia ​​kehityssuuntia. "Heart of the Machine" paljasti artikkelissa FancyTechin algoritmin innovaation "voimakkaan pelkistyksen" ja "hyperfuusion" takana.
FancyTechin "multimodaalinen ominaisuusgeneraattori" poimii tuotteen ominaisuuksia useissa ulottuvuuksissa ja käyttää sitten näitä ominaisuuksia luodakseen kuvia, jotka sulautuvat kohtaukseen. Ominaisuuden purkaminen on jaettu globaaleihin ominaisuuksiin ja paikallisiin ominaisuuksiin: globaaleihin ominaisuuksiin kuuluvat peruselementit, kuten tuotteen ääriviivat ja värit, jotka poimitaan VAE-enkoodereilla, jotka keskittyvät tuotteen yksityiskohtiin ja poimitaan graafisen hermoverkkojen kautta. Tämä menetelmä voi tallentaa tuotteen sisäiset ominaisuudet yksityiskohtaisesti yksityiskohtien ja avainpikseleiden välisen suhteen, mikä parantaa tuotteen yksityiskohtien palauttamisen tarkkuutta.
Kaupallistamisen tiellä, olipa sitten käytössä yleinen malli tai vertikaalinen malli, perimmäisenä tavoitteena on kaupallinen menestys. FancyTech on hyödyntänyt runsaasti ainutlaatuista dataa ja alan asiantuntemusta saavuttaakseen laajan tunnustuksen kotimaisilla ja ulkomaisilla markkinoilla, ja se on hankkinut yhteistyösuhteita kansainvälisten kumppaneiden, kuten Samsungin, LG:n ja Kaakkois-Aasian sähköisen kaupankäynnin alustan kanssa Kate Somerville ja paikallisten tuotemerkkien, kuten Solawaven, suosima Euroopassa se voitti LVMH Innovation Award -palkinnon ja tekee syvällistä yhteistyötä eurooppalaisten asiakkaiden kanssa.
Lisäksi FancyTech tarjoaa myös täyden linkin automaattisen julkaisun ja lyhyiden tekoälyvideoiden datapalautetoiminnot, mikä edistää tehokkaasti tuotemyynnin jatkuvaa kasvua.
Vertikaalisen mallin onnistunut soveltaminen edistää kaupallisten markkinoiden kehittymistä, mutta myös helpottaa suuren yleisön AIGC-teknologian käyttöä tuottavuuden parantamiseksi.
Teknologian leviämisen myötä lähes jokainen voi nyt kuvata videoita, äänittää musiikkia ja jakaa luomuksiaan maailman kanssa matkapuhelimensa kautta. Odotamme tulevaisuutta, jossa AIGC-teknologia vapauttaa jälleen henkilökohtaisen luovuuden – sallien tavallisten ihmisten helposti ylittää ammatilliset kynnykset ja muuttaa ideoita todellisuudeksi, mikä edistää tuottavuuden harppauksia kaikilla elämänaloilla ja synnyttää uusia nousevia aloja.
Teksti / Lin Ke, joka keskittyy tekoälyyn
Raportti/palaute