Le mie informazioni di contatto
Posta[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Macchina Cuore Originale
Dipartimento editoriale di Machine Heart
Stiamo assistendo a un altro ciclo di innovazione tecnologica. Questa volta, l’AIGC fornisce agli individui strumenti per esprimersi, rendendo la creazione più semplice e più popolare, ma la forza trainante dietro questo non è il modello “grande”.
Negli ultimi due anni, la tecnologia AIGC si è sviluppata più velocemente di quanto si potesse immaginare, spaziando in ogni campo, dal testo alle immagini fino ai video. Le discussioni sul percorso di commercializzazione dell'AIGC non si sono mai fermate. Tra queste vi sono consenso e divergenze di percorsi.
Da un lato, le potenti capacità dei modelli generali sono sorprendenti e mostrano potenzialità applicative in vari settori. In particolare, l’introduzione di architetture come DiT e VAR ha consentito a Scaling Law di passare dalla generazione testuale a quella visiva. Sotto la guida di questa regola, molti grandi produttori di modelli continuano ad andare avanti nella direzione dell’aumento dei dati di addestramento, degli investimenti in potenza di calcolo e dell’accumulo di parametri.
D'altra parte, abbiamo anche visto che un modello universale non significa "uccidere tutti". A fronte di molti compiti di pista suddivisi, un modello verticale "ben addestrato" può ottenere risultati migliori.
Mentre la tecnologia dei modelli di grandi dimensioni entra in un periodo di implementazione accelerata, quest’ultimo percorso di commercializzazione ha ricevuto una rapida crescita di attenzione.
Durante questa evoluzione, FancyTech, una startup cinese, si è distinta:Ha rapidamente ampliato il mercato con prodotti standardizzati per la generazione di contenuti visivi commerciali e ha verificato prima dei suoi concorrenti la superiorità del "modello verticale" a livello di implementazione industriale.
Guardando al circolo imprenditoriale nazionale dei grandi modelli, il record di commercializzazione di FancyTech è evidente a tutti. Ma quello che è meno noto è il modello verticale e i vantaggi tecnologici che questa azienda, nata solo pochi anni fa, è all’avanguardia.
In un'intervista esclusiva, Machine Heart ha parlato con FancyTech dell'esplorazione tecnologica che stanno portando avanti.
FancyTech rilascia il modello verticale video DeepVideo
Come superare le barriere del settore?
In generale, dopo che la capacità di generalizzazione zero-shot di un modello generale raggiunge un certo livello, può essere utilizzato per attività a valle perfezionandolo. Questo è anche il modo in cui oggi vengono lanciati molti prodotti di grandi dimensioni. Ma dal punto di vista pratico, il semplice "perfezionamento" non può soddisfare le esigenze delle applicazioni industriali, perché i compiti di generazione dei contenuti di ciascun settore hanno il proprio insieme di standard specifici e complessi.
Un modello generale può essere in grado di completare il 70% delle attività di routine, ma ciò di cui i clienti hanno veramente bisogno è un “modello verticale” in grado di soddisfare il 100% delle loro esigenze. Prendiamo ad esempio il visual design commerciale. In passato, il lavoro correlato veniva completato da professionisti con accumulazione a lungo termine e doveva essere progettato e adattato in base alle esigenze specifiche del marchio, il che richiedeva molta esperienza manuale. Rispetto a indicatori come l’estetica e la conformità alle istruzioni, il “ripristino del prodotto” è un punto a cui i marchi prestano maggiore attenzione in questo compito, ed è anche il fattore decisivo per stabilire se i marchi sono disposti a pagare.
Nel processo di auto-sviluppo di un modello verticale per immagini/video commerciali, FancyTech ha risolto la sfida principale: come rendere il prodotto sufficientemente restaurato e integrato nello sfondo, in particolare nel video generato, per ottenere un movimento controllabile del prodotto senza deformazioni .
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef 4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Con lo sviluppo odierno della tecnologia dei modelli di grandi dimensioni, per il livello applicativo, intraprendere il percorso open source o closed source non è più il problema principale. Il modello verticale di FancyTech si basa sul framework dell'algoritmo sottostante open source, sovrapposto alla propria annotazione dei dati e riqualificato, e richiede solo poche centinaia di GPU per iterazioni di addestramento continuo per ottenere buoni risultati di generazione. Al contrario, i due fattori “dati di prodotto” e “metodi di formazione” sono più critici per l’effetto finale dell’implementazione.
Partendo dalla premessa di accumulare enormi quantità di dati di addestramento 3D, FancyTech ha introdotto l'idea dell'intelligenza spaziale per guidare la generazione di contenuti 2D del modello.Nello specifico, per la generazione di contenuti di immagini, il team ha proposto un "dispositivo con funzionalità multimodali" per garantire il ripristino dei prodotti e ha utilizzato una raccolta dati speciale per garantire la naturale integrazione di prodotti e sfondi per la generazione di contenuti video, il team ha ricostruito la generazione di video I collegamenti sottostanti, la struttura di progettazione direzionale e l'ingegneria dei dati, realizzando così una generazione di video incentrata sul prodotto.
Colpo di riduzione della vera dimensionalità: in che modo l'"intelligenza spaziale" guida la generazione di contenuti 2D?
Il motivo principale per cui gli effetti di molti prodotti di generazione visiva sono insoddisfacenti è che gli attuali modelli di generazione di immagini e video spesso apprendono sulla base di dati di training 2D e non comprendono il mondo fisico reale.
Questo punto ha raggiunto il consenso nel campo, e alcuni ricercatori ritengono addirittura che, sotto il paradigma dell'apprendimento autoregressivo, la comprensione del mondo da parte del modello sia sempre superficiale.
Tuttavia, nel compito di suddivisione della generazione visiva commerciale, non è del tutto irrisolvibile migliorare la comprensione del mondo fisico 3D del modello e generare meglio contenuti 2D.
FancyTech ha migrato le idee di ricerca nel campo dell'"intelligenza spaziale" verso la costruzione di modelli generativi visivi. Diversamente dai modelli generativi generali, l'idea dell'intelligenza spaziale è quella di apprendere dai segnali originali ottenuti da un gran numero di sensori e calibrare accuratamente i segnali originali ottenuti dai sensori per dare al modello la capacità di percepire e comprendere i mondo reale.
Pertanto, FancyTech utilizza la scansione lidar invece delle tradizionali riprese in studio e ha accumulato un gran numero di coppie di dati 3D di alta qualità che riflettono le differenze prima e dopo l'integrazione del prodotto. Combina i dati della nuvola di punti 3D con i dati 2D come dati di addestramento del modello per migliorare la comprensione del mondo da parte del modello.
Sappiamo che nella generazione di qualsiasi contenuto visivo, la modellazione degli effetti di luce e ombra è un compito molto impegnativo. Elementi come illuminazione, corpi luminosi, controluce e punti luce possono rendere più forte la stratificazione spaziale dell'immagine, ma questo è un "punto di conoscenza" di difficile comprensione per i modelli generativi.
Per raccogliere quanti più dati possibili su luci e ombre naturali, FancyTech ha costruito dozzine di luci con luminosità e temperatura di colore regolabili in ogni ambiente, il che significa che ciascuna coppia nell'enorme quantità di dati può essere sovrapposta con più luci e diverse luminosità e temperature di colore. cambiamenti.
Questa raccolta di dati ad alta intensità simula l'illuminazione di scene di ripresa reali, rendendola più in linea con le caratteristiche delle scene di e-commerce.
Combinando l'accumulo di dati 3D di alta qualità, FancyTech ha apportato una serie di innovazioni alla struttura degli algoritmi, combinando organicamente algoritmi spaziali con algoritmi di immagini e video per consentire al modello di comprendere meglio l'interazione tra gli oggetti principali e l'ambiente.
Durante il processo di formazione, il modello può "emergere" in una certa misura con una comprensione del mondo fisico e avere una comprensione più profonda dello spazio tridimensionale, della profondità, della riflessione e rifrazione della luce e dei risultati della luce che opera in diversi media e materiali diversi Sapendo questo, abbiamo finalmente ottenuto la "forte riduzione" e l'"iperfusione" dei prodotti nei risultati generati.
Quali sono le innovazioni algoritmiche dietro la “riduzione forte” e l’“iperfusione”?
Per le attività comuni di generazione di immagini di scene di prodotti, l'attuale metodo tradizionale utilizza principalmente texture per garantire il ripristino di parti di prodotto, quindi implementa la modifica di scene di immagini basata sulla tecnologia Inpainting. L'utente seleziona l'area che deve essere modificata e inserisce un messaggio o fornisce un'immagine di riferimento per guidare la generazione della scena del prodotto. L'effetto di fusione di questo metodo è migliore. Lo svantaggio è che la controllabilità dei risultati della generazione della scena non è elevata, ad esempio non è abbastanza chiara o troppo semplice e non può garantire l'elevata disponibilità di un singolo output.
In risposta a problemi che non possono essere risolti con i metodi attuali, FancyTech ha proposto un "dispositivo di funzionalità multimodale" proprietario che estrae le caratteristiche del prodotto in più dimensioni e quindi utilizza queste caratteristiche per generare grafici di scena integrati.
Il lavoro di estrazione delle caratteristiche può essere suddiviso in "caratteristiche globali" e "caratteristiche locali". Le caratteristiche globali includono il contorno, il colore e altri elementi del prodotto, che vengono estratti utilizzando i codificatori VAE e includono i dettagli del prodotto ovunque, che vengono estratti utilizzando reti neurali a grafo. Uno dei grandi vantaggi della rete neurale del grafico è che può estrarre le informazioni di ciascun pixel chiave nel prodotto e la relazione tra i pixel chiave e migliorare il ripristino dei dettagli all'interno del prodotto.
Nella generazione di contenuti di prodotti in materiale flessibile, l'effetto ottenuto con questo metodo è notevolmente migliorato:
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef 4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Rispetto alle immagini, la generazione dei video prevede anche il controllo del movimento del prodotto stesso e dei cambiamenti di luci e ombre che comporta. Per i modelli generali di generazione video, la difficoltà risiede nell'incapacità di proteggere autonomamente una determinata parte del video. Per risolvere questo problema, FancyTech ha suddiviso il compito in due rami: "generazione del movimento del prodotto" e "integrazione della scena video".
A livello di dati, oltre a utilizzare le esclusive risorse di dati di prodotto di FancyTech per fornire formazione sul controllo e protezione del prodotto, vengono aggiunti anche più set di dati open source per garantire capacità di generalizzazione della scena. Il piano di formazione combina l'apprendimento comparativo e l'apprendimento del corso e, in definitiva, raggiunge l'effetto di protezione dei beni.
Lasciamo che i dividendi dell'era AIGC
A partire dal modello verticale fino alle persone più comuni
Che sia “universale” o “verticale”, il punto finale di entrambi i percorsi è la commercializzazione.
Il beneficiario più diretto dell'implementazione del modello verticale di FancyTech è il brand. In passato, il ciclo di produzione di un video pubblicitario poteva durare diverse settimane, dalla pianificazione, alle riprese e al montaggio. Ma nell’era dell’AIGC, ci vogliono solo dieci minuti per creare un video pubblicitario di questo tipo e il costo è solo un quinto del costo originale.
Con i vantaggi di enormi dati unici e know-how del settore, FancyTech ha ottenuto un ampio riconoscimento in patria e all'estero grazie ai vantaggi del modello verticale. Ha firmato contratti con Samsung e LG con partner coreani e ha collaborato con Lazada, un'azienda ben consolidata. nota piattaforma di e-commerce nel sud-est asiatico; negli Stati Uniti è stata apprezzata da marchi locali come Kate Sommerville e Solawave in Europa, ha vinto il premio LVMH Innovation Award e vanta una stretta collaborazione con i clienti europei;
Oltre al modello verticale principale, FancyTech fornisce anche funzionalità di pubblicazione automatica e feedback dei dati full-link per brevi video basati sull'intelligenza artificiale, favorendo una crescita continua nelle vendite dei prodotti.
Ancora più importante,Il modello verticale visualizza il percorso del grande pubblico verso l’utilizzo della tecnologia AIGC per migliorare la produttività.Ad esempio, uno studio fotografico tradizionale per strada può completare la trasformazione aziendale dal semplice servizio di ritratti alla produzione di materiale visivo commerciale di livello professionale senza aggiungere attrezzature e professionisti professionali con l'aiuto dei prodotti FancyTech.
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef 4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Ora, semplicemente prendendo in mano un telefono cellulare, quasi tutti possono girare video, registrare musica e condividere le proprie creazioni con il mondo. Immagina un futuro in cui l’AIGC libera ancora una volta la creatività individuale——
Permette alle persone comuni di varcare le soglie professionali e trasformare più facilmente le idee in realtà, permettendo così alla produttività di ogni settore di fare un balzo in avanti e generare più industrie emergenti. Da questo momento in poi, i dividendi dei tempi portati dalla tecnologia AIGC diventeranno davvero ordinari persone.