notizia

Lama3.1 non può essere venduto affatto! Addetti al settore: il costo dei modelli open source è più elevato

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Yunzhong proveniva dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Il modello open source di grandi dimensioni Llama 3 di Meta è stato lento sul mercato, intensificando ulteriormente l'attenzione sul dibattito tra open source e closed source per i modelli di grandi dimensioni.

Secondo i media stranieri The Information, il grande modello open source di Meta, Llama 3, ha faticato ad attirare l’attenzione di AWS di Amazon, il più grande fornitore di servizi cloud al mondoPreferisco utilizzare il modello di grandi dimensioni closed source di Anthropic, Claude

Secondo addetti ai lavori di Microsoft,Llama non è nemmeno la scelta di vendita principale di Microsoft, è più probabile che consiglino Llama ad aziende con esperienza in materia di dati, ad esempio aziende con ingegneri e data scientist interni.

Meta si trova ora ad affrontare sfide che potrebbero ispirare Meta a creare un proprio team di vendita per prodotti di intelligenza artificiale per soddisfare le esigenze delle imprese. Questa serie di problemi evidenzia anche le difficoltà nel processo di commercializzazione di grandi modelli open source. Dal punto di vista della selezione del mercato, gli effetti reali e i ritorni commerciali del modello open source potrebbero non soddisfare le aspettative dei clienti aziendali.

viso"Open source o closed source" Su questo tema, i principali produttori di modelli nazionali hanno formato posizioni completamente diverse in base ai propri percorsi tecnici e strategie commerciali. Quindi, come dovrebbero le aziende scegliere i modelli di grandi dimensioni e come trovare il miglior equilibrio tra i due?

In questo contesto,Xin Zhou, direttore generale di Baidu Intelligent Cloud AI e Large Model PlatformÈ stato intervistato dai media e ha analizzato in dettaglio la logica sottostante, le strategie di business e le previsioni del mercato futuro nel dibattito tra open source e closed source.

Xinzhou crede che,Esiste una differenza essenziale tra open source di modelli di grandi dimensioni e open source di software:Poiché il modello open source non apre il codice sorgente di formazione, i dati di pre-formazione e messa a punto e altre informazioni chiave che influiscono sull'effetto del modello, non può fare affidamento sulla partecipazione degli sviluppatori della comunità per migliorare l'effetto e le prestazioni come il software open source. Tuttavia, la formazione del modello base può essere solo nelle mani dei produttori stessi.

Quando si parla di "chi è più costoso, il modello open source o il modello closed source?" Xin Zhou ha detto che il modello open source è gratuito e dà alle persone l'impressione di un costo basso, maL'applicazione di modelli di grandi dimensioni non costituisce solo una singola tecnologia, ma una soluzione completa che comprende "tecnologia + servizi" e le imprese devono calcolare la "contabilità generale". Quando l’attività verrà effettivamente implementata, se il modello open source vuole ottenere lo stesso effetto del modello closed source, richiederà una grande quantità di investimenti successivi in ​​manodopera, denaro e tempo, e il costo complessivo sarà più elevato.

A quali scenari sono adatti i modelli open source e closed source? Xinzhou crede che,Il modello open source è più adatto alla ricerca accademica, ma non è adatto a progetti commerciali su larga scala che forniscono servizi al mondo esterno. In alcuni progetti seri con milioni o addirittura decine di milioni di investimenti, il modello closed source è ancora valido il protagonista.

“Il modello open source non è economico”

Quello che segue è il testo integrale modificato dell'intervista:

1. Nel mercato dei modelli di grandi dimensioni, che ruolo gioca ciascun produttore di modelli? Qual è il modello di business?

Xin Zhou: In questa festa di grandi modelli, il posizionamento e il modello di business di ciascun produttore sono diversi e possono essere suddivisi approssimativamente in tre categorie:

Per il primo tipo di ruolo, per i fornitori di cloud, il modello di business consiste effettivamente nella vendita di risorse informatiche. Ridurre i costi e migliorare l'elasticità delle risorse attraverso la scalabilità per raggiungere la redditività Questo è il modello duraturo dei fornitori di servizi cloud. Indipendentemente dal fatto che si tratti di un modello open source o di un modello closed source, purché sia ​​ospitato dal fornitore del cloud, il fornitore del cloud può guadagnare denaro.

Il secondo tipo di ruolo è sia un fornitore di cloud che un fornitore di modelli. Sperano di portare il business nel cloud attraverso l'uso di modelli. Al momento, il profitto derivante dall'affidarsi esclusivamente alle chiamate API dei modelli è ancora molto basso. Attualmente sperano di occupare una quota favorevole del mercato e continuano a cercare nuove opportunità di espansione sul tavolo dei modelli di grandi dimensioni.

Il terzo tipo di ruolo, per i produttori di modelli imprenditoriali, dopo che i principali fornitori di servizi cloud hanno annunciato riduzioni dei prezzi dei modelli, il volume delle chiamate è diminuito drasticamente. Il campo dei modelli di grandi dimensioni si trasformerà presto in una battaglia tra diversi importanti fornitori di cloud. Le startup di modelli di grandi dimensioni si concentreranno su settori specifici, privatizzeranno progetti toB o si trasformeranno in prodotti toC.

2. Perché si dice che "il modello open source non è economico e la tecnologia diventerà sempre più arretrata"?

Xin Zhou: Parliamo prima del problema della tecnologia arretrata.

Innanzitutto, l’open source di modelli di grandi dimensioni non può migliorare le prestazioni del modello.

contrastosoftware open source, come il sistema operativo mobile Android e il software di database MySQL. Tutti i codici sorgente di questi software open source sono aperti e gli sviluppatori di tutta la società possono partecipare allo sviluppo del codice. Ciò non solo può ridurre i costi di sviluppo del software, ma anche accelerarne l'iterazione e migliorarne la sicurezza. Questo è il valore dell'open source per il software.

Il modello open source è molto più complesso, che può essere open source e include il codice sorgente di addestramento del modello, i pesi dei parametri, i dati di addestramento, ecc.Tuttavia, attualmente i produttori di modelli di solito pesano solo i parametri open source, ma il codice sorgente di training, i dati di training, ecc. non sono open source. Ciò impedisce agli sviluppatori di migliorarlo e di contribuire all'efficacia del modello open source.

Ad esempio, per Llama, ogni miglioramento nelle prestazioni del modello è in realtà il risultato della formazione di Meta, non il risultato della partecipazione degli sviluppatori. Non c'è molta differenza tra Llama2 e Llama3 in termini di struttura della rete. Cosa ottimizza? Da un lato viene ottimizzato il processo della fase di addestramento, come l'addestramento in più fasi; dall'altro vengono aggiunti molti dati. I dati di Llama2 e Llama3 sono di un ordine di grandezza diverso il tempo porta risultati migliori al modello.

Ma questi buoni effetti sono tutti creati da Meta stessa e non c'è modo di utilizzare il potere degli sviluppatori, per non parlare del processo di feedback della comunità come il software open source.

In secondo luogo, il modello open source rimarrà sempre più indietro perché non esiste un buon modello di business per garantire l’iterazione continua del modello.

La formazione dei modelli e l’annotazione dei dati sono molto costose, a meno che non ci siano forti risorse aziendali come Meta per supportare lo sviluppo sostenibile di modelli open source, se si tratta di una start-up con modelli open source, non sarà in grado di formare un business chiuso. ciclo continuo. Allo stesso tempo, gli sviluppatori non possono contribuire all’efficacia del tuo modello, quindi le startup devono restare sempre più indietro quando lo fanno. A giudicare dai risultati, il modello migliore è in realtà l’Open AI, e i modelli in cima all’attuale elenco di valutazione sono tutti modelli closed-source.

Parliamo del motivo per cui il modello open source non è economico.L'applicazione di modelli di grandi dimensioni è una soluzione completa che copre "tecnologia + servizi". Le imprese che applicano modelli di grandi dimensioni devono "calcolare la contabilità generale". Come calcolare la contabilità generale?

Il primo livello consiste nel calcolare il costo delle risorse hardware.. Poiché i modelli di business closed source saranno dotati di catene di strumenti corrispondenti, comprese catene di strumenti di formazione e catene di strumenti di inferenza, le prestazioni di queste catene di strumenti sono migliori di quelle open source. Per i clienti, la formazione può far risparmiare circa il 10~20% sui costi dell'hardware. , risparmi di più quando ragioni, e maggiore è la scala aziendale, più risparmi.

Il secondo livello consiste nell’esaminare i vantaggi aziendali apportati dal modello. Per i modelli con la stessa scala di parametri, i risultati closed source sono migliori. Alcuni clienti non sono così sensibili alla precisione del 90% o 95%. Ma ci sono alcune attività, come la pubblicità commerciale, in cui CPM e CTR sono solo un punto di differenza. Per la piattaforma pubblicitaria, potrebbero esserci decine di milioni di discrepanze in un giorno. In questo momento, le aziende che richiedono effetti di modello più elevati lo sono più disposti ad acquistare un modello closed source che funzioni meglio.

Il terzo livello comprende il costo opportunità e il costo del lavoro.. Se utilizzi un modello di business closed source per convergere più rapidamente, puoi lanciare nuovi prodotti più velocemente dei tuoi concorrenti. In un modello di business closed source, il produttore ha adattato il modello e l'hardware allo stato ottimale e i clienti possono semplicemente copiare l'esperienza matura. Ma se usi l’open source, devi adattarlo tu stesso e il costo della potenza di calcolo e degli ingegneri sarà più alto.

Pertanto, diciamo che i modelli di applicazione aziendale devono "calcolare la contabilità generale" e il calcolo di questa contabilità generale sarà molto diverso.

3. Perché l'open source è molto più costoso del closed source in termini di costo dell'hardware?
Xin Zhou: La maggior parte dei clienti aziendali acquisterà due o più tipi di hardware perché devono considerare la sicurezza e la flessibilità della catena di fornitura. Se il modello open source deve essere adattato a ciascun componente hardware, il costo sarà molto elevato.

Ciò riflette i vantaggi del modello di business closed-source, perché può condividere il costo dell’adattamento di software e hardware attraverso vendite su larga scala. Inoltre, l’adattamento multi-core è una questione molto tecnica per BaiduPiattaforma informatica eterogenea BaigeSono state apportate molte ottimizzazioni specificatamente per l'eterogeneità multi-core ed è adatto a vari hardware. Baige stesso può proteggere varie differenze nel livello hardware. Esistono molte librerie di accelerazione, librerie di inferenza e librerie di training Baige fornisce anche l'ottimizzazione end-to-end per il modello di grandi dimensioni Wenxin.

Il vantaggio per i clienti è che possono lavorare velocemente, indipendentemente dall'hardware utilizzato, e il risparmio di tempo e manodopera è molto elevato.

4. In quali scenari sono adatti rispettivamente il modello open source e il modello closed source?

Xin Zhou: L'idea generale è: se vuoi provare a verificare in scenari aziendali individuali, puoi prima eseguirlo con un modello closed source, eseguirlo fuori dagli schemi e verificarlo rapidamente in alcune aziende serie che costano milioni o decine di milioni di dollari. Nei progetti che richiedono elevata scala e precisione, i modelli di business closed source sono ancora la scelta migliore per le imprese. Solo in alcuni scenari aziendali che non hanno requisiti elevati in termini di effetti e prestazioni, ma richiedono un'implementazione privata e sono particolarmente sensibili al prezzo, prendere in considerazione l'utilizzo del modello open source.

L'open source è prezioso per promuovere il mondo accademico e la ricerca, come l'ottimizzazione delle prestazioni ingegneristiche dell'inferenza, l'impatto dei dati di pre-formazione e di perfezionamento sui risultati, ecc. Se può rendere open source più cose, come codice di addestramento, dati di addestramento, e messa a punto delle istruzioni. Anche i dati e così via sono aperti e il loro valore per la ricerca accademica e lo sviluppo tecnologico sarà maggiore. Anche se vengono aperti solo i pesi del modello, ciò fornisce ai ricercatori un buon modello di base.

5. Alcuni produttori sperano che sia l'open source che il closed source possano essere perseguiti allo stesso tempo. Cioè, il modello open source attrae gli utenti per espandere l'ecosistema, mentre il modello closed source è responsabile della commercializzazione.

Xin Zhou: Se non l'hai praticato, sembra fattibile. Ma la realtà è:

Sul cloud pubblico, tra le chiamate annunciate da vari produttori, il volume delle chiamate del modello closed source è molto più elevato di quello del modello open source, il che dimostra che il modello open source in realtà non gioca un ruolo nell'attrarre utenti di espandere l'ecosistema sul cloud pubblico.. Inoltre, per la messa a punto sul cloud pubblico, possono essere implementati sia modelli open source che chiusi, in modo che i clienti possano scegliere direttamente il modello migliore sul cloud pubblico.

In termini di diffusione privatizzata, questa logica ha senso in una certa misura.. Molte aziende iniziano prima con modelli open source per i test. Successivamente, scoprono che i risultati sono buoni e vogliono acquistarli. Sceglieranno il modello open source per corrispondere al modello closed source del produttore, perché lo stesso modello source è più adattabile suggerisce. In questo caso, questa logica è vera.Ma questo valore si sta gradualmente riducendo. Poiché le capacità generali dei modelli di ciascun produttore stanno migliorando rapidamente, i costi di passaggio stanno diventando sempre più bassi, cancellando gradualmente l'eredità di questo modello.

Ci sono anche alcuni produttori che lanciano modelli open source per promuovere l'hardware. Ad esempio, Nvidia lancia un modello open source. La sua logica di business è molto semplice ed è necessario acquistare una scheda per utilizzare il modello.

6. Perché Baidu non ha lanciato un modello open source?

Xin Zhou: Dal volume di implementazioni di diversi produttori si è visto chiaramente che i modelli commerciali closed source con il maggior volume di implementazioni sul cloud pubblico non hanno un grande impatto sul cloud pubblico.

Nel mercato privatizzato, man mano che la consapevolezza dei clienti sui modelli di grandi dimensioni continua a migliorare, l'open source e il closed source gradualmente non diventano più un fattore chiave.. Dopo aver comunicato con molti clienti di grandi aziende, ho scoperto che esistono molti fattori che determinano se i leader aziendali debbano utilizzare un modello. L'ordine di priorità è solitamente: effetto, prestazioni, sicurezza e prezzo. Che un modello sia open source o closed source non è un fattore decisivo.

7. Hai affermato che le cose più importanti per le aziende nella scelta dei modelli sono l'effetto, le prestazioni, la sicurezza e il prezzo. La "macchina all-in-one Qianfan Large Model" lanciata da Baidu Cloud sta provando un nuovo modello di business che integra software e? hardware?

Xin Zhou: Al momento, l’utilizzo di modelli di grandi dimensioni da parte delle imprese è ancora in fase esplorativa e vi è una forte necessità di prodotti a basso costo e pronti all’uso per verificare rapidamente gli scenari di utilizzo e gli effetti dei modelli di grandi dimensioni. La "macchina all-in-one modello grande Qianfan" è molto adatta alla fase attuale, perché ci sono molte richieste di implementazione privatizzata in Cina. La nostra macchina all-in-one è aperta e può essere adattata a una varietà di hardware, integrandosi tutti i prodotti tradizionali sul mercato. La macchina all-in-one Qianfan di Baidu Smart Cloud, modello di grandi dimensioni, offre due funzionalità:

Innanzitutto, fornire una piattaforma integrata per l'adattamento di software e hardware, questa piattaforma dispone di modelli di grandi dimensioni Wenxin integrati, dei modelli di grandi dimensioni open source tradizionali del settore e di sale campione di applicazioni di scenari. Anche i modelli open source più diffusi sono stati adattati e ottimizzati. Gli utenti possono eseguirli direttamente sulla macchina all-in-one senza dover modificare i modelli da soli. Allo stesso tempo, il modello di macchina all-in-one di Qianfan è in grado di fornire soluzioni software e hardware integrate di grande modello dalla gestione e controllo di base, framework AI, formazione del modello, ragionamento predittivo e applicazione di scenari, fornendo ai clienti software e processi completi servizi hardware.

secondoLa macchina all-in-one Qianfan di grandi dimensioni è molto conveniente grazie all'ottimizzazione delle prestazioni end-to-end e alla capacità di sfruttare tutte le prestazioni dell'hardware. I clienti possono utilizzarlo rapidamente e a un costo inferiore.

In termini di prezzo complessivo, il prezzo della macchina all-in-one Qianfan è molto inferiore rispetto all'acquisto separato del server, del modello grande e della piattaforma. Per i clienti, può essere utilizzato immediatamente.

8. Al giorno d'oggi, molte persone ritengono che non sia sufficiente utilizzare solo modelli di base di grandi dimensioni. Dobbiamo ancora costruire modelli di settore per realizzare veramente l'implementazione industriale di modelli di grandi dimensioni. Quindi, quanto costa attualmente per un’impresa addestrare da sola un modello di settore?

Xin Zhou: Il costo è molto alto. Innanzitutto, questo costo aumenta linearmente a seconda della dimensione dei parametri del modello da addestrare. In secondo luogo, dipende da quanto è grande il volume di dati. Infine, c'è il costo dell'etichettatura dei dati.

Se desideri addestrare un modello 70b da zero, potresti aver bisogno di 30 milioni di risorse cloud elastiche. Se desideri addestrare un modello con un numero maggiore di parametri, il costo potrebbe essere di centinaia di milioni. Questo dovrebbe essere addestrato da persone esperte. Se sei inesperto e fai alcune deviazioni nel processo, il costo sarà più alto.

9. Con un costo così elevato, come può un’azienda determinare se ha bisogno di costruire un modello di settore?

Xin Zhou: Non consigliamo ai clienti di creare fin dall'inizio un modello di base del settore, indipendentemente dal profitto. Il costo deve essere molto elevato indipendentemente dai vantaggi. Aiuteremo i clienti ad analizzare prima le loro esigenze.

Ad esempio, se si disegna un sistema di coordinate, l'ascissa rappresenta la sensibilità dell'attività e l'ordinata è la domanda di dati di settore. La cosiddetta sensibilità del compito si riferisce al fatto che lo scenario sia fortemente correlato all'industria e al business. Ad esempio, in campo medico, queste sono questioni piuttosto professionali. L’asse verticale rappresenta la domanda di dati del settore. Più il settore è chiuso e meno dati ci sono sulla rete pubblica, maggiore è la necessità di pre-formazione. Ad esempio, in campo medico, alcune informazioni di cartelle cliniche desensibilizzate devono essere pre-addestrate nel modello.

Attraverso l'analisi, in questo asse di coordinate, l'angolo in basso a sinistra non presenta caratteristiche del settore e non richiede dati di settore, quindi il modello generale può essere utilizzato direttamente, ma l'angolo in alto a destra è sensibile agli attributi aziendali di questo settore e richiede molto dei dati di settore. È giunto il momento di costruire un modello di settore.

Di solito consigliamo alle aziende di eseguire tre passaggi.

Il primo passo è la verifica del valore. Costruire in via preliminare un modello di infrastruttura software e hardware su larga scala e costruire un modello industriale preliminare su larga scala. In combinazione con l’applicazione di un’intelligenza artificiale generativa relativamente matura, i risultati possono essere visti rapidamente. Ad esempio, attraverso la versione leggera della piattaforma Qianfan di grandi dimensioni, vengono aggiunte applicazioni mature come il servizio clienti intelligente, la gestione della conoscenza aziendale e gli esseri umani digitali.

Il secondo passo è connettere profondamente le varie applicazioni aziendali. L'infrastruttura dei modelli di grandi dimensioni è stata ulteriormente migliorata e aggiornata alla Qianfan Large Model Ultimate Edition. Oltre alla formazione e all'ottimizzazione relative ai modelli di grandi dimensioni, include anche una piattaforma per la costruzione di applicazioni. Baidu e i suoi partner ecologici sono profondamente coinvolti nella formazione e nel funzionamento di modelli su larga scala all'interno dell'azienda, creando un'atmosfera tecnica, formando talenti rilevanti e lavorando con l'azienda per risolvere difficili problemi aziendali e apportare più valore all'azienda.

Il terzo passo è l’innovazione globale e la controllabilità indipendente. Le imprese hanno padroneggiato le tecnologie pertinenti per lo sviluppo di modelli e applicazioni di grandi dimensioni e dispongono anche di livelli di talento corrispondenti, che possono consentire uno sviluppo indipendente e controllabile e avviare un'innovazione globale. Baidu fungerà da supporto tecnico e consulente a lungo termine per assistere nello sviluppo e continuare a portare nuove tecnologie e soluzioni all'azienda.

10. Come giudichi il mercato dei modelli di grandi dimensioni nel prossimo anno?

Xin Zhou: Ho tre giudizi sull’andamento dello sviluppo nel prossimo anno:

Innanzitutto, la multimodalità diventerà un nuovo punto caldo nel mercato.

In secondo luogo, ci sarà una grande esplosione di applicazioni basate su modelli di grandi dimensioni e una direzione molto importante è Agent.. Se un modello di grandi dimensioni esegue solo le azioni prescritte di "input e output", limiterà notevolmente il suo valore. Dovrebbe essere più simile a un essere umano, in grado di utilizzare strumenti, collaborare tra loro, pianificare e pensare, riflettere e iterare. . Deve essere combinato con una varietà di componenti e plug-in per soddisfare le esigenze di scenari aziendali specifici, quindi Agent diventerà la chiave per la produzione di ciascun produttore di modelli in futuro.

In terzo luogo, ci saranno maggiori opportunità per le applicazioni aziendali, come knowledge base, servizio clienti, persone digitali, scrittura di codici ausiliari e altri scenari.Ad esempio, utilizzando modelli di grandi dimensioni per la scrittura del codice, Baidu ha un prodotto chiamato "Wenxin Quick Code", che è stato ampiamente utilizzato all'interno di Baidu. Il tasso di adozione può raggiungere il 46% e la percentuale di nuovo codice generato ha raggiunto il 30%. può aiutare le imprese a migliorare notevolmente l'efficienza dello sviluppo. Allo stesso tempo, emergeranno un gran numero di aziende impegnate nello sviluppo di applicazioni IA. Queste aziende potranno ridurre i costi di implementazione e copia delle applicazioni a un livello sufficientemente basso, purché l’efficienza operativa sia sufficientemente elevata.