notizia

Rivelare DeepSeek: una storia più estrema dell'idealismo tecnologico cinese |

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Testo |.Yu Lili
Editore |. Liu Jing

Tra le sette grandi startup modello in Cina, DeepSeek è la meno famosa, ma può sempre essere ricordata in modi inaspettati.

Un anno fa, questa sorpresa è derivata dal fatto che il colosso quantitativo del private equity Huan Fang era l'unica azienda al di fuori dei grandi produttori a riservare 10.000 chip A100. Un anno dopo, è derivata dal fatto che era la fonte del guerra dei prezzi per i grandi modelli cinesi.

Nel mese di maggio, continuamente bombardato dall’intelligenza artificiale, DeepSeek è diventato famoso. Il motivo è che hanno rilasciato un modello open source chiamato DeepSeek V2, che offre un rapporto costo-efficacia senza precedenti: il costo di inferenza è ridotto a solo 1 yuan per milione di token, che è circa un settimo di Llama3 70B, GPT-4 One- settantesimo di Turbo.

Mentre DeepSeek è stato rapidamente soprannominato il "Pinduoduo dell'industria dell'intelligenza artificiale", anche i principali produttori come ByteDance, Tencent, Baidu e Alibaba non hanno potuto sopportarlo e hanno tagliato i prezzi uno dopo l'altro. La grande guerra dei prezzi in Cina sta per scoppiare.

Il fumo nasconde in realtà il fatto che, a differenza di molte grandi aziende che bruciano soldi per i sussidi, DeepSeek è redditizio.

Dietro questo c'è l'innovazione a tutto tondo di DeepSeek nell'architettura dei modelli. Propone un nuovissimo MLA (Un nuovo potenziale meccanismo di attenzione per i tori), riducendo l'utilizzo della memoria al 5%-13% rispetto all'architettura MHA più comunemente utilizzata in passato. Allo stesso tempo, la sua struttura originale DeepSeekMoESparse riduce all'estremo anche la quantità di calcoli, che in definitiva contribuiscono all'architettura. riduzione dei costi.

Nella Silicon Valley, DeepSeek è chiamato "il misterioso potere dell'Est". L'analista capo di SemiAnalysis ritiene che lo studio DeepSeek V2 "potrebbe essere il migliore di quest'anno". L'ex dipendente di OpenAI Andrew Carr ha definito il documento "pieno di straordinaria saggezza" e ha applicato le sue impostazioni di formazione al suo modello. Jack Clark, ex direttore politico di OpenAI e co-fondatore di Anthropic, ritiene che DeepSeek "impiega un gruppo di maghi imprevedibili" e ritiene che i grandi modelli realizzati in Cina "diventeranno importanti quanto i droni e le auto elettriche che non possono essere ignorate". forza."

Questa è una situazione rara nell’ondata di intelligenza artificiale in cui la Silicon Valley è sostanzialmente al centro della storia.Molti addetti ai lavori del settore ci hanno detto:Questa forte risposta deriva dall'innovazione a livello architetturale, che è un raro tentativo da parte di grandi aziende di modelli nazionali e persino di grandi modelli di base open source globali. Un ricercatore di intelligenza artificiale ha affermato che l’architettura dell’attenzione è stata proposta per molti anni, ma non è stata quasi mai modificata con successo, per non parlare di una verifica su larga scala. "È addirittura un'idea che viene esclusa dal processo decisionale perché la maggior parte delle persone non ha fiducia in se stessa."

D’altra parte, i grandi modelli domestici sono stati raramente coinvolti in innovazioni a livello architettonico prima, anche perché poche persone prendono l’iniziativa per rompere un simile stereotipo:Gli Stati Uniti sono migliori nell’innovazione tecnologica con un punteggio da 0 a 1, mentre la Cina è migliore nell’innovazione applicativa con un punteggio di 1-10. Inoltre, questo tipo di comportamento è molto antieconomico: tra pochi mesi qualcuno produrrà naturalmente una nuova generazione di modelli e le aziende cinesi non dovranno far altro che seguirla e applicarla bene. Innovare la struttura del modello significa che non c’è alcuna strada da seguire, si devono sperimentare molti fallimenti e i tempi e i costi economici sono enormi.

DeepSeek è chiaramente un ribelle. In mezzo al clamore secondo cui le tecnologie dei grandi modelli inevitabilmente convergeranno e seguiranno una scorciatoia più intelligente, DeepSeek apprezza il valore accumulato nelle "deviazioni" e ritiene che oltre all'innovazione applicativa, i grandi imprenditori cinesi possano anche unirsi all'innovazione tecnologica globale. il torrente.

Molte delle scelte di DeepSeek sono uniche. Ad oggi, tra le 7 startup modello su larga scala in Cina, è l'unica che ha rinunciato alla strada del "bisogno e desiderio" e si è concentrata sulla ricerca e sulla tecnologia senza fare applicazioni toC che non ha considerato pienamente la commercializzazione e ha scelto con fermezza Ci sono aziende che non hanno nemmeno raccolto capitali sulla strada dell'open source. Ciò la rende spesso dimenticata al di fuori del tavolo da poker, ma d'altro canto viene spesso diffusa dagli utenti nella comunità come "l'acqua del rubinetto".

Come è fatto DeepSeek? A questo scopo abbiamo intervistato Liang Wenfeng, il fondatore di DeepSeek che appare raramente.

Questo fondatore post-anni '80, che ha studiato la tecnologia dietro le quinte sin dall'era del Magic Square, continua ancora il suo stile sobrio nell'era DeepSeek, come tutti i ricercatori, "legge articoli, scrive codici e partecipa a discussioni di gruppo". ogni giorno.

A differenza di molti fondatori di fondi quantitativi che hanno esperienza in hedge fund esteri e si sono per lo più laureati in fisica, matematica, ecc., Liang Wenfeng ha sempre avuto origini locali e nei suoi primi anni ha studiato intelligenza artificiale presso il Dipartimento di Ingegneria Elettronica dell'Università di Zhejiang. .

Molti addetti ai lavori e ricercatori di DeepSeek ci hanno detto che Liang Wenfeng è una persona molto rara nell'attuale settore cinese dell'intelligenza artificiale che "ha sia forti capacità di ingegneria infrastrutturale che capacità di ricerca di modelli e può mobilitare risorse", "può esprimere giudizi accurati da un posto elevato , e può Qualcuno che è "migliore dei ricercatori in prima linea nei dettagli", ha "capacità di apprendimento terrificanti" e, allo stesso tempo, "non è affatto come un capo, ma più come un geek".

Questa è un'intervista particolarmente rara. Nell’intervista, questo idealista tecnico ha fornito una voce particolarmente scarsa nei circoli scientifici e tecnologici cinesi:È una delle poche persone che antepone la "visione del giusto e dello sbagliato" alla "visione degli interessi", ci ricorda l'inerzia dei tempi e mette all'ordine del giorno "l'innovazione originale".

Un anno fa, quando DeepSeek era appena giunto al termine, abbiamo intervistato per la prima volta Liang Wenfeng: "Crazy Magic Square: The Road to Large Models of an Invisible AI Giant".Se dici quella frase in quel momento"Devi essere pazzesco ambizioso, ma anche pazzesco sincero."È ancora uno slogan bellissimo, ma un anno dopo è diventato un'azione.

Quanto segue è parte della conversazione:

Come è iniziato il primo colpo della guerra dei prezzi?

"Undercurrent": dopo il rilascio del modello DeepSeek V2, si è rapidamente innescata una sanguinosa guerra dei prezzi dei modelli su larga scala. Alcune persone hanno detto che sei un pesce gatto nel settore.

Liang Wenfeng: Non volevamo essere un pesce gatto, lo siamo diventati per caso.

"Undercurrent": questo risultato ti sorprende?

Liang Wenfeng : Molto inaspettato. Non mi aspettavo che il prezzo rendesse tutti così sensibili. Facciamo semplicemente le cose secondo i nostri ritmi e calcoliamo i prezzi di costo. Il nostro principio è non dare soldi o realizzare enormi profitti. Questo prezzo è anche un leggero profitto superiore al costo.

"Undercurrent": Zhipu AI è seguita 5 giorni dopo, seguita da Byte, Alibaba, Baidu, Tencent e altre grandi aziende.

Liang Wenfeng : Zhipu AI è un prodotto entry-level e i modelli dello stesso livello dei nostri sono ancora molto costosi. Byte è stato davvero il primo a seguirlo. Il modello di punta è sceso allo stesso prezzo del nostro, cosa che ha poi spinto altri importanti produttori a ridurre i prezzi. Dato che il costo dei modelli dei grandi produttori è molto più alto del nostro, non ci aspettavamo che qualcuno ci perdesse dei soldi, e alla fine è diventata la logica dei sussidi che bruciano denaro nell’era di Internet.

"Undercurrent": Dall'esterno sembra che i tagli dei prezzi stiano cercando di accaparrarsi gli utenti, come di solito accade nelle guerre dei prezzi nell'era di Internet.

Liang Wenfeng : Catturare gli utenti non è il nostro scopo principale. Da un lato, abbiamo abbassato il prezzo perché stiamo esplorando la struttura del modello di prossima generazione e, dall’altro, riteniamo che sia l’API che l’intelligenza artificiale dovrebbero essere universali e alla portata di tutti.

"Undercurrent": prima di questo, la maggior parte delle aziende cinesi copiava direttamente questa generazione di struttura Llama per l'applicazione. Perché sei partito dalla struttura del modello?

Liang Wenfeng : Se l'obiettivo è realizzare applicazioni, anche l'utilizzo della struttura Llama e di prodotti corti, piatti e veloci è una scelta ragionevole. Ma la nostra destinazione è l’AGI, il che significa che dobbiamo studiare nuove strutture di modello per ottenere capacità di modello più forti con risorse limitate. Questo è uno degli studi di base necessari per passare a un modello più grande. Oltre alla struttura del modello, abbiamo svolto anche molte altre ricerche, tra cui come strutturare i dati, come rendere il modello più simile agli esseri umani, ecc., che si riflettono tutti nei modelli che abbiamo rilasciato. Inoltre, si stima che la struttura di Llama sia due generazioni indietro rispetto ai livelli avanzati stranieri in termini di efficienza della formazione e costi di inferenza.

"Undercurrent": da dove deriva principalmente questo divario generazionale?

Liang Wenfeng : Innanzitutto, esiste un divario nell’efficienza della formazione. Stimiamo che la struttura del modello e le dinamiche di formazione potrebbero essere due volte più diverse tra i migliori modelli nazionali e i migliori modelli stranieri. Solo per questo, dobbiamo consumare il doppio della potenza di calcolo per ottenere lo stesso effetto. Inoltre, potrebbe esserci un divario raddoppiato nell’efficienza dei dati, il che significa che dobbiamo consumare il doppio dei dati di addestramento e della potenza di calcolo per ottenere lo stesso effetto. Complessivamente consuma 4 volte più potenza di calcolo. Ciò che dobbiamo fare è continuare a ridurre questi divari.

"Undercurrent": la maggior parte delle aziende cinesi sceglie di avere sia modelli che applicazioni. Perché DeepSeek attualmente sceglie di fare solo ricerca ed esplorazione?

Liang Wenfeng : Perché riteniamo che la cosa più importante ora sia partecipare all'ondata di innovazione globale. Negli ultimi anni, le aziende cinesi sono state abituate a vedere altri realizzare innovazioni tecnologiche e noi le usiamo per monetizzare le applicazioni, ma questa non è una cosa ovvia. In quest’onda, il nostro punto di partenza non è sfruttare l’opportunità per fare fortuna, ma andare in prima linea nella tecnologia per promuovere lo sviluppo dell’intero ecosistema.

"Undercurrent": la percezione inerziale lasciata alla maggior parte delle persone nell'era di Internet e di Internet mobile è che gli Stati Uniti sono bravi nell'innovazione tecnologica, mentre la Cina è migliore nelle applicazioni.

Liang Wenfeng: Crediamo che con lo sviluppo economico,Anche la Cina deve diventare gradualmente un contribuente invece di essere sempre un free rider.Durante l’ondata IT degli ultimi trent’anni circa, sostanzialmente non abbiamo partecipato ad una vera innovazione tecnologica. Siamo abituati alla Legge di Moore che cade dal cielo e hardware e software migliori verranno fuori dopo soli 18 mesi in patria. Anche la legge di scala viene trattata in questo modo.

Ma in realtà, questo è qualcosa per cui la comunità tecnologica dominata dall’Occidente ha lavorato instancabilmente per generazioni, solo perché non abbiamo partecipato a questo processo prima, quindi ne abbiamo ignorato l’esistenza.

Il vero divario non è uno o due anni, ma la differenza tra originalità e imitazione

"Undercurrent": perché DeepSeek V2 dovrebbe sorprendere molte persone nella Silicon Valley?

Liang Wenfeng : Tra le tante innovazioni che si verificano ogni giorno negli Stati Uniti, questa è molto comune.Il motivo per cui erano sorpresi era che si trattava di un'azienda cineseUnisciti al loro gioco come collaboratore innovativo.Dopotutto, la maggior parte delle aziende cinesi è abituata a seguire piuttosto che a innovare.

"Undercurrent": Ma nel contesto cinese questa scelta è troppo stravagante. Il grande modello è un gioco di investimenti pesanti e non tutte le aziende hanno il capitale per ricercare solo l’innovazione senza prima considerare la commercializzazione.

Liang Wenfeng : Il costo dell’innovazione non è sicuramente basso, e la passata inerzia dell’appropriazionismo è legata anche alle condizioni nazionali del passato. Ma ora, sia che si guardi alle dimensioni economiche della Cina o ai profitti di grandi aziende come Byte e Tencent, non sono bassi nel mondo. Ciò che ci manca nell’innovazione non è sicuramente il capitale, ma la mancanza di fiducia e il non sapere come organizzare talenti ad alta densità per raggiungere un’innovazione efficace.

"Undercurrent": perché le aziende cinesi, comprese le grandi aziende che non sono a corto di soldi, considerano così facilmente la rapida commercializzazione come la prima priorità?

Liang Wenfeng : Negli ultimi trent’anni abbiamo solo enfatizzato il guadagno e ignorato l’innovazione. L’innovazione non è interamente guidata dal business, ma richiede anche curiosità e creatività. Siamo solo vincolati dall’inerzia del passato, ma è anche una fase.

"Undercurrent": Ma dopotutto sei un'organizzazione commerciale, non un istituto di ricerca scientifica per il benessere pubblico. Scegli di innovare e condividere attraverso l'open source. Dove dovresti formare un fossato? Innovazioni come l'architettura MLA di maggio saranno presto copiate da altre aziende, giusto?

Liang Wenfeng:esistere Di fronte alle tecnologie dirompenti, il fossato formato dal closed source è di breve durata. Anche se OpenAI è closed source, non può impedire che venga superato da altri.Pertanto, depositiamo valore nel team. I nostri colleghi crescono nel processo, accumulano molto know-how e formano un'organizzazione e una cultura in grado di innovare, che è il nostro fossato.

In effetti, nulla va perduto con l'open source e la pubblicazione di documenti. Per lo staff tecnico essere seguito è un grande senso di realizzazione. In effetti, l'open source è più simile a un comportamento culturale che a un comportamento commerciale. Dare è in realtà un onore in più. Un’azienda che fa questo avrà anche un appeal culturale.

"Undercurrent": cosa pensi dei credenti del mercato come Zhu Xiaohu?

Liang Wenfeng: Zhu Xiaohu è coerente con se stesso, ma il suo stile di gioco è più adatto alle aziende che guadagnano rapidamente. E se guardi alle aziende più redditizie negli Stati Uniti, sono tutte aziende high-tech con una profonda accumulazione.

"Undercurrent": Ma quando si tratta di modelli su larga scala, è difficile ottenere un vantaggio assoluto semplicemente essendo leader nella tecnologia. Qual è la cosa più importante su cui scommetti?

Liang WenfengCiò che vediamo è che l’intelligenza artificiale cinese non può sempre essere nella posizione di seguire. Diciamo spesso che c’è un divario di uno o due anni tra l’intelligenza artificiale della Cina e degli Stati Uniti, ma il vero divario è la differenza tra originalità e imitazione. Se ciò non cambia, la Cina sarà sempre un follower, quindi alcune esplorazioni sono inevitabili.

La leadership di NVIDIA non è frutto solo degli sforzi di un'unica azienda, ma è il risultato degli sforzi congiunti dell'intera comunità tecnologica e dell'industria occidentale. Possono vedere la prossima generazione di tendenze tecnologiche e avere una tabella di marcia in mano. Anche lo sviluppo dell’intelligenza artificiale in Cina richiede un simile ecosistema. Molti chip nazionali non possono svilupparsi a causa della mancanza di comunità tecniche di supporto e solo di informazioni di seconda mano. Pertanto, la Cina deve avere qualcuno in prima linea nella tecnologia.

Maggiori investimenti non portano necessariamente a maggiore innovazione

"Undercurrent": l'attuale DeepSeek ha una sorta di temperamento idealistico fin dai primi giorni di OpenAI ed è anche open source. Sceglierai il closed source in futuro? Sia OpenAI che Mistral hanno attraversato il processo di passaggio dall'open source al closed source.

Liang Wenfeng : Non chiuderemo la fonte. Crediamo che sia più importante avere prima un forte ecosistema tecnico.

"Undercurrent": avete un piano di finanziamento? Secondo i resoconti dei media, Huanfang ha in programma di separarsi ed elencare DeepSeek in modo indipendente. Le startup AI nella Silicon Valley alla fine saranno inevitabilmente legate ai principali produttori.

Liang Wenfeng: Non esiste un piano di finanziamento a breve termine. Il problema che dobbiamo affrontare non è mai stato il denaro, ma l'embargo sui chip di fascia alta.

"Undercurrent": molte persone credono che fare l'AGI e fare la quantificazione siano due cose completamente diverse. La quantificazione può essere fatta in silenzio, ma l'AGI potrebbe richiedere sforzi e alleanze di più alto livello, che possono aumentare il tuo investimento.

Liang Wenfeng : Maggiori investimenti non producono necessariamente più innovazione. Altrimenti, i grandi produttori potrebbero farsi carico di tutte le innovazioni.

"Undercurrent": Adesso non fai domande, è perché non hai i geni per operare?

Liang Wenfeng : Crediamo che la fase attuale sia un periodo di esplosione dell'innovazione tecnologica, non un periodo di esplosione delle applicazioni. A lungo termine, speriamo di formare un ecosistema in cui l'industria utilizza direttamente la nostra tecnologia e i nostri risultati. Siamo responsabili solo dei modelli di base e delle innovazioni all'avanguardia, quindi altre aziende costruiscono attività toB e toC basate su DeepSeek. Se riusciamo a formare un’industria completa a monte e a valle, non avremo bisogno di creare noi stessi le applicazioni. Naturalmente, se necessario, non ci sono ostacoli alla sua applicazione, ma la ricerca e l’innovazione tecnologica saranno sempre la nostra prima priorità.

"Undercurrent": Ma quando si tratta di scegliere l'API, perché scegliere DeepSeek invece dei grandi produttori?

Liang Wenfeng: Il mondo futuro sarà probabilmente caratterizzato da una divisione specializzata del lavoro. I modelli di base su larga scala richiedono un’innovazione continua. I grandi produttori hanno i propri limiti di capacità e potrebbero non essere necessariamente adatti.

"Undercurrent": Ma la tecnologia può davvero ampliare il divario? Hai anche detto che non esiste un segreto tecnico assoluto?

Liang Wenfeng : Non esistono segreti nella tecnologia, ma il ripristino richiede tempo e costi. In teoria, le schede grafiche NVIDIA non hanno segreti tecnici e sono facili da copiare, ma ci vuole tempo per riorganizzare il team e mettersi al passo con la tecnologia di prossima generazione, quindi il fossato reale è ancora molto ampio.

"Undercurrent": Dopo che hai abbassato il prezzo, Byte ti ha seguito per primo, il che dimostra che sentono ancora una sorta di minaccia. Cosa ne pensi della nuova soluzione per consentire alle startup di competere con le grandi aziende?

Liang Wenfeng : Ad essere onesti, non ci interessa molto questa faccenda, lo abbiamo fatto e basta. Fornire servizi cloud non è il nostro obiettivo principale. Il nostro obiettivo resta quello di raggiungere l’AGI.

Finora non ho visto nuove soluzioni, ma neanche i grandi produttori hanno un chiaro vantaggio. I grandi produttori hanno utenti già pronti, ma anche il loro business in termini di flussi di cassa rappresenta un peso, rendendoli vulnerabili alla sovversione in qualsiasi momento.

"Undercurrent": cosa ne pensi del risultato delle sei startup di grandi dimensioni oltre a DeepSeek?

Liang Wenfeng : Forse sopravvivranno 2 o 3 famiglie. Siamo ancora nella fase di consumo di denaro, quindi coloro che hanno un chiaro posizionamento personale e operazioni più raffinate hanno maggiori possibilità di sopravvivere. Altre società potrebbero essere reinventate. Le cose di valore non scompariranno, ma cambieranno.

"Undercurrent": Nell'era del quadrato magico, l'atteggiamento di fronte alla concorrenza veniva valutato come "andare per la propria strada" e raramente prestando attenzione ai confronti orizzontali. Per quanto riguarda la concorrenza, qual è il punto di partenza del tuo pensiero?

Liang Wenfeng : Ciò a cui penso spesso è se una cosa può rendere la società più efficiente e se è possibile trovare una posizione in cui essere bravi nella divisione industriale della catena del lavoro. Finché il risultato finale è rendere la società più efficiente, è valido. Ci sono molte fasi intermedie e un'attenzione eccessiva ti farà inevitabilmente venire le vertigini.

Un gruppo di giovani che fanno cose "insondabili".

"Undercurrent": Jack Clark, ex direttore politico di OpenAI e co-fondatore di Anthropic, ritiene che DeepSeek abbia assunto "un gruppo di maghi imprevedibili". Che tipo di persone hanno creato DeepSeek v2?

Liang Wenfeng: Non ci sono geni misteriosi. Sono tutti neolaureati delle migliori università, stagisti con PhD 4 e 5 che non si sono laureati, e alcuni giovani che si sono laureati solo da pochi anni.

"Undercurrent": molte grandi aziende modello sono persistenti nel bracconare persone all'estero Molte persone pensano che i 50 migliori talenti in questo campo potrebbero non trovarsi nelle aziende cinesi.

Liang Wenfeng : Nel modello V2 non ci sono persone tornate dall'estero, sono tutte locali. Forse i 50 migliori talenti non si trovano in Cina, ma forse possiamo crearli noi stessi.

"Undercurrent": come è avvenuta questa innovazione MLA? Ho sentito che l'idea è nata inizialmente dall'interesse personale di un giovane ricercatore?

Liang Wenfeng : Dopo aver riassunto alcuni cambiamenti principali nell'architettura Attention, improvvisamente ha voluto progettare un'alternativa. Tuttavia, il processo dall’idea alla realizzazione è lungo. Abbiamo formato una squadra per questo e ci sono voluti diversi mesi per portarlo a termine.

"Undercurrent": La nascita di questa ispirazione divergente è strettamente legata alla struttura della vostra organizzazione del tutto innovativa. Nell'era del Quadrato Magico, raramente assegni obiettivi o compiti dall'alto verso il basso. Ma l’AGI, un’esplorazione di frontiera piena di incertezze, richiede più azioni di gestione?

Liang Wenfeng : Anche DeepSeek è tutto dal basso verso l'alto. Inoltre, generalmente non preponiamo la divisione del lavoro, ma la divisione naturale del lavoro. Ognuno ha la propria esperienza di crescita unica e arriva con le proprie idee, quindi non è necessario spingerle. Durante il processo di esplorazione, quando incontra problemi, inviterà gli altri a discuterne. Ma quando un’idea mostra potenziale, allocheremo le risorse dall’alto verso il basso.

"Undercurrent": ho sentito che DeepSeek è molto flessibile nel mobilitare carte e persone.

Liang Wenfeng : Ognuno di noi non ha alcun limite massimo al trasferimento di carte e persone. Se hai un'idea, tutti possono chiamare la scheda del cluster formativo in qualsiasi momento senza approvazione. Allo stesso tempo, poiché non esistono gerarchie e reparti incrociati, tutti possono essere chiamati in modo flessibile purché anche l'altra parte sia interessata.

"Undercurrent": un metodo di gestione rilassato dipende anche dalla selezione di un gruppo di persone guidate da un forte amore. Ho sentito che sei molto bravo a reclutare le persone in base ai dettagli e che sai selezionare alcune persone eccezionali sulla base di indicatori di valutazione non tradizionali.

Liang Wenfeng : I nostri criteri per selezionare le persone sono sempre stati l'amore e la curiosità, quindi molte persone vivranno esperienze uniche, il che è molto interessante. Molte persone desiderano fare ricerca molto più di quanto si preoccupino del denaro.

"Undercurrent": Transformer è nato nell'AI Lab di Google, e ChatGPT è nato in OpenAI. Quale pensi sia la differenza nel valore dell'innovazione tra l'AILab di una grande azienda e una startup?

Liang Wenfeng : Che si tratti di Google Labs, OpenAI o anche degli AI Labs delle principali aziende cinesi, sono tutti preziosi. Alla fine OpenAI ce l’ha fatta, e anche questo è stato un incidente storico.

"Undercurrent": l'innovazione è in gran parte un incidente? Vedo che la fila di sale conferenze al centro del tuo ufficio ha porte a sinistra e a destra che possono essere aperte a piacimento. I tuoi colleghi hanno detto che questo è per lasciare spazio al caso. Alla nascita di Transformer c'è stata una storia in cui persone che passavano per caso ne hanno sentito parlare e si sono unite, trasformandolo infine in un quadro universale.

Liang Wenfeng : Penso che l'innovazione sia prima di tutto una questione di fede. Perché la Silicon Valley è così innovativa? Il primo è osare. Quando è uscito Chatgpt, l’intero paese mancava di fiducia nell’innovazione all’avanguardia, dagli investitori ai grandi produttori, tutti pensavano che il divario fosse troppo grande, quindi avrebbero dovuto semplicemente presentare domanda. Ma l’innovazione richiede innanzitutto fiducia. Questa fiducia è solitamente più pronunciata nei giovani.

"Undercurrent": Ma non partecipi ai finanziamenti, raramente parli al mondo esterno e la tua voce sui social non è sicuramente buona come quella delle aziende attive nei finanziamenti. Come puoi garantire che DeepSeek sia la prima scelta persone che vogliono costruire modelli di grandi dimensioni?

Liang Wenfeng: Perché stiamo facendo la cosa più difficile.Ciò che attrae maggiormente i migliori talenti è sicuramente la risoluzione dei problemi più difficili del mondo. In Cina, infatti, i migliori talenti sono sottovalutati. Poiché le innovazioni fondamentali a livello sociale sono troppo poche, non hanno alcuna possibilità di essere identificate. Stiamo facendo la cosa più difficile, che li attrae.

"Undercurrent": Il rilascio di OpenAI qualche tempo fa non ha aspettato GPT5 Molte persone pensano che la curva tecnologica stia ovviamente rallentando e molte persone stanno iniziando a mettere in discussione la Legge di Scaling. Cosa ne pensi?

Liang Wenfeng : Siamo ottimisti e l'intero settore sembra essere in linea con le aspettative. OpenAI non è un dio e non può essere sempre all’avanguardia.

"Undercurrent": quanto tempo pensi che ci vorrà per realizzare l'AGI? Prima di rilasciare DeepSeek V2, hai rilasciato la generazione di codice e modelli matematici e sei anche passato da modelli densi a MOE. Quindi quali sono le coordinate della tua roadmap AGI?

Liang Wenfeng : Potrebbero essere 2 anni, 5 anni o 10 anni. In breve, si realizzerà nel corso della nostra vita. Per quanto riguarda la tabella di marcia, anche all’interno della nostra azienda non c’è consenso. Ma abbiamo scommesso in tre direzioni. Uno è la matematica e il codice, il secondo è la multimodalità e il terzo è il linguaggio naturale stesso. La matematica e il codice sono il banco di prova naturale per AGI. È un po' come Go. È un sistema chiuso e verificabile, ed è possibile raggiungere un'elevata intelligenza attraverso l'autoapprendimento. D’altra parte, per l’AGI potrebbe essere necessario anche l’apprendimento multimodale che coinvolga gli esseri umani nel mondo reale. Siamo aperti a tutte le possibilità.

"Undercurrent": Come pensi che sarà il finale del grande modello?

Liang Wenfeng : Ci saranno aziende specializzate che forniranno modelli e servizi di base, e ci sarà una lunga catena di divisione professionale del lavoro. Più persone possono soddisfare le diverse esigenze della società nel suo insieme.

Tutte le routine sono prodotti della generazione precedente

"Undercurrent": nell'ultimo anno ci sono stati molti cambiamenti nel grande modello imprenditoriale cinese. Ad esempio, Wang Huiwen, attivo all'inizio dello scorso anno, si è ritirato dall'azienda a medio termine e dalle aziende in cui è entrato a far parte successivamente. cominciò a mostrare differenziazione.

Liang Wenfeng : Wang Huiwen si è preso tutte le perdite e ha lasciato che gli altri scappassero incolumi. Ha fatto una scelta che è stata molto dannosa per se stesso ma migliore per tutti, quindi è una persona molto gentile, cosa che ammiro molto.

"Undercurrent": dove concentri la maggior parte delle tue energie adesso?

Liang Wenfeng : L'obiettivo principale è la ricerca sulla prossima generazione di modelli di grandi dimensioni. Ci sono ancora molte domande senza risposta.

"Undercurrent": molte altre grandi startup di modelli insistono per avere entrambi. Dopotutto, la tecnologia non porterà una leadership permanente. È anche importante cogliere la finestra temporale per inserire i vantaggi tecnici nei prodotti è perché la capacità del modello non è sufficiente?

Liang Wenfeng : Tutte le routine sono prodotti della generazione precedente e potrebbero non essere più valide in futuro. Usa la logica di business di Internet per discutere del futuro modello di profitto dell’intelligenza artificiale, proprio come quando Ma Huateng iniziò la sua attività, parlasti di General Electric e Coca-Cola. Probabilmente è una specie di intaglio di una barca per cercare una spada.

"Undercurrent": in passato, Huanfang aveva forti geni tecnologici e innovativi e la sua crescita è stata relativamente fluida. È per questo che sei ottimista?

Liang Wenfeng : Magic Square ha in una certa misura rafforzato la nostra fiducia nell’innovazione guidata dalla tecnologia, ma la strada non è sempre agevole. Abbiamo attraversato un lungo processo di accumulazione. Ciò che vediamo dall'esterno è la parte di Magic Square dopo il 2015, ma in realtà lo facciamo da 16 anni.

"Undercurrent": Ritorno al tema dell'innovazione originale. Ora che l’economia è entrata in una fase di recessione e il capitale è entrato in un ciclo freddo, ciò comporterà ulteriori vincoli all’innovazione originale?

Liang Wenfeng : Non credo. L’adeguamento della struttura industriale della Cina si baserà maggiormente sull’innovazione nelle tecnologie fondamentali. Quando molte persone scoprono che guadagnare velocemente in passato era probabilmente dovuto alla fortuna dei tempi, saranno più disposte ad appoggiarsi e fare vera innovazione.

"Undercurrent": Quindi anche tu sei ottimista riguardo a questo argomento?

Liang Wenfeng : Sono cresciuto in una città di quinta fascia nel Guangdong negli anni '80. Mio padre è un insegnante di scuola elementare. Negli anni '90 c'erano molte opportunità di fare soldi nel Guangdong. A quel tempo, molti genitori venivano a casa mia. La maggior parte di loro pensava che studiare fosse inutile. Ma guardando indietro adesso, le mie idee sono cambiate. Poiché è difficile fare soldi, potrei anche non avere la possibilità di guidare un taxi. Ciò cambia in una generazione.

In futuro ci saranno sempre più innovazioni fondamentali. Potrebbe non essere facile da capire adesso perché l’intero gruppo sociale ha bisogno di essere educato sui fatti. Quando questa società consentirà alle persone innovative e radicali di avere successo, il pensiero di gruppo cambierà.Abbiamo solo bisogno di un insieme di fatti e di un processo.