Revealing DeepSeek: Äärimmäisempi tarina kiinalaisesta teknologisesta idealismista 36Kr exkluziivinen

Revealing DeepSeek: Äärimmäisempi tarina Kiinan teknologisesta idealismista 36 Kr Exclusive

2024-07-22

Teksti |. Yu Lili
Toimittaja Liu Jing

Kiinan seitsemästä suuresta mallistartupista DeepSeek on vähiten kuuluisa, mutta se voidaan aina muistaa odottamattomilla tavoilla.

Vuosi sitten tämä yllätys johtui siitä, että sen takana oleva määrällinen pääomasijoitusjätti Huan Fang oli ainoa yritys suurten valmistajien ulkopuolella, joka varasi 10 000 A100-sirua. Vuotta myöhemmin se johtui siitä, että se oli lähde hintasota Kiinan suurille malleille.

Toukokuussa, jota tekoäly pommitti jatkuvasti, DeepSeek tuli kuuluisaksi. Syynä on se, että he julkaisivat avoimen lähdekoodin mallin nimeltä DeepSeek V2, joka tarjoaa ennennäkemättömän kustannustehokkuuden: päättelykustannukset pienenevät vain yhteen juaniin miljoonaa tokenia kohti, mikä on noin seitsemäsosa Llama3 70B, GPT-4 One- Turbon seitsemäskymmenes.

Vaikka DeepSeek kutsuttiin nopeasti "AI-teollisuuden Pinduoduoksi", suuret valmistajat, kuten ByteDance, Tencent, Baidu ja Alibaba, eivät myöskään kestäneet sitä ja laskivat hintoja yksi toisensa jälkeen. Kiinan suuri mallihintasota on puhkeamassa.

Savu ja savu itse asiassa kätkee sen tosiasian, että toisin kuin monet suuryritykset, jotka polttavat rahaa tukiin, DeepSeek on kannattava.

Tämän takana on DeepSeekin kattava innovaatio malliarkkitehtuurissa. Se ehdottaa aivan uutta MLA:ta (Uusi mahdollinen huomiomekanismi sonneille). kustannusten vähentäminen.

Piilaaksossa DeepSeekia kutsutaan "salaperäiseksi voimaksi idästä". SemiAnalysisin pääanalyytikko uskoo, että DeepSeek V2 -paperi "voi olla tämän vuoden paras". Entinen OpenAI-työntekijä Andrew Carr kutsui paperia "täynnä hämmästyttävää viisautta" ja sovelsi sen koulutusasetuksia omaan malliinsa. Jack Clark, OpenAI:n entinen politiikan johtaja ja yksi Anthropicin perustajista, uskoo, että DeepSeek "työllistää ryhmän arvaamattomia velhoja" ja uskoo, että Kiinassa valmistetuista suurista malleista "tulee yhtä tärkeitä kuin droonit ja sähköautot, joita ei voida sivuuttaa". vahvuus."

Tämä on harvinainen tilanne AI-aaltossa, jossa Piilaakso pohjimmiltaan ohjaa tarinaa.Monet alan sisäpiiriläiset kertoivat meille,Tämä voimakas vastaus kumpuaa arkkitehtuuritason innovaatiosta, joka on harvinainen kotimaisten suurten malliyritysten ja jopa globaalien avoimen lähdekoodin peruskokoisten mallien yritys. Tekoälytutkija sanoi, että Attention-arkkitehtuuria on ehdotettu useiden vuosien ajan, mutta sitä ei ole lähes koskaan onnistuneesti muutettu, puhumattakaan laajamittaisesta todentamisesta. "Se on jopa ajatus, joka katkaistaan päätöksenteosta, koska useimmilla ihmisillä ei ole luottamusta."

Toisaalta kotimaiset suuret mallit ovat harvoin olleet aiemmin mukana innovaatioissa arkkitehtonisella tasolla, myös siksi, että harvat tekevät aloitteen tällaisen stereotypian murtamiseksi:Yhdysvallat on parempi teknologisessa innovaatiossa 0-1, kun taas Kiina on parempi sovellusinnovaatioissa 1-10. Lisäksi tällainen käytös on erittäin epätaloudellista - uuden sukupolven mallit valmistetaan luonnollisesti muutaman kuukauden sisällä, ja kiinalaisten yritysten tarvitsee vain seurata ja soveltaa sitä hyvin. Mallirakenteen uudistaminen tarkoittaa, että polkua ei ole seurattava, on koettava monia epäonnistumisia ja aika- ja talouskustannukset ovat valtavat.

DeepSeek on selvästi kapinallinen. Sen huudon keskellä, että suuret malliteknologiat väistämättä lähentyvät ja seuraavat älykkäämpää oikotietä, DeepSeek arvostaa "kiertoteillä" kertynyttä arvoa ja uskoo, että sovellusinnovaatioiden lisäksi Kiinan suuret malliyrittäjät voivat liittyä globaaliin teknologiseen innovaatioon. torrent.

Monet DeepSeekin valinnoista ovat ainutlaatuisia. Tällä hetkellä se on Kiinan seitsemästä suuresta mallistartupista ainoa, joka on luopunut "tarve ja halu" -reitistä ja keskittynyt tutkimukseen ja teknologiaan tekemättä C-sovelluksia joka ei ole täysin harkinnut kaupallistamista ja valinnut tiukasti On yrityksiä, jotka eivät ole edes keränneet pääomaa avoimen lähdekoodin kautta. Nämä tekevät sen usein unohdettua pokeripöydän ulkopuolelle, mutta toisaalta, käyttäjät levittävät sitä usein "hanaveden" tavoin.

Miten DeepSeek valmistetaan? Tätä tarkoitusta varten haastattelimme Liang Wenfengia, DeepSeekin perustajaa, joka esiintyy harvoin.

Tämä 80-luvun jälkeinen perustaja, joka on tutkinut teknologiaa kulissien takana Magic Square -aikakaudesta lähtien, jatkaa edelleen hillittyä tyyliään DeepSeek-aikakaudella, kuten kaikki tutkijat, hän "lukee papereita, kirjoittaa koodia ja osallistuu ryhmäkeskusteluihin". joka päivä.

Toisin kuin monet kvantitatiivisten rahastojen perustajat, joilla on kokemusta ulkomaisista hedge-rahastoista ja pääaineenaan fysiikka, matematiikka jne., Liang Wenfeng on aina ollut paikallinen tausta ja opiskellut tekoälyä Zhejiangin yliopiston elektroniikkatekniikan laitoksella varhaisvuosinaan. .

Monet alan sisäpiiriläiset ja DeepSeek-tutkijat kertoivat meille, että Liang Wenfeng on erittäin harvinainen henkilö nykyisellä Kiinan tekoälyteollisuudella, jolla "on sekä vahvat infra- ja mallitutkimusvalmiudet ja joka pystyy mobilisoimaan resursseja", "voi tehdä tarkkoja päätöksiä korkealta. , ja voiko Joku, joka on "yksityiskohtien etulinjan tutkijoita parempi", hänellä on "pelottava oppimiskyky", ja samalla hän "ei ole ollenkaan kuin pomo, vaan enemmän kuin nörtti".

Tämä on erityisen harvinainen haastattelu. Tämä tekninen idealisti tarjosi haastattelussa äänen, joka on erityisen heikko Kiinan tiede- ja teknologiapiireissä:Hän on yksi harvoista, joka asettaa "näkemyksen oikeasta ja väärästä" ennen "etujen näkemystä", muistuttaa meitä ajan hitaudesta ja ottaa "alkuperäisen innovaation" asialistalle.

Vuosi sitten, kun DeepSeek juuri päättyi, haastattelimme Liang Wenfengia ensimmäistä kertaa: "Crazy Magic Square: The Road to Large Models of an Invisible AI Giant".Jos sanot tuon lauseen tuolloin"Sinun täytyy olla hullun kunnianhimoinen, mutta myös hullun vilpitön."Se on edelleen kaunis iskulause, mutta vuotta myöhemmin siitä on tullut toimintaa.

Seuraava on osa keskustelua:

Miten hintasodan ensimmäinen laukaus alkoi?

"Undercurrent": DeepSeek V2 -mallin julkaisun jälkeen se laukaisi nopeasti verisen laajan mallin hintasodan. Jotkut ihmiset sanoivat, että olet monni alalla.

Liang Wenfeng: Meidän ei ollut tarkoitus olla monni, meistä tuli vain vahingossa sellainen.

"Undercurrent": Yllättääkö tämä tulos sinut?

Liang Wenfeng : Erittäin odottamaton. En odottanut, että hinta tekisi kaikista niin herkkiä. Teemme asiat omaan tahtiimme ja laskemme kustannushinnoittelun. Periaatteemme ei ole antaa rahaa tai tehdä suuria voittoja. Tämä hinta on myös hieman kustannusten yläpuolella oleva voitto.

"Undercurrent": Zhipu AI seurasi 5 päivää myöhemmin, jonka jälkeen Byte, Alibaba, Baidu, Tencent ja muut suuret yritykset.

Liang Wenfeng : Zhipu AI on lähtötason tuote, ja meidän kanssamme saman tason mallit ovat edelleen erittäin kalliita. Byte oli todella ensimmäinen, joka seurasi. Lippulaivamalli putosi samaan hintaan kuin meidän, mikä sai muut suuret valmistajat leikkaamaan hintojaan. Koska suurten valmistajien mallien kustannukset ovat paljon korkeammat kuin meillä, emme odottaneet, että joku menettäisi rahaa näin tehdessään, ja siitä tuli lopulta Internetin aikakauden rahaa polttava tuki.

"Undercurrent": Ulkopuolelta katsottuna hinnanalennukset näyttävät siltä, että ne yrittäisivät napata käyttäjiä, mikä on yleensä Internetin aikakauden hintasodan tilanne.

Liang Wenfeng : Käyttäjien kaappaaminen ei ole päätarkoituksemme. Toisaalta alennimme hintaa, koska tutkimme seuraavan sukupolven mallin rakennetta, ja kustannukset ovat laskeneet ensin. Toisaalta olemme myös sitä mieltä, että sekä API:n että tekoälyn pitäisi olla universaaleja ja edullisia kaikille.

"Undercurrent": Ennen tätä useimmat kiinalaiset yritykset kopioivat suoraan tämän sukupolven Llama-rakenteen. Miksi aloitit mallirakenteesta?

Liang Wenfeng : Jos tavoitteena on tehdä sovelluksia, niin Llama-rakenteen ja lyhyiden, litteiden ja nopeiden tuotteiden käyttö on myös järkevä valinta. Mutta määränpäämme on AGI, mikä tarkoittaa, että meidän on tutkittava uusia mallirakenteita saavuttaaksemme vahvemmat malliominaisuudet rajallisilla resursseilla. Tämä on yksi perustutkimuksista, joita tarvitaan laajempaan malliin. Mallin rakenteen lisäksi olemme tehneet myös paljon muuta tutkimusta, mukaan lukien tiedon jäsentäminen, mallin tekeminen ihmisen kaltaisemmaksi jne., jotka kaikki näkyvät julkaisemissamme malleissa. Lisäksi Llaman rakenteen arvioidaan olevan kaksi sukupolvea jäljessä ulkomaisista edistyneistä tasoista koulutustehokkuuden ja päättelykustannusten osalta.

"Undercurrent": Mistä tämä sukupolvien välinen kuilu pääasiassa tulee?

Liang Wenfeng : Ensinnäkin harjoittelun tehokkuudessa on aukko. Arvioimme, että mallin rakenne ja harjoitusdynamiikka voivat olla kaksinkertaiset parhaiden kotimaisten ja ulkomaisten mallien välillä. Lisäksi tiedon tehokkuudessa voi olla kaksinkertainen ero, mikä tarkoittaa, että meidän on kulutettava kaksi kertaa enemmän harjoitusdataa ja laskentatehoa saavuttaaksemme saman vaikutuksen. Kaiken kaikkiaan se kuluttaa 4 kertaa enemmän laskentatehoa. Meidän on vain kavennettava näitä aukkoja.

"Undercurrent": Useimmat kiinalaiset yritykset valitsevat sekä mallit että sovellukset. Miksi DeepSeek tekee tällä hetkellä vain tutkimusta?

Liang Wenfeng : Koska mielestämme nyt tärkeintä on osallistua globaaliin innovaatioaaltoon. Viime vuosien aikana kiinalaiset yritykset ovat tottuneet siihen, että muut tekevät teknisiä innovaatioita, ja käytämme niitä sovellusten rahallistamiseen, mutta tämä ei ole itsestäänselvyys. Tässä aallossa lähtökohtamme ei ole hyödyntää mahdollisuutta ansaita omaisuuksia, vaan mennä teknologian eturintamaan edistämään koko ekosysteemin kehitystä.

"Undercurrent": Useimmille ihmisille Internetin ja langattoman Internetin aikakaudella jätetty inertiakäsitys on, että Yhdysvallat on hyvä teknologisissa innovaatioissa, kun taas Kiina on parempi sovelluksissa.

Liang Wenfeng: Uskomme, että taloudellisen kehityksen myötäKiinan on myös vähitellen tultava lahjoittajaksi sen sijaan, että se olisi aina vapaamatkustaja.Noin kolmenkymmenen viime vuoden IT-aallon aikana emme ole periaatteessa osallistuneet todellisiin teknologisiin innovaatioihin. Olemme tottuneet siihen, että Mooren laki putoaa taivaalta, ja parempia laitteistoja ja ohjelmistoja tulee ulos jo 18 kuukauden kuluttua kotona. Skaalauslakia käsitellään myös tällä tavalla.

Mutta itse asiassa tämä on jotain, mitä lännen hallitsema teknologiayhteisö on työskennellyt väsymättä luodakseen sukupolvien ajan, vain koska emme osallistuneet tähän prosessiin aiemmin, joten jätimme huomiotta sen olemassaolon.

Todellinen ero ei ole yksi tai kaksi vuotta, vaan ero omaperäisyyden ja jäljitelmän välillä

"Undercurrent": Miksi DeepSeek V2 yllättäisi monet ihmiset Piilaaksossa?

Liang Wenfeng : Yhdysvalloissa joka päivä esiintyvien innovaatioiden joukossa tämä on hyvin yleinen.Syy miksi he olivat yllättyneitä oli se, että tämä oli kiinalainen yritysLiity heidän peliinsä innovatiivisena avustajana.Loppujen lopuksi useimmat kiinalaiset yritykset ovat tottuneet seuraamaan innovoinnin sijaan.

"Undercurrent": Mutta Kiinan kontekstissa tämä valinta on liian ylellinen. Suuri malli on raskas investointipeli, eikä kaikilla yrityksillä ole pääomaa vain tutkia innovaatioita harkitsematta ensin kaupallistamista.

Liang Wenfeng : Innovaatiokustannukset eivät todellakaan ole alhaiset, ja menneisyyden omaksuttamisen inertia liittyy myös menneisiin kansallisiin oloihin. Mutta nyt, katsotpa Kiinan taloudellista kokoa tai suurten yritysten, kuten Byten ja Tencentin, voittoja, ne eivät ole maailman alhaisia. Innovaatiossa meiltä puuttuu todellakaan pääoma, vaan itseluottamuksen puute ja kyvyttömyys organisoida tiheitä kykyjä tehokkaan innovaation saavuttamiseksi.

"Undercurrent": Miksi kiinalaiset yritykset, mukaan lukien suuret yritykset, joilla ei ole rahapulaa, pitävät niin helposti nopeaa kaupallistamista ensisijaisena prioriteettina?

Liang Wenfeng : Viimeisen kolmenkymmenen vuoden aikana olemme vain korostaneet rahan ansaitsemista ja jättäneet huomiotta innovaatiot. Innovaatiot eivät johdu kokonaan liiketoiminnasta, vaan se vaatii myös uteliaisuutta ja luovuutta. Meitä vain sitoo menneisyyden inertia, mutta se on myös vaihe.

"Undercurrent": Mutta loppujen lopuksi olet kaupallinen organisaatio, et julkista hyvinvointia edistävä tieteellinen tutkimuslaitos. Päätät innovoida ja jakaa sen avoimen lähdekoodin kautta. Toukokuun MLA-arkkitehtuurin kaltaiset innovaatiot kopioivat pian muut yritykset, eikö niin?

Liang Wenfeng:olla olemassa Häiritsevien teknologioiden edessä suljetun lähteen muodostama vallihauta on lyhytikäinen. Vaikka OpenAI on suljettu lähdekoodi, se ei voi estää muita ohittamasta sitä.Siksi talletamme tiimiin arvoa. Kollegamme kasvavat prosessissa, keräämme paljon osaamista ja muodostamme organisaation ja kulttuurin, joka pystyy innovoimaan, mikä on vallihautamme.

Itse asiassa avoimen lähdekoodin ja julkaisupaperit eivät menetä mitään. Tekniselle henkilökunnalle seuraaminen on suuri saavutuksen tunne. Itse asiassa avoin lähdekoodi muistuttaa enemmän kulttuurista kuin kaupallista käyttäytymistä. Antaminen on itse asiassa ylimääräinen kunnia. Näin toimivalla yrityksellä on myös kulttuurista vetovoimaa.

"Undercurrent": Mitä mieltä olet Zhu Xiaohun kaltaisista markkinauskoisista?

Liang Wenfeng: Zhu Xiaohu on itsepäinen, mutta hänen pelityylinsä sopii paremmin yrityksille, jotka tienaavat nopeasti.

"Undercurrent": Mutta kun on kyse suurista malleista, on vaikea muodostaa ehdotonta etua yksinkertaisesti johtamalla teknologiaa.

Liang Wenfeng：Näemme, että kiinalainen tekoäly ei voi aina olla seuraaja-asemassa. Sanomme usein, että Kiinan tekoälyn ja Yhdysvaltojen välillä on yksi tai kaksi vuotta, mutta todellinen ero on omaperäisyyden ja jäljitelmän välinen ero. Jos tämä ei muutu, Kiina on aina seuraaja, joten jotkin tutkimukset ovat väistämättömiä.

NVIDIAn johtajuus ei ole vain yhden yrityksen ponnisteluja, vaan koko länsimaisen teknologiayhteisön ja teollisuuden yhteisten ponnistelujen tulos. He näkevät seuraavan sukupolven teknologiatrendit ja heillä on etenemissuunnitelma. Tekoälyn kehittäminen Kiinassa edellyttää myös tällaista ekosysteemiä. Monet kotimaiset sirut eivät voi kehittyä tukien teknisten yhteisöjen ja vain toisen käden tiedon puutteen vuoksi. Siksi Kiinalla on oltava joku teknologian eturintamassa.

Investointien lisääminen ei välttämättä johda innovaatioiden lisäämiseen

"Undercurrent": Nykyisessä DeepSeekissä on eräänlainen idealistinen luonne OpenAI:n alkuajoilta, ja se on myös avointa lähdekoodia. Valitsetko suljetun lähdekoodin tulevaisuudessa? Sekä OpenAI että Mistral ovat käyneet läpi siirtymisprosessin avoimesta lähdekoodista suljettuun lähdekoodiin.

Liang Wenfeng : Emme sulje lähdettä. Uskomme, että on tärkeämpää saada ensin vahva tekninen ekosysteemi.

"Undercurrent": Onko sinulla rahoitussuunnitelma? Tiedotusvälineiden mukaan Huanfangilla on suunnitelmia irrottaa itsensä ja listata DeepSeek-aloitusyritykset Piilaaksossa väistämättä lopulta suuriin valmistajiin.

Liang Wenfeng: Ei ole olemassa rahoitussuunnitelmaa lyhyellä aikavälillä Ongelmana, jota kohtaamme, ei ole koskaan ollut raha, vaan huippuluokan pelimerkkien vientikielto.

"Undercurrent": Monet ihmiset uskovat, että AGI:n tekeminen ja kvantifiointi ovat kaksi täysin eri asiaa, mutta AGI voi vaatia enemmän korkean tason ponnisteluja ja liittoutumia, mikä voi lisätä investointejasi.

Liang Wenfeng : Investointien lisääminen ei välttämättä tuota lisää innovaatioita. Muuten suuret valmistajat voivat ottaa kaikki innovaatiot haltuunsa.

"Undercurrent": Et tee hakemuksia nyt, johtuuko siitä, ettei sinulla ole geenejä toimia?

Liang Wenfeng : Uskomme, että nykyinen vaihe on teknologisen innovaation räjähdyskausi, ei sovellusten räjähdyskausi. Pitkällä tähtäimellä toivomme muodostavamme ekosysteemin, jossa toimiala käyttää suoraan meidän teknologiaamme ja tuotoksiamme. Vastaamme vain perusmalleista ja huippuinnovaatioista, ja sitten muut yritykset rakentavat toB- ja toC-liiketoimintaa DeepSeekin pohjalta. Jos pystymme muodostamaan täydellisen alku- ja loppupään teollisuuden, meidän ei tarvitse tehdä sovelluksia itse. Tarvittaessa meillä ei tietenkään ole estettä soveltaa sitä, mutta tutkimus ja teknologiset innovaatiot ovat aina etusijalla.

"Undercurrent": Mutta kun on valittava API, miksi valita DeepSeek suurten valmistajien sijaan?

Liang Wenfeng: Tulevaisuuden maailma on todennäköisesti erikoistunutta työnjakoa. Suuret perusmallit vaativat jatkuvaa innovaatiota, eivätkä ne välttämättä ole sopivia.

"Undercurrent": Mutta voiko tekniikka todella laajentaa kuilua Sanoit myös, ettei ole olemassa ehdotonta teknistä salaisuutta?

Liang Wenfeng : Tekniikassa ei ole salaisuutta, mutta nollaus vie aikaa ja kustannuksia. Teoriassa NVIDIAn näytönohjainkorteilla ei ole teknisiä salaisuuksia ja niitä on helppo kopioida, mutta tiimin uudelleen organisointi ja seuraavan sukupolven teknologian kurominen vie aikaa, joten varsinainen vallihauta on edelleen hyvin leveä.

"Undercurrent": Kun laskit hintaa, Byte seurasi ensin, mikä osoittaa, että he tuntevat edelleen jonkinlaista uhkaa. Mitä mieltä olet uudesta ratkaisusta startup-yrityksille kilpailla suurten yritysten kanssa?

Liang Wenfeng : Ollakseni rehellinen, emme välitä paljon tästä asiasta, teimme sen muuten. Pilvipalveluiden tarjoaminen ei ole päätavoitteemme. Tavoitteenamme on edelleen saavuttaa AGI.

En ole toistaiseksi nähnyt uusia ratkaisuja, mutta isoilla valmistajilla ei myöskään ole selkeää etua. Suurilla valmistajilla on valmiita käyttäjiä, mutta niiden kassavirta on myös taakka, jolloin ne ovat alttiina kumoukselle milloin tahansa.

"Undercurrent": Mitä mieltä olet kuuden suuren mallin startupin tuloksista DeepSeekin lisäksi?

Liang Wenfeng : Ehkä 2 tai 3 perhettä selviää. Olemme vielä rahanpolttovaiheessa, joten selkeän itseasemoinnin ja toiminnan hienostuneemmalla omaavilla on paremmat mahdollisuudet selviytyä. Muita yrityksiä voidaan keksiä uudelleen. Arvokkaat asiat eivät katoa, mutta ne muuttuvat.

"Undercurrent": Taikaneliön aikakaudella asenne kilpailun edessä arvioitiin "oman tien menoksi" ja harvoin horisontaalisiin vertailuihin kiinnittämistä. Mitä tulee kilpailuun, mikä on ajatuksesi lähtökohta?

Liang Wenfeng : Usein mietin sitä, voiko asia tehostaa yhteiskuntaa ja löytyykö sen teollisesta työnjakoketjusta sellaisen aseman, jossa olet siinä hyvä. Niin kauan kuin lopputuloksena on tehostaa yhteiskuntaa, se on voimassa. Välissä on monia vaiheita, ja liiallinen huomio saa sinut väistämättä huimautumaan.

Ryhmä nuoria, jotka tekevät "käsittämättömiä" asioita

"Undercurrent": Jack Clark, OpenAI:n entinen politiikkajohtaja ja Anthropicin perustaja, uskoo, että DeepSeek palkkasi "ryhmän arvaamattomia velhoja". Millaisia ihmisiä DeepSeek v2 teki?

Liang Wenfeng: Ei ole olemassa salaperäisiä neroja. He ovat kaikki vastavalmistuneita huippuyliopistoista, tohtoriksi 4 ja 5 valmistuneita harjoittelijoita ja joitain nuoria, jotka ovat valmistuneet vasta muutama vuosi sitten.

"Undercurrent": Monet suuret malliyritykset ovat sinnikkäästi salametsästämässä ihmisiä ulkomailla. Monet ihmiset ajattelevat, että tämän alan 50 parasta osaamista ei ehkä ole kiinalaisissa yrityksissä.

Liang Wenfeng : V2-mallissa ei ole ihmisiä, jotka ovat palanneet ulkomailta, he ovat kaikki paikallisia. 50 parasta lahjakkuutta eivät ehkä ole Kiinassa, mutta ehkä voimme rakentaa sellaisia ihmisiä itse.

"Undercurrent": Miten tämä MLA-innovaatio tapahtui? Kuulin, että idea syntyi ensin nuoren tutkijan henkilökohtaisesta kiinnostuksesta?

Liang Wenfeng : Tehtyään yhteenvedon joistakin valtavirran muutoksista Attention-arkkitehtuurissa, hän yhtäkkiä halusi suunnitella vaihtoehdon. Prosessi ideasta toteutukseen on kuitenkin pitkä. Perustimme joukkueen tätä varten, ja meillä kesti useita kuukausia sen läpiviemiseen.

"Undercurrent": Tämän erilaisen inspiraation synty liittyy läheisesti täysin innovatiivisen organisaatiosi rakenteeseen. Magic Squaren aikakaudella määrität harvoin tavoitteita tai tehtäviä ylhäältä alas. Mutta vaatiiko AGI, rajatutkimus täynnä epävarmuutta, lisää hallintatoimia?

Liang Wenfeng : DeepSeek on myös alhaalta ylöspäin. Lisäksi emme yleensä ennakoi työnjakoa, vaan luonnollista työnjakoa. Jokaisella on oma ainutlaatuinen kasvukokemuksensa ja mukana tulee omat ideansa, joten niitä ei tarvitse pakottaa. Tutkimusprosessin aikana, kun hän kohtaa ongelmia, hän kutsuu muita keskustelemaan niistä. Mutta kun idea näyttää potentiaalia, jaamme resurssit ylhäältä alas.

"Undercurrent": Kuulin, että DeepSeek on erittäin joustava korttien ja ihmisten mobilisoinnissa.

Liang Wenfeng : Jokaisella meistä ei ole ylärajaa korttien ja ihmisten siirrolle. Jos sinulla on idea, jokainen voi soittaa koulutusklusterin kortille milloin tahansa ilman lupaa. Samaan aikaan hierarkioiden ja poikkiosastojen puuttuessa kaikille voidaan soittaa joustavasti, kunhan myös toinen osapuoli on kiinnostunut.

"Alivirta": Löysä hallintamenetelmä riippuu myös siitä, että valitset ryhmän ihmisiä, joita ohjaa vahva rakkaus. Kuulin, että olet erittäin hyvä rekrytoimaan ihmisiä yksityiskohtien perusteella ja osaat valita erinomaisia ihmisiä ei-perinteisten arviointiindikaattoreiden perusteella.

Liang Wenfeng : Ihmisten valintakriteerimme ovat aina olleet rakkaus ja uteliaisuus, joten monet ihmiset kokevat ainutlaatuisia kokemuksia, mikä on erittäin mielenkiintoista. Monet ihmiset haluavat tehdä tutkimusta paljon enemmän kuin välittävät rahasta.

"Undercurrent": Transformer syntyi Googlen tekoälylaboratoriossa ja ChatGPT syntyi OpenAI:ssa. Mikä ero on mielestäsi suuren yrityksen AILabin ja startup-yrityksen välillä?

Liang Wenfeng : Olipa kyseessä Google Labs, OpenAI tai jopa suurten kiinalaisten yritysten tekoälylaboratoriot, ne ovat kaikki arvokkaita. Lopulta OpenAI selvisi, ja se oli myös historiallinen onnettomuus.

"Undercurrent": Onko innovaatio suurelta osin sattumaa? Näen, että toimistotilasi keskellä olevassa kokoustilarivissä on vasemmalla ja oikealla ovet, jotka voidaan työntää auki halutessaan. Kolleganne sanoivat, että tämä on jättää tilaa sattumukselle. Transformerin syntyvaiheessa oli tarina, jossa sattumalta kulkevat ihmiset kuulivat siitä ja liittyivät mukaan ja muuttivat siitä lopulta universaalin kehyksen.

Liang Wenfeng : Mielestäni innovaatio on ennen kaikkea uskon asia. Miksi Piilaakso on niin innovatiivinen? Ensimmäinen on uskaltaa. Kun Chatgpt ilmestyi, koko maasta puuttui luottamus huippuinnovaatioihin Sijoittajista suuriin valmistajiin, että ero oli liian suuri, joten heidän pitäisi vain tehdä hakemuksia. Mutta innovaatio vaatii ensin luottamusta. Tämä luottamus on yleensä selvempi nuoremmilla ihmisillä.

"Undercurrent": Mutta sinä et osallistu rahoitukseen, puhut harvoin ulkomaailmalle, ja sosiaalinen äänesi ei todellakaan ole yhtä hyvä kuin rahoituksessa aktiivisesti toimivat yritykset. Kuinka voit varmistaa, että DeepSeek on ykkösvalinta? ihmiset, jotka haluavat rakentaa suuria malleja?

Liang Wenfeng: Koska teemme vaikeimman asian.Huippulahjakkuuksia houkuttelee ehdottomasti maailman vaikeimpien ongelmien ratkaiseminen. Itse asiassa huippukykyjä aliarvioidaan Kiinassa. Koska kovia innovaatioita on liian vähän koko yhteiskunnallisella tasolla, niitä ei ole mahdollista tunnistaa. Teemme kaikkein vaikeinta, mikä on heille houkuttelevaa.

"Undercurrent": OpenAI:n julkaisu jonkin aikaa sitten ei odottanut GPT5:tä. Monet ihmiset ajattelevat, että teknologia on selvästi hidastunut, ja monet ihmiset ovat alkaneet kyseenalaistaa skaalauslakia.

Liang Wenfeng : Olemme optimistisia ja koko toimiala näyttää olevan odotusten mukainen. OpenAI ei ole jumala, eikä se voi aina olla eturintamassa.

"Undercurrent": Kuinka kauan arvelet AGI:n toteuttamisen ennen DeepSeek V2:n julkaisua, julkaisit koodin luomisen ja matemaattiset mallit ja vaihdoit myös tiheistä malleista MOE:hen.

Liang Wenfeng : Se voi olla 2 vuotta, 5 vuotta tai 10 vuotta Lyhyesti sanottuna, se toteutuu meidän elinaikanamme. Mitä tulee tiekarttaan, ei edes yhtiössämme ole yksimielisyyttä. Mutta teimme vetoa kolmeen suuntaan. Toinen on matematiikka ja koodi, toinen on multimodaalisuus ja kolmas on luonnollinen kieli itse. Matematiikka ja koodi ovat AGI:n luonnollinen testauskenttä. Se on vähän kuin Go. Se on suljettu ja todennettavissa oleva järjestelmä, ja itseoppimisen avulla on mahdollista saavuttaa korkea älykkyys. Toisaalta multimodaalinen oppiminen, jossa ihmiset ovat mukana todellisessa maailmassa, voi myös olla tarpeen AGI:lle. Olemme avoimia kaikille mahdollisuuksille.

"Undercurrent": Millainen luulet suuren mallin lopun olevan?

Liang Wenfeng : Tulee perusmalleja ja peruspalveluita tarjoavia erikoisyrityksiä ja tulee pitkä ammattimainen työnjakoketju. Yhä useammat ihmiset voivat vastata koko yhteiskunnan erilaisiin tarpeisiin.

Kaikki rutiinit ovat edellisen sukupolven tuotteita

"Undercurrent": Kiinan suuressa malliyrittäjyydessä on tapahtunut viimeisen vuoden aikana monia muutoksia. Esimerkiksi viime vuoden alussa toiminut Wang Huiwen vetäytyi yrityksestä puolivälissä ja yhtiöt, joihin hän liittyi myöhemmin. alkoi näyttää erilaisuutta.

Liang Wenfeng : Wang Huiwen otti kaikki tappiot itse ja antoi muiden paeta vahingoittumattomina. Hän teki valinnan, joka oli haitallisin itselleen, mutta paras kaikille, joten hän on erittäin ystävällinen henkilö, jota ihailen suuresti.

"Undercurrent": Mihin keskität suurimman osan energiastasi nyt?

Liang Wenfeng : Pääpaino on seuraavan sukupolven suurten mallien tutkimisessa. Vastaamattomia kysymyksiä on vielä paljon.

"Undercurrent": Useat muut suuret startupit vaativat, että teknologia ei tuo pysyvää johtajuutta koska mallin kyky ei riitä?

Liang Wenfeng : Kaikki rutiinit ovat edellisen sukupolven tuotteita eivätkä välttämättä pidä paikkaansa tulevaisuudessa. Käytä Internetin liiketoimintalogiikkaa keskustelemaan tekoälyn tulevasta voittomallista, aivan kuten kun Ma Huateng aloitti liiketoimintansa, keskustelitte General Electricistä ja Coca-Colasta. Se on luultavasti eräänlaista veneen veistämistä miekan etsimiseksi.

"Undercurrent": Aiemmin Huanfangilla oli vahvat teknologia- ja innovaatiogeenit, ja sen kasvu oli suhteellisen tasaista. Siksikö olet optimistinen?

Liang Wenfeng : Magic Square on jossain määrin lisännyt luottamustamme teknologiavetoisiin innovaatioihin, mutta se ei ole aina sujuvaa. Olemme käyneet läpi pitkän kasautumisprosessin. Ulkopuolelta näemme Magic Squaren osan vuoden 2015 jälkeen, mutta itse asiassa olemme tehneet sitä 16 vuotta.

"Undercurrent": Takaisin alkuperäisen innovaation aiheeseen. Nyt kun talous on siirtynyt taantumaan ja pääoma kylmään kierteeseen, tuoko se lisää rajoitteita alkuperäiselle innovaatiolle?

Liang Wenfeng : En usko. Kiinan teollisuusrakenteen sopeuttaminen tulee olemaan enemmän riippuvainen innovatiivisuudesta kovien teknologioiden alalla. Kun monet ihmiset huomaavat, että nopean rahan ansaitseminen aiemmin johtui todennäköisesti ajan tuurista, he ovat halukkaampia tukeutumaan ja tekemään todellisia innovaatioita.

"Undercurrent": Oletko siis myös optimistinen tämän asian suhteen?

Liang Wenfeng : Vartuin viidennen tason kaupungissa Guangdongissa 1980-luvulla. Isäni on peruskoulun opettaja. 1990-luvulla oli monia mahdollisuuksia tehdä rahaa. Mutta nyt taaksepäin katsoessani ajatukseni ovat muuttuneet. Koska on vaikea ansaita rahaa, minulla ei ehkä ole edes mahdollisuutta ajaa taksia. Se muuttuu yhdessä sukupolvessa.

Tulevaisuudessa tulee yhä enemmän kovia innovaatioita. Sitä ei ehkä ole helppo ymmärtää nyt, koska koko yhteiskuntaryhmää on koulutettava tosiseikoista. Kun tämä yhteiskunta sallii kovien innovatiivisten ihmisten menestyä, ryhmäajattelu muuttuu.Tarvitsemme vain joukon faktoja ja prosessia.

uutiset

Revealing DeepSeek: Äärimmäisempi tarina Kiinan teknologisesta idealismista 36 Kr Exclusive

Johdanto

yhteystietoni