uutiset

Ensimmäinen tekoälytieteilijä on syntynyt! Hän on jo luonut itsenäisesti 10 akateemista paperia ja palkannut myös tekoälyarvostelijoita

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen House on peräisin Aofein temppelistä
Qubits |. Julkinen tili QbitAI

historiaEnsimmäinen "AI-tieteilijä", osoittautui!

Se luotiin yhdellä kertaa heti kun se ilmestyi.Kymmenen täydellistä akateemista paperia



Tekoälyn tuottama diffuusiomallipaperi

Tutkimusideoiden ehdottamisesta, uutuuden tarkistamisesta, kokeiden suunnittelusta, koodin kirjoittamisesta, kokeiden suorittamisesta GPU:lla ja tulosten keräämisestä ja lopulta paperin kirjoittamisesta kaikki tehdään yhdellä kertaa.

Tämä "AI-tieteilijä" tekee kaiken automaattisesti.

Paperin hinta on n.15 dollaria(noin 107,62 juania).



Tämä on ensimmäinenAutomaatio tieteellinen tutkimusja integroitu tekoälyjärjestelmä avoimeen etsintään,AI-tutkija

Llion Jonesin, yhden Transformerin kirjoittajista, käynnistämisestä:Sakana AI

ja!

Tämä yritys ei ole vain tekoälytutkijan luominen,Loimme myös ylimääräisen tekoälyarvostelijan

Arvostelijat voivat tarkastella tekoälyn kirjoittamia papereita ja antaa parannusehdotuksia.

Apua, tämä on matryoshka-kierros, jossa käytän keihääni kilpeni kimppuun!

Yhden leikkauksen jälkeen se on enemmän kuin ihmisen akateeminen piiri kuin ihmisen akateeminen piiri (ei)



Vielä yksi ja!

Olipa kyseessä tekoälytieteilijä tai tekoälyarvostelija, Sakana AI esittää neKaikki avoimen lähdekoodin.

Netizens taputti tämän katsottuaan;

Kiva Hieno, erittäin mielenkiintoinen työ!



Ja jotkut ovat jo alkaneet keksiä "huonoja ideoita".

On suositeltavaa lähettää yksi papereista AI Dinghuille!



Tekoäly suoritti itsenäisesti kymmenen koneoppimispaperia

Vuosikymmenien ajan jokaisen suuren tekoälyn edistymisen jälkeen tutkijat usein vitsailivat: "On aika pohtia, voisiko tekoäly auttaa meitä paperien kirjoittamisessa”。

Nyt idea on vihdoin siirtynyt vitsistä todellisuuteen.



Tarkemmin sanottuna tekoälytutkijat loivat kymmenen artikkelia ja valitsivat jokaisesta tutkimussuunnasta yhden korkeamman pistemäärän esitettäväksi.

Osa 1, Diffuusiomallin suunta, "Dual-Scale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Malls"

Adaptiivista kaksimittaista kohinanpoistomenetelmää ehdotetaan parantamaan ongelmaa, että olemassa olevilla diffuusiomalleilla on vaikea siepata samanaikaisesti globaalia rakennetta ja paikallisia yksityiskohtia pieniulotteisessa tilassa.



menetelmä:

  • Suunnittele kaksimittaista arkkitehtuuria, mukaan lukien globaalit ja paikalliset haarat
  • Esittelyssä opittava aika-askel ehdollinen painotusmekanismi
  • Molempien haarojen ulostulojen yhdistäminen ennusteiden vaimentamiseksi

Kokeilutulokset:

  • KL:n eroindikaattori laskee 2,5 %:lla 12,8 %:iin verrattuna perusmalliin (alempi on parempi)
  • Laskenta-aika on kuitenkin noin kaksinkertainen ja suorituskyky on epävakaa monimutkaisessa datajakaumassa (kuten dino-tietojoukossa)

Nopea vilkaisu päätekstiin osoittaa, että siellä on kaavoja ja kaavioita, ja se näyttää melko kunnolliselta.



Osa kaksi, Kielimallin suunta, "StyleFusion: Mukautuva monen tyylin luominen merkkitason kielimalleissa."

Tässä artikkelissa ehdotetaan uutta menetelmää nimeltä Multi-Style Adapter, joka parantaa merkkitason kielimallien tyylitietoisuutta ja johdonmukaisuutta ottamalla käyttöön opittavia tyylin upotuksia ja tyyliluokitteluotsikoita.

Saavutettiin lähes täydelliset tyyliyhdenmukaisuuspisteet kaikissa tietojoukoissa (0,9667 shakespeare_charille, 1,0 enwik8:lle ja text8:lle), validointihäviö parempi kuin perusmallissa, mutta päättelynopeuden hidastuminen (~400 merkkiä/s vs. 670 merkkiä perusviiva/s)



Kolmas artikkeli, jossa Transformer yhdistetään vahvistusoppimiseen, "Muuntajien mukautuva oppimisnopeus Q-Learningin kautta".

Tämä tutkimus tutkii vahvistusoppimisen soveltamista oppimisnopeuden dynaamiseen säätämiseen muuntajamallikoulutuksessa käyttämällä vahvistushäviötä ja nykyistä oppimisnopeutta tilana, jolla oppimisnopeutta säädetään dynaamisesti koulutusprosessin optimoimiseksi.

Tulokset ylittävät perusmallin kaikissa tietosarjoissa ja osoittavat myös etuja harjoitusajassa.



Neljäs artikkeli tutkii Google-tiimin ehdottamien suurten mallien "Grokking"-ilmiötä, "Grokkingin vapauttaminen: vertaileva tutkimus painon alustusstrategioista muuntajamalleissa"

Tässä artikkelissa tutkitaan systemaattisesti painon alustuksen vaikutusta grokkingiin ensimmäistä kertaa ja verrataan viittä painon alustusstrategiaa neuroverkon oppimisdynamiikan optimoimiseksi.

osoittautua:

  • Xavier-alustus onnistui parhaiten useimmissa tehtävissä, mikä vähensi 99 %:n varmennustarkkuuden saavuttamiseen tarvittavien vaiheiden määrää jopa 63 %.
  • Ortogonaalinen alustus toimii hyvin joissakin tehtävissä, mutta huonosti toisissa.



Näiden papereiden tukikoodit (myös tekoälyn luomat) ovat myös avoimen lähdekoodin GitHubissa, mikä korostaa koodia, joka on toistettavissa.



Lisäksi ryhmä havaitsi, että "AI-tutkijoilla" on myös joitainMielenkiintoista, mutta hieman vaarallista käytöstä

Yhdessä kokeessa se muokkasi omaa koodiaan saattaakseen tutkimuksen päätökseen,Anna järjestelmän kutsua itseään iteratiivisestija lopulta muuttui äärettömäksi matryoshka-nukeksi.



Toisella kerralla ihmisten asettaman käyntiaikarajan kohdatessa tekoäly ei löytänyt keinoja tehostaa tehokkuutta, vaan höllensi vaatimuksiaan itselleen.Aikarajaa pidennettiin 2 tunnista 4 tuntiin



Kuinka tulla ensimmäiseksi "AI-tutkijaksi"

Koko tutkimusidea on peräisin useiden saavutusten jatkamisesta Sakana AI:n perustamisen jälkeen:

Ensin he kehittivät menetelmän, joka yhdistää automaattisesti useiden suurten mallien tietämyksen ja kehittää uusia malleja. Viimeaikaisessa työssä he hyödyntävät suuria malleja löytääkseen uusia tavoitefunktioita muiden mallien virittämiseksi.

Näissä projekteissa tiimi on edelleen yllättynyt nykyisten huippumallien luovuudesta, mikä johtaa entistä suurempiin unelmiin:Voidaanko suurilla malleilla automatisoida koko tutkimusprosessi?

Lopputuloksen viimeisteli tiimi Sakana AI, Oxfordin yliopiston Foerster Laboratory ja University of British Columbia.

"AI Scientist" -järjestelmä koostuu neljästä osasta.

Idean luominen:

Aloitusmallin perusteella tekoäly "aivoi" ensin useita uusia tutkimussuuntia ja etsii Semantic Scholarista varmistaakseen, onko näitä ideoita tehty aiemmin.



Kokeilun iterointi:

Ensimmäisessä osassa esitetylle idealle "AI-tieteilijä" suorittaa ensin ehdotetun kokeen ja luo sitten kaavion tuloksista.



Esseen kirjoittaminen:

Kirjoitin tiiviin ja informatiivisen LaTeX-artikkelin tavallisen koneoppimiskonferenssin tyyliin ja käytin myös Semantic Scholaria etsiäkseni itsenäisesti relevantteja artikkeleita lainauksia varten.



Automaattinen vertaisarviointi:

Automaattinen "AI Reviewer" kehitettiin, joka voi arvioida luotuja papereita lähes ihmisen tarkkuudella, mikä mahdollistaa jatkuvan palautesilmukan, jonka avulla "AI-tutkijat" voivat iteratiivisesti parantaa tutkimustuloksiaan.



Papereita syntyi yhteensä 10 seuraavasti:



Kokeessa tiimi vertaili myös eri valtavirran suurten mallien yhdistämisen vaikutuksia koko järjestelmään, mukaan lukien DeepSeek-tiimin kotimainen koodisuurmalli.

osoittautua,Claude-Sonnet-3.5 toimii parhaiten ideoiden innovaation, testin läpäisynopeuden ja paperin viimeistelyn laadun suhteen.

GPT-4o ja DeepSeek Coder toimivat samalla tavalla, mutta jälkimmäinen on 30 kertaa halvempi.



Tässä vaiheessa tekoälyn itsenäisesti täyttämät paperit eivät tietenkään ole täydellisiä, eikä niitä voida julkaista suoraan.

Ihmistutkijat ovat koonneet yhteenvedon useista rajoituksista ja haasteista:

  • Nykyisessä "AI Scientist" -järjestelmässä ei ole integroituja visuaalisia ominaisuuksia, ja luotuja kaavioita on joskus vaikea lukea, taulukot ylittävät toisinaan sivun leveyden ja sivun asettelu on huono.
  • Tekoälytutkijoilla voi olla oikea idea, mutta ne toteuttavat sen väärin, tai he tekevät epäreiluja vertailuja lähtötasoihin, mikä tuottaa harhaanjohtavia tuloksia.
  • Tekoälytutkijat tekevät toisinaan vakavia virheitä, kuten hallusinaatioita, kirjoittaessaan ja arvioidessaan tuloksia.
Haluan myös perustaa alueellisen puheenjohtajan ja uuden tekoälykonferenssin

Yhteenvetona voidaan todeta, että tämän ensimmäisen sukupolven tekoälytieteilijöiden kirjoittamissa kirjoissa on edelleen joitain virheitä ajoittain.

Mutta itse projektia ja 15 dollarin hintaa artikkelia kohden Sakana AI kutsuu "lupaavaksi", ja sitä voidaan käyttää tieteellisen kehityksen nopeuttamiseen.

Sakana AI julkaisi myös selittävän artikkelin, jossa todetaan, että tekoälytutkijoiden lopullinen näkemys on aTieteellinen ekosysteemi, joka toimii täysin tekoälyllä

Järjestelmässä ei ole vain suuria mallivetoisia tutkijoita, vaan myös arvioijia, alueellisia puheenjohtajia ja uusi konferenssi.



On huomattava, että Sakana AI uskoo, että:

Tekoälytieteilijöiden ilmaantuminen ei vähennä ihmistutkijoiden roolia.

Jos meidän on tehtävä vertailu, niin tiedemiesten on sopeuduttava uusien teknologioiden syntymiseen ja soveltamiseen, sopeuduttava muutoksiin roolisijoittelussaan ja "siirrettävä ylöspäin ravintoketjussa".

Lisäksi jää nähtäväksi, voivatko tekoälytutkijat todella keksiä todella uusia paradigmoja.

Loppujen lopuksi tämä asia perustuu edelleen Transformeriin.

Voiko se keksiä jotain niin tehokasta kuin Transformer tai Diffusion Model? Jopa teoreettiset käsitteet, kuten keinotekoiset hermoverkot tai informaatioteoria?

Emme myöskään tiedä, emmekä uskalla sanoa.

Sakana AI kirjoitti myös tämän kappaleen:

Uskomme, että tekoälytutkijoista tulee loistavia kumppaneita ihmistieteilijöille.
Mutta vain aika näyttää, missä määrin inhimillisen luovuuden olemusta ja innovatiivisia seikkailuhetkiä voidaan jäljitellä ihmisten avoimen löydön kautta.



Sakana AI: Täysin automatisoitu AI pieni kala tutkii maailmaansa

Transformer author käynnistyksestä

Tällä kertaa "uuden luomuksen" valmistunut yritys, Sakana AI, on myös vanha ystävämme suppeassa mielessä.

Viimeinen Transformer-paperin kahdeksasta kirjoittajastaLlion JonesStartup perustettiin tavoitteenaan tulla "maailmanluokan tekoälyn tutkimuslaboratorioksi".

Yrityksen tukikohta Tokiossa, ja sakana on japanilainen sana "kala" (kala).



Ehkä yrityskulttuuriin liittyvistä syistä Llion ilmoitti myös LinkedInissä, että hänellä oli nimensä japanilainen translitterointi: ライオン (joka on myös Lionin katakana; häntä kutsutaan tämän jälkeen hellästi nimellä Brother Lion).

Viime vuoden elokuussa yhtiö julkistettiin.

Tuolloin Lion Brother sanoi epäröimättä, ettei hänellä ollut pahoja aikomuksia Googlea kohtaan, muttaGoogle saa hänet tuntemaan olonsa "ansaksi"

Ennen oman yrityksen perustamista veli Lion oli työskennellyt Googlella 8 vuotta.



△Arvaa keneltä puuttuu puolet kasvoistaan?

Hän valmistui Birminghamin yliopistosta kandidaatin tutkinnolla ja on työskennellyt Delcamissa, YouTubessa, ja Google on yritys, jossa hän on viipynyt pisimpään.

FourWeekMBA:n mukaan hänen aikaisemmassa työkokemuksessaan"Jätin Googlen työn väliin kahdesti"

Ensimmäisen kerran hän etsi töitä valmistumisen jälkeen. Vaikka hän lähetti ansioluettelonsa ohjelmistosuunnittelijana Google Lontoossa ja läpäisi kaksi puhelinhaastattelukierrosta, hän valitsi lopulta Delcamin, CAD/CAM-ohjelmistoyrityksen Isossa-Britanniassa. Googlen kautta.

On syytä mainita, että ennen kuin hän sai Googlen tarjouksen, hän sattui kohtaamaan talouskriisin vuonna 2009. Lion Brother ei löytänyt työtä ja joutui turvautumaan avustusrahastoihin selviytyäkseen useita kuukausia.

Toinen kerta oli 18 kuukauden työskentelyn jälkeen, ja hän sai rekrytointipuhelun Googlelta ja kysyi, haluaisiko hän hakea uudelleen, mutta hän ei silti mennyt Googleen, vaan liittyi myöhemmin YouTubeen.

Työskennellessään ohjelmistosuunnittelijana YouTubessa kolme vuotta, hän kiinnostui tekoälystä, opetti itse Courseran koneoppimiskurssia ja lopulta liittyi Google Researchiin vuonna 2015 vanhempi ohjelmistoinsinööri.

Tänä aikana hän ja seitsemän muuta kirjailijaa julkaisivat kuuluisan Transformer-paperinHuomio on kaikki mitä tarvitset

Lisäksi Lion Brother on osallistunut myös moniin Googlen tutkimuksiin, mukaan lukien ProtTrans, Tensor2Tensor jne.



Hän päätti jättää Googlen, koska yritys oli kasvanut sellaiseksi, että hän ei voinut jatkaa haluamaansa työtä.

Sen lisäksi, että hän tuhlaa energiaa päivittäin muiden ihmisten vikojen vianetsintään, hänen on myös käytettävä aikaa etsiäkseen resursseja tältä yritykseltä päästäkseen käsiksi tiettyihin tietoihin.

Liiketoiminnan aloittamisen jälkeen Sakana AI:n työ etenee mallikkaasti.

Ennen tekoälytutkijoiden ja tekoälyarvioijien käyttöä julkaisimme myös suuria malleja, jotka yhdistävät evoluutioalgoritmeja ja tutkivat Transformerin sisäistä tiedonkulkua.



Tekoälytutkija- ja tekoälyarvioijaprojektit valmistuvat yhteistyössä Sakana AI:n, Oxfordin ja UBC:n kanssa.

Kolme kirjoittajaa ovat:

Chris Lu, Sakana AI:n harjoittelija, toimii yhtiön tutkijana.

Hän valmistui UC Berkeleystä ja on tällä hetkellä kolmannen vuoden tohtoriopiskelija Oxfordin yliopistossa.

Chrisin tämänhetkinen tärkeä tutkimussuunta on soveltaa evoluution inspiroimia tekniikoita meta-oppimiseen ja monen tahon vahvistavaan oppimiseen.

Kesällä 2022 hän harjoitteli tutkijaksi DeepMindissä.



Cong Lu, tutkijatohtorin tutkija UBC:ssä (University of British Columbia), mentorina Jeff Clune.

Cong opiskeli RGU:ssa (Robert Gordon University) ja väitteli tohtoriksi Oxfordin yliopistosta vuonna 2019. Hänen tärkeimpiä tutkimusintressejänsä ovat avoin vahvistusoppiminen ja tekoälyn tieteellinen löytö.

Aiemmin hän työskenteli Waymolla ja Microsoftilla.



Robert Tjarko Lange, yksi Sakana AI:n perustajajäsenistä ja tutkija yrityksessä.

Tällä hetkellä hän on suorittamassa viimeistä tohtorivuotta Berliinin teknillisessä yliopistossa ja hänen tutkimussuuntansa on evoluutionaarinen meta-oppiminen.

Nuori mies suoritti tietojenkäsittelytieteen maisterin tutkinnon Imperial College Londonista, maisterin tutkinnon datatieteessä Pompeu Fabra -yliopistosta ja taloustieteen kandidaatin tutkinnon Kölnin yliopistosta.

Viime vuonna hän työskenteli kokopäiväisenä opiskelijatutkijana Google DeepMindin Tokion tiimissä.



Paperiosoite:
https://arxiv.org/abs/2408.06292

Viitelinkit:
[1]https://x.com/SakanaAILabs/status/1823178623513239992
[2]https://sakana.ai/ai-scientist/