2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
koneen sydänraportti
machine heart -toimitusosasto
c. elegansin inspiroima uusi arkkitehtuuri, kaikki kolme "kupin muotoa" voivat saavuttaa sota-suorituskyvyn, ja niitä voidaan käyttää erittäin resurssirajoitteisissa ympäristöissä. mobiilirobotit saattavat tarvita vian aivoja.
suurten mallien aikakaudella googlen vuoden 2017 peruspaperissa "attention is all you need" ehdotetusta transformerista on tullut valtavirran arkkitehtuuri.
mit:n computer science and artificial intelligence laboratoryn (csail) entisten tutkijoiden juuri perustama startup liquid ai on kuitenkin valinnut toisenlaisen tien.
liquid ai sanoo, että heidän tavoitteenaan on "tutkia tapoja rakentaa malleja perusgeneratiivisen esikoulutetun transformerin (gpt) ulkopuolelle".
tämän tavoitteen saavuttamiseksi liquid ai julkaisi ensimmäiset multimodaaliset tekoälymallinsa: liquid foundation models (lfm). tämä on uusi generatiivisten tekoälymallien sukupolvi, joka on rakennettu ensimmäisistä periaatteista, ja 1b, 3b ja 40b lfm:t saavuttavat sota-suorituskyvyn kaikissa mittakaavaissa säilyttäen samalla pienemmän muistitilanteen ja tehokkaamman päättelyn.
liquid ai -koulutuksen jälkeinen johtaja maxime labonne sanoi x:ssä, että lfm on versio, josta hän on uransa ylpein. lfm:n ydinetu on, että ne voivat ylittää transformer-pohjaiset mallit ja vievät vähemmän muistia.
jotkut sanovat, että lfm on transformerin terminaattori.
jotkut nettimiehet ylistivät lfm:ää pelin vaihtajana.
jotkut verkkoyhteisöt uskovat, että "saattaa olla aika luopua transformersista. tämä uusi arkkitehtuuri näyttää erittäin lupaavalta."
liquid ai julkaisee kolme mallia
lfm-sarja on saatavana kolmessa eri koossa ja versiossa:
intensiivinen lfm 1.3b (vähintään), ihanteellinen erittäin resurssirajoitteisiin ympäristöihin.
tiheä lfm 3b, optimoitu reunakäyttöön.
lfm 40.3b moe -malli (suurin mistral-tyyppinen asiantuntijahybridimalli), joka on suunniteltu käsittelemään monimutkaisempia tehtäviä.
sota suorituskykyä
lfm-1b:n vertailu vastaaviin mittakaavallisiin malleihin. lfm-1b saavutti huippupisteet jokaisessa vertailutestissä, mikä teki siitä mittakaavansa edistynein mallin. tämä on ensimmäinen kerta, kun ei-gpt-arkkitehtuuri ylittää merkittävästi transformer-pohjaiset mallit. esimerkiksi lfm 1.3b ylitti metan llama 3.2-1.2b ja microsoftin phi-1.5 kolmannen osapuolen vertailuissa.
lfm-3b saavuttaa uskomattoman suorituskyvyn ja sijoittuu ensimmäiseksi vertailussa 3b-muuntajamalleihin, hybridimalleihin ja rnn-malleihin. se on myös verrattavissa phi-3.5-miniin useissa vertailutesteissä, vaikka se on 18,4 % pienempi. voidaan nähdä, että lfm-3b on ihanteellinen mobiili- ja muihin reunatekstisovelluksiin.
lfm-40b saavuttaa uuden tasapainon mallin koon ja tulostuslaadun välillä. se voi aktivoida 12b parametria ajon aikana suorituskyvyllä, joka on verrattavissa suurempiin malleihin, kun taas moe-arkkitehtuuri mahdollistaa suuremman suorituskyvyn ja voidaan ottaa käyttöön kustannustehokkaampiin laitteistoihin.
muisti tehokas
lfm vie vähemmän muistia transformer-arkkitehtuuriin verrattuna. tämä pätee erityisesti pitkiin tuloihin, koska muuntajapohjaisen llm:n kv-välimuisti kasvaa lineaarisesti sekvenssin pituuden mukaan. pakkaamalla syötteen tehokkaasti lfm voi käsitellä pidempiä sekvenssejä samalla laitteistolla. lfm vie vähiten muistia muihin luokan 3b malleihin verrattuna. esimerkiksi lfm-3b vaatii vain 16 gt muistia, kun taas metan llama-3.2-3b vaatii yli 48 gt muistia.
lfm todella hyödyntää kontekstin pituutta
alla olevassa taulukossa verrataan useiden mallien suorituskykyä eri kontekstipituuksilla.
tämä tehokas konteksti-ikkuna mahdollistaa pitkän kontekstin tehtävät reunalaitteissa ensimmäistä kertaa. kehittäjille se avaa uusia sovelluksia, kuten dokumenttien analysoinnin ja yhteenvedon, merkityksellisemmän vuorovaikutuksen kontekstitietoisten chatbottien kanssa ja parannetun rag-suorituskyvyn.
nämä mallit ovat kilpailukykyisiä paitsi raaka-arvojen, myös toiminnan tehokkuuden suhteen, mikä tekee niistä ihanteellisia erilaisiin käyttötapauksiin yritystason sovelluksista rahoituspalveluiden, biotekniikan ja kulutuselektroniikan käyttöön.
käyttäjät voivat käyttää sitä lambda chatin tai perplexity ai:n jne. kautta.
kuinka liquid ylittää generatiivisen esikoulutetun muuntajan (gpt)
liquid käyttää laskentayksiköiden hybridiä, jotka ovat syvästi juurtuneet dynaamisten systeemiteorian, signaalinkäsittelyn ja numeerisen lineaarisen algebran teorioihin. tuloksena kehitettiin yleiskäyttöisiä tekoälymalleja, joita voidaan käyttää simuloimaan minkä tahansa tyyppistä sekvenssidataa, mukaan lukien videota, ääntä, tekstiä, aikasarjoja ja signaaleja, uuden lfm:n kouluttamiseksi.
jo viime vuonna liquid ai käytti menetelmää nimeltä lnn (liquid neural networks) toisin kuin perinteiset syväoppimismallit, jotka vaativat tuhansia hermosoluja monimutkaisten tehtävien suorittamiseen, lnn osoittaa, että vähemmän neuroneja (yhdistettynä innovatiivisiin matemaattisiin kaavoihin) voi saavuttaa saman. tuloksia.
liquid ai:n uudet mallit säilyttävät tämän mukautumiskyvyn ydinedun, mikä mahdollistaa reaaliaikaiset säädöt päättelyn aikana ilman perinteisiin malleihin liittyviä laskennallisia kustannuksia. se pystyy käsittelemään tehokkaasti jopa 1 miljoonaa merkkiä ja minimoi samalla muistin käytön.
esimerkiksi päättelymuistin jalanjäljen osalta lfm-3b-malli ylittää suositut mallit, kuten googlen gemma-2, microsoftin phi-3 ja metan llama-3.2, varsinkin kun tunnuksen pituutta pidennetään.
muissa malleissa muistin käyttö lisääntyy dramaattisesti pitkien kontekstien käsittelyssä, mutta lfm-3b vie paljon vähemmän tilaa, joten se on ihanteellinen sovelluksiin, jotka vaativat raskasta peräkkäistä tietojenkäsittelyä, kuten asiakirja-analyysiä tai chatbotteja.
liquid ai on rakentanut perusmallinsa universaaliksi malliksi useille datamodaliteeteille, mukaan lukien ääni, video ja teksti.
tämän multimodaalisen kyvyn avulla liquid pyrkii ratkaisemaan monia toimialakohtaisia haasteita rahoituspalveluista biotekniikkaan ja kulutuselektroniikkaan.
liquid ai optimoi mallinsa useiden laitevalmistajien, mukaan lukien nvidia, amd, apple, qualcomm ja cerebras, tuotteille.
liquid ai kutsuu varhaisia käyttäjiä ja kehittäjiä testaamaan uusia mallejaan ja antamaan palautetta. vaikka malli ei ole vielä täydellinen, yritys aikoo käyttää palautetta tuotteen parantamiseen. he pitävät virallisen julkaisutapahtuman 23. lokakuuta 2024 mit:ssä.
pyrkiessään ylläpitämään avoimuutta ja edistämään tiedettä yritys aikoo julkaista sarjan teknisiä blogikirjoituksia ennen julkaisua. he myös rohkaisevat käyttäjiä suorittamaan punaisen tiimin testausta mallin rajojen tutkimiseksi tulevien versioiden parantamiseksi.
liquid ai:n esittelemä lfm yhdistää korkean suorituskyvyn ja tehokkaan muistin käytön tarjoten tehokkaan vaihtoehdon perinteisille transformer-pohjaisille malleille. tämän vuoksi liquid ai:n odotetaan tulevan tärkeäksi toimijaksi perusmallien alalla.
liquid ai: alkaen pienestä bugista
tätä openai:n ja muiden suurten kielimalliyritysten kanssa avoimesti kilpailevaa startup-yritystä hautoo mit:n computer science and artificial intelligence laboratory csail, ja se perustettiin maaliskuussa 2023.
joulukuussa 2023 yritys sai 37,5 miljoonan dollarin siemenrahoitusta, jonka arvo oli 300 miljoonaa.
sijoittajia ovat githubin perustaja tom preston werner, shopifyn perustaja tobias lütke, red hatin perustaja bob young jne.
daniela rus, mit csailin johtaja, on yksi yrityksen perustajista. tämä kuuluisa robotiikka ja tietojenkäsittelytieteilijä on myös laboratorion ensimmäinen naisjohtaja.
daniela rusin lisäksi liquid ai:n kolme muuta perustajaa olivat kaikki mit csailin tutkijatohtoreita.
toinen perustajista ja toimitusjohtaja ramin hasani oli johtava tekoälytutkija vanguardissa, joka on yksi yhdysvaltojen suurimmista rahastoyhtiöistä, ennen kuin hän ryhtyi tutkijatohtorin tutkimukseen mit csailissa.
yksi perustajista ja teknologiajohtaja mathias lechner oli tutkinut sukkulamatojen hermorakennetta hasanin kanssa jo heidän ollessaan wienin teknillisen yliopiston opiskelijoita.
perustaja ja johtava tieteellinen johtaja alexander amini oli daniela rusin tohtoriopiskelija.
neljä perustajaa (vasemmalta oikealle) toimitusjohtaja ramin hasani, daniela rus, johtava tieteellinen johtaja alexander amini ja teknologiajohtaja mathias lechner
vuonna 2017 daniela rus "kaivoi" hasanin ja lechnerin mit csailiin, ja rus ja hänen tohtoriopiskelijansa amini liittyivät myös nestemäisten hermoverkkojen tutkimukseen.
daniela rus huomautti, että generatiivisella tekoälyllä on ilmeisiä rajoituksia turvallisuuden, tulkittavuuden ja laskentatehon suhteen, mikä vaikeuttaa sen käyttöä robottiongelmien ratkaisemisessa, erityisesti mobiiliroboteissa.
daniela rus ja hänen laboratorionsa väitöskirjatutkijat kehittivät uudentyyppisen joustavan hermoverkon, joka tunnetaan myös nestemäisenä hermoverkona, innoittamana tieteellisessä tutkimusyhteisössä "usein vieraana" olevan sukkulamato caenorhabditis elegansin hermorakenteesta.
caenorhabditis elegans on myös ainoa organismi, jolle on suoritettu konnektomien määritys (vuodesta 2019). vaikka aivot ovat yksinkertaiset, ne ovat myös paljon parempia oppimaan ja sopeutumaan ympäristöön kuin mikään nykyinen tekoälyjärjestelmä.
caenorhabditis elegans on vain 1 mm pitkä, siinä on vain 302 hermosolua ja 96 lihasta, mutta se kykenee monimutkaisiin älykkäisiin käyttäytymismalleihin, kuten havaitsemiseen, pakoon, ravinnonhakuun ja paritteluun.
se on yksinkertaisin elävä älykäs agentti ja pienin kantaja yleisen tekoälyn toteuttamiseen biologisia hermomekanismeja simuloimalla.
viime vuosina tieteelliset tutkijat ovat myös käyttäneet c. elegansin hermojen tutkimustuloksia suorittaessaan tietokonebiologisia simulaatioita. tutkimalla, kuinka c. elegansin aivot toimivat, daniela rus ja muut suunnittelivat "liquid time-constant networks":
jatkuvan ajan malli, joka koostuu useista yksinkertaisista dynaamisista järjestelmistä, jotka säätelevät toisiaan epälineaaristen porttien kautta.
jos sanomme, että tavallinen hermoverkko on kuin kerros tasaisin väliajoin olevia patoja, ja jokaiseen patokerrokseen on asennettu useita venttiileitä (painoja), lasketun virtauksen täytyy kulkea näiden venttiilien läpi joka kerta, kun se kulkee patokerroksen läpi, ja sitten kiirehtiä seuraavalle tasolle.
no, nestemäiset hermoverkot eivät tarvitse patoja, koska jokaista neuronia ohjaa differentiaaliyhtälö (ode).
tämän tyyppiselle verkolle on tunnusomaista muuttuvat aikavakiot ja lähtö saadaan ratkaisemalla differentiaaliyhtälöitä. tutkimukset osoittavat, että se ylittää perinteiset mallit vakauden, ilmeisyyden ja aikasarjan ennustamisen suhteen.
myöhemmin daniela rus ja muut ehdottivat approksimaatiomenetelmää, joka voi käyttää suljetun muodon ratkaisuja tehokkaasti simuloimaan hermosolujen ja synapsien välistä vuorovaikutusta (suljetun muodon jatkuvan ajan hermoverkkoja), mikä paitsi paransi myös mallin nopeuden laskemista huomattavasti. näyttää paremman skaalautuvuuden ja toimii hyvin aikasarjamallinnusssa ylittäen monet kehittyneet toistuvien hermoverkkomallit.
liquid ai -tiimin jäsenet ovat väittäneet, että arkkitehtuuri sopii analysoimaan kaikkia ajan myötä vaihtelevia ilmiöitä, mukaan lukien videoprosessointi, autonominen ajaminen, aivojen ja sydämen seuranta, rahoituskauppa (osakekurssit) ja sääennusteet.
sen lisäksi, että ne ovat joustavia kuin neste, toinen nestemäisten hermoverkkojen ominaisuus on, että ne ovat kooltaan paljon pienempiä kuin generatiiviset tekoälymallit, joissa on usein miljardeja parametreja.
esimerkiksi lfm 1.3b, jota voidaan ottaa käyttöön erittäin resurssirajoitteisissa ympäristöissä, sisältää vain 1,3 b parametreja (samanlainen kuin gpt-2:n maksimiversio 1.5b), mutta se säilyttää pienemmän muistitilan ja tehokkaamman päättelyn. käytetään eri run on robotin laitteistoalustalla.
lisäksi nestemäisten hermoverkkojen etuna on myös tulkittavuus niiden pienen koon ja yksinkertaisen arkkitehtuurin vuoksi.
nähtäväksi jää kuitenkin, kuinka uusi arkkitehtuuri kilpailee kilpailijoiden, kuten openai, valtavirran mallien kanssa.
hasani on sanonut, että liquid ai ei tällä hetkellä aio kehittää sovelluksia, kuten chatgpt kuluttajille. yritys keskittyy ensin yritysasiakkaisiin, jotka haluavat mallintaa taloudellista ja lääketieteellistä tutkimusta.
viitelinkit:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai