uutiset

Generatiivinen tekoäly saattaa tuoda esiin seuraavan trendin: TTT-mallin

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Seuraavan sukupolven generatiivisen tekoälyn (AI) painopiste voi olla testi-ajan koulutusmallit tai lyhyesti TTT.

Transformers-arkkitehtuuri on OpenAI:n videomallin Soran perusta ja tekstintuotantomallien, kuten Anthropicin Claude, Googlen Gemini ja OpenAI:n lippulaivamalli GPT-4o, ydin. Mutta nyt näiden mallien kehitys alkaa lyödä teknisiä esteitä, erityisesti ne, jotka liittyvät tietojenkäsittelyyn. Koska Transformers eivät ole erityisen tehokkaita suurten tietomäärien käsittelyssä ja analysoinnissa, ainakaan kun niitä käytetään valmiilla laitteistolla. Yritykset rakentavat ja laajentavat infrastruktuuria vastaamaan Transformersin tarpeita, mikä johtaa dramaattiseen virrantarpeen kasvuun, joka ei välttämättä pysty vastaamaan kysyntään kestävästi.

Tässä kuussa Stanfordin yliopiston, UC San Diegon, UC Berkeleyn ja Metan tutkijat ilmoittivat yhdessä, että he käyttivät puolitoista vuotta TTT-arkkitehtuurin kehittämiseen. Tutkimusryhmä väittää, että TTT-malli ei vain pysty käsittelemään paljon enemmän dataa kuin Transformers, mutta se ei myöskään kuluta yhtä paljon laskentatehoa kuin Transformers.

Miksi ulkopuolisten mielestä TTT-malli on lupaavampi kuin Transformers? Ensimmäinen asia, joka on ymmärrettävä, on, että Transformersin peruskomponentti on "piilotettu tila", joka on pohjimmiltaan pitkä lista dataa. Kun Transformer käsittelee jotain, se lisää merkintöjä piilotettuun tilaan "muistaakseen", mitä se juuri käsitteli. Jos malli esimerkiksi käsittelee kirjaa, piilotetun tilan arvo on sanan (tai sanan osan) esitys.

Edellä mainittuun TTT-tutkimukseen osallistunut Stanfordin yliopiston jatko-tutkija Yu Sun selitti äskettäin medialle, että jos Transformeria pidetään älykkäänä kokonaisuutena, niin hakutaulukko ja sen piilotettu tila ovat Transformerin aivot. Nämä aivot toteuttavat joitain Transformerin tunnettuja ominaisuuksia, kuten kontekstuaalista oppimista.

Piilotettu tila auttaa muuntajia kasvamaan voimakkaiksi, mutta se myös estää Transformersin kehitystä. Esimerkiksi Transformers on juuri lukenut kirjan "sanoakseen" edes yhden sanan tässä kirjassa, Transformers-mallin täytyy skannata koko hakutaulukko. Tämä laskentavaatimus vastaa koko kirjan uudelleen lukemista.

Niinpä Sun ja muut TTT:n tutkijat ajattelivat korvata piilotilat koneoppimismalleilla – kuten tekoälyn sisäkkäisillä nukeilla, mallilla mallissa. Toisin kuin Transformersin hakutaulukot, TTT-mallin sisäinen koneoppimismalli ei kasva, kun dataa käsitellään enemmän. Sen sijaan se koodaa käsitellyt tiedot edustaviksi muuttujiksi, joita kutsutaan painoiksi, minkä vuoksi TTT-mallilla on korkea suorituskyky. Riippumatta siitä, kuinka paljon dataa TTT-malli käsittelee, sen sisäisen mallin koko ei muutu.

Sun uskoo, että tulevat TTT-mallit pystyvät käsittelemään tehokkaasti miljardeja datakappaleita sanoista kuviin, tallennuksista videoihin. Tämä ylittää selvästi nykyisten mallien kyvyt. TTT:n järjestelmä osaa sanoa X sanaa kirjalle ilman, että sinun tarvitsee tehdä monimutkaista kirjan lukemista X kertaa. "Transformeriin perustuvat suuret videomallit, kuten Sora, pystyvät käsittelemään vain 10 sekunnin videoita, koska niissä on vain hakutaulukon "aivot". Perimmäisenä tavoitteenamme on kehittää järjestelmä, joka pystyy käsittelemään visuaalisen kokemuksen kaltaisia ​​pitkiä videoita. ihmisen elämässä"

Korvaavatko TTT-mallit lopulta muuntajat? Media uskoo tämän olevan mahdollista, mutta nyt on liian aikaista vetää johtopäätöksiä. TTT-malli ei tällä hetkellä suoraan korvaa Transformersia. Tutkijat kehittivät tutkimukseen vain kaksi pientä mallia, joten TTT:tä on tällä hetkellä vaikea verrata joidenkin isompien Transformers-mallien tuloksiin.

Lontoon King's Collegen tietotekniikan laitoksen vanhempi lehtori Mike Cook, joka ei ollut mukana edellä mainitussa TTT-tutkimuksessa, kommentoi, että TTT on erittäin mielenkiintoinen innovaatio, jos tiedot tukevat ajatusta, että se voi parantaa tehokkuutta , mutta hän ei osaa sanoa, onko TTT parempi kuin nykyinen arkkitehtuuri? Cook sanoi, että kun hän oli perustutkinto, vanha professori kertoi usein vitsin: Miten ratkaiset minkä tahansa tietojenkäsittelytieteen ongelman? Lisää toinen abstraktiokerros. Hermoverkon lisääminen hermoverkkoon muistutti häntä tämän vitsin ratkaisusta.