le mie informazioni di contatto
posta[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
rapporto sul cuore della macchina
dipartimento editoriale di machine heart
una nuova architettura ispirata a c. elegans, tutte e tre le "forme di tazza" possono raggiungere prestazioni sota e possono essere implementate in ambienti con risorse altamente limitate. i robot mobili potrebbero aver bisogno del cervello di un insetto.
nell'era dei modelli di grandi dimensioni, il transformer proposto nel documento fondamentale di google del 2017 "l'attenzione è tutto quello che serve" è diventato un'architettura mainstream.
tuttavia, liquid ai, una startup appena co-fondata da ex ricercatori del computer science and artificial intelligence laboratory (csail) del mit, ha preso una strada diversa.
l'intelligenza artificiale liquida afferma che il loro obiettivo è "esplorare modi per costruire modelli oltre il transformer pre-addestrato generativo di base (gpt)".
per raggiungere questo obiettivo, liquid ai ha lanciato i suoi primi modelli di ia multimodali: liquid foundation models (lfm). si tratta di una nuova generazione di modelli di intelligenza artificiale generativa costruiti secondo i principi primi, con lfm 1b, 3b e 40b che raggiungono prestazioni sota su tutte le scale mantenendo un ingombro di memoria ridotto e un'inferenza più efficiente.
il direttore post-allenamento di liquid ai, maxime labonne, ha dichiarato su x che lfm è la versione di cui è più orgoglioso nella sua carriera. il vantaggio principale di lfm è che possono sovraperformare i modelli basati su transformer occupando meno memoria.
alcune persone dicono che lfm è il terminatore di transformer.
alcuni netizen hanno elogiato lfm come un punto di svolta.
alcuni netizen credono che "potrebbe essere il momento di abbandonare transformers. questa nuova architettura sembra molto promettente".
l'intelligenza artificiale liquida rilascia tre modelli
la gamma lfm è disponibile in tre diverse dimensioni e varianti:
lfm intensivo 1.3b (minimo), ideale per ambienti con risorse altamente limitate.
lfm 3b denso, ottimizzato per l'implementazione edge.
modello lfm 40.3b moe (il più grande modello ibrido esperto simile al mistral), progettato per gestire compiti più complessi.
prestazioni sota
confronto di lfm-1b con modelli in scala equivalenti. l'lfm-1b ha ottenuto i migliori punteggi in ogni test di riferimento, rendendolo il modello più avanzato nelle sue dimensioni. questa è la prima volta che un'architettura non gpt supera in modo significativo i modelli basati su transformer. ad esempio, lfm 1.3b ha sovraperformato llama 3.2-1.2b di meta e phi-1.5 di microsoft nei benchmark di terze parti.
lfm-3b raggiunge prestazioni incredibili, classificandosi al primo posto rispetto ai modelli di trasformatori 3b, ai modelli ibridi e ai modelli rnn. è anche paragonabile al phi-3.5-mini in diversi test benchmark, pur essendo più piccolo del 18,4%. si può vedere che lfm-3b è ideale per applicazioni mobili e altre applicazioni di testo edge.
lfm-40b raggiunge un nuovo equilibrio tra dimensioni del modello e qualità di output. può attivare parametri da 12b in fase di runtime, con prestazioni paragonabili a modelli più grandi, mentre l'architettura moe consente un throughput più elevato e può essere implementata su hardware più conveniente.
efficiente in termini di memoria
lfm occupa meno memoria rispetto all'architettura transformer. ciò è particolarmente vero per input lunghi, poiché la cache kv in llm basato su transformer cresce linearmente con la lunghezza della sequenza. comprimendo in modo efficiente l'input, lfm può elaborare sequenze più lunghe sullo stesso hardware. lfm occupa meno memoria rispetto ad altri modelli di classe 3b. ad esempio, lfm-3b richiede solo 16 gb di memoria, mentre llama-3.2-3b di meta richiede più di 48 gb di memoria.
lfm sfrutta davvero la lunghezza del contesto
la tabella seguente confronta le prestazioni di diversi modelli in diverse lunghezze di contesto.
questa efficiente finestra di contesto consente per la prima volta attività a lungo contesto sui dispositivi edge. per gli sviluppatori, sblocca nuove applicazioni, tra cui analisi e riepilogo dei documenti, interazioni più significative con chatbot sensibili al contesto e prestazioni migliorate di generazione aumentata di recupero (rag).
questi modelli sono competitivi non solo nei parametri di riferimento delle prestazioni, ma anche in termini di efficienza operativa, rendendoli ideali per una varietà di casi d'uso, dalle applicazioni di livello aziendale all'edge nei servizi finanziari, nella biotecnologia e nell'elettronica di consumo.
gli utenti possono accedervi tramite lambda chat o perplexity ai, ecc.
in che modo liquid va oltre il transformer pre-addestrato generativo (gpt)
liquid utilizza un ibrido di unità computazionali profondamente radicate nella teoria dei sistemi dinamici, nell'elaborazione del segnale e nell'algebra lineare numerica. il risultato è stato lo sviluppo di modelli ia generici che possono essere utilizzati per simulare qualsiasi tipo di dati di sequenza, inclusi video, audio, testo, serie temporali e segnali, per addestrare il suo nuovo lfm.
già l’anno scorso, l’intelligenza artificiale liquida utilizzava un metodo chiamato lnn (liquid neural networks) a differenza dei tradizionali modelli di deep learning che richiedono migliaia di neuroni per eseguire compiti complessi, lnn mostra che meno neuroni (combinati con formule matematiche innovative) possono ottenere lo stesso risultato. risultati.
i nuovi modelli di liquid ai mantengono il vantaggio principale di questa adattabilità, consentendo aggiustamenti in tempo reale durante l’inferenza senza il sovraccarico computazionale associato ai modelli tradizionali. può gestire in modo efficiente fino a 1 milione di token riducendo al minimo l'utilizzo della memoria.
ad esempio, in termini di utilizzo della memoria di inferenza, il modello lfm-3b supera modelli popolari come gemma-2 di google, phi-3 di microsoft e llama-3.2 di meta, soprattutto quando la lunghezza del token viene estesa.
mentre altri modelli sperimentano notevoli aumenti nell'utilizzo della memoria durante l'elaborazione di contesti lunghi, lfm-3b occupa molto meno spazio, rendendolo ideale per applicazioni che richiedono un'elaborazione sequenziale pesante dei dati, come l'analisi dei documenti o i chatbot.
liquid ai ha costruito il suo modello fondamentale come modello universale attraverso molteplici modalità di dati, inclusi audio, video e testo.
con questa capacità multimodale, liquid mira a risolvere una serie di sfide specifiche del settore che vanno dai servizi finanziari alla biotecnologia e all’elettronica di consumo.
liquid ai sta ottimizzando i suoi modelli per prodotti di diversi produttori di hardware, tra cui nvidia, amd, apple, qualcomm e cerebras.
l'intelligenza artificiale liquida invita i primi utenti e sviluppatori a testare i loro nuovi modelli e fornire feedback. sebbene il modello non sia ancora perfetto, l'azienda prevede di utilizzare il feedback per migliorare il prodotto. terranno un evento di lancio ufficiale il 23 ottobre 2024 al mit.
nel tentativo di mantenere la trasparenza e far progredire la scienza, la società prevede di pubblicare una serie di post tecnici sul blog prima del lancio. incoraggiano inoltre gli utenti a condurre test del team rosso per esplorare i limiti del modello e contribuire a migliorare le versioni future.
lfm introdotto da liquid ai combina prestazioni elevate e utilizzo efficiente della memoria, fornendo una potente alternativa ai tradizionali modelli basati su transformer. ciò fa sì che l’intelligenza artificiale liquida diventi un attore importante nel campo dei modelli di base.
ia liquida: a partire da un piccolo bug
questa startup, che compete apertamente con openai e altre grandi società di modelli linguistici, è stata incubata dal laboratorio di informatica e intelligenza artificiale csail del mit ed è stata fondata nel marzo 2023.
nel dicembre 2023, la società ha ricevuto 37,5 milioni di dollari in finanziamenti seed round, con una valutazione che ha raggiunto i 300 milioni.
tra gli investitori figurano il co-fondatore di github tom preston werner, il co-fondatore di shopify tobias lütke, il co-fondatore di red hat bob young, ecc.
daniela rus, direttrice del mit csail, è una delle fondatrici dell'azienda. questa famosa robotica e informatica è anche la prima donna direttrice del laboratorio.
oltre a daniela rus, gli altri tre cofondatori di liquid ai erano tutti ricercatori post-dottorato presso il mit csail.
il co-fondatore e ceo ramin hasani è stato il capo scienziato dell'intelligenza artificiale presso vanguard, una delle più grandi società di gestione di fondi negli stati uniti, prima di impegnarsi nella ricerca post-dottorato presso il mit csail.
il cofondatore e cto mathias lechner aveva studiato la struttura neurale dei nematodi con hasani già quando erano studenti all'università tecnica di vienna.
il co-fondatore e direttore scientifico alexander amini era uno studente di dottorato di daniela rus.
i quattro fondatori (da sinistra a destra): il ceo ramin hasani, daniela rus, il direttore scientifico alexander amini e il cto mathias lechner
nel 2017, daniela rus ha "scavato" hasani e lechner al mit csail, e anche rus e il suo dottorando amini si sono uniti alla ricerca sulle reti neurali liquide.
daniela rus ha sottolineato che l’intelligenza artificiale generativa presenta evidenti limiti in termini di sicurezza, interpretabilità e potenza di calcolo, rendendo difficile il suo utilizzo per risolvere i problemi dei robot, in particolare quelli mobili.
ispirandosi alla struttura neurale del nematode caenorhabditis elegans, un "ospite frequente" nella comunità di ricerca scientifica, daniela rus e ricercatori post-dottorato nel suo laboratorio hanno sviluppato un nuovo tipo di rete neurale flessibile, nota anche come rete neurale liquida.
caenorhabditis elegans è anche l'unico organismo per il quale è stata completata la determinazione del connettoma (a partire dal 2019). sebbene il cervello sia semplice, è anche molto più bravo ad apprendere e ad adattarsi all’ambiente rispetto a qualsiasi attuale sistema di intelligenza artificiale.
caenorhabditis elegans è lungo solo 1 mm, ha solo 302 neuroni e 96 muscoli, ma è capace di comportamenti intelligenti complessi come il rilevamento, la fuga, il foraggiamento e l'accoppiamento.
è l'intelligenza vivente più semplice e il più piccolo vettore per realizzare l'intelligenza artificiale generale attraverso la simulazione di meccanismi neurali biologici.
negli ultimi anni, i ricercatori scientifici hanno utilizzato i risultati della ricerca sui nervi di c. elegans anche per condurre simulazioni biologiche al computer. studiando come funziona il cervello di c. elegans, daniela rus e altri hanno progettato una "rete liquida a tempo costante":
un modello a tempo continuo costituito da più sistemi dinamici semplici che si regolano a vicenda attraverso porte non lineari.
se diciamo che una rete neurale standard è come uno strato di dighe equidistanti, con molte valvole (pesi) installate su ogni strato di dighe, il torrente calcolato deve passare attraverso queste valvole ogni volta che attraversa uno strato di dighe, e poi correre al livello successivo.
ebbene, le reti neurali liquide non hanno bisogno di dighe perché ogni neurone è controllato da un'equazione differenziale (ode).
questo tipo di rete è caratterizzata da costanti di tempo variabili e l'output è ottenuto risolvendo equazioni differenziali. la ricerca mostra che supera i modelli tradizionali in termini di stabilità, espressività e previsione delle serie temporali.
successivamente, daniela rus e altri hanno proposto un metodo di approssimazione che può utilizzare soluzioni in forma chiusa per simulare in modo efficiente l'interazione tra neuroni e sinapsi (reti neurali a tempo continuo in forma chiusa), che non solo ha migliorato notevolmente il calcolo della velocità del modello, ma anche mostra una migliore scalabilità e funziona bene nella modellazione di serie temporali, superando molti modelli avanzati di reti neurali ricorrenti.
i membri del team liquid ai hanno affermato che l'architettura è adatta per analizzare qualsiasi fenomeno che fluttua nel tempo, inclusa l'elaborazione video, la guida autonoma, il monitoraggio del cervello e del cuore, il trading finanziario (quotazioni azionarie) e le previsioni meteorologiche.
oltre ad essere flessibili come un liquido, un’altra caratteristica delle reti neurali liquide è che sono su scala molto più piccola rispetto ai modelli di intelligenza artificiale generativa che spesso hanno miliardi di parametri.
ad esempio, lfm 1.3b, che può essere distribuito in ambienti con risorse estremamente limitate, ha solo parametri 1.3b (simile alla versione massima gpt-2 1.5b), pur mantenendo un ingombro di memoria inferiore e un'inferenza più efficiente, e può essere utilizzato in vari esegui sulla piattaforma hardware del robot.
inoltre, le reti neurali liquide presentano anche il vantaggio dell’interpretabilità grazie alle loro dimensioni ridotte e all’architettura semplice.
tuttavia, resta da vedere come la nuova architettura competerà con i modelli tradizionali della concorrenza come openai.
hasani ha affermato che liquid ai attualmente non ha in programma di sviluppare applicazioni come chatgpt per i consumatori. l'azienda si concentra innanzitutto sui clienti aziendali che desiderano modellare la ricerca finanziaria e medica.
link di riferimento:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai