2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
maschinenherzbericht
redaktion von machine heart
alle drei „becherformen“ sind eine neue, von c. elegans inspirierte architektur, die sota-leistung erreichen und in umgebungen mit stark eingeschränkten ressourcen eingesetzt werden kann. mobile roboter benötigen möglicherweise das gehirn eines käfers.
im zeitalter großer modelle hat sich der in googles wegweisendem artikel „attention is all you need“ aus dem jahr 2017 vorgeschlagene transformer zu einer mainstream-architektur entwickelt.
liquid ai, ein startup, das gerade von ehemaligen forschern des computer science and artificial intelligence laboratory (csail) des mit mitgegründet wurde, hat jedoch einen anderen weg eingeschlagen.
laut liquid ai besteht ihr ziel darin, „möglichkeiten zu erforschen, modelle zu erstellen, die über den grundlegenden generativen vortrainierten transformer (gpt) hinausgehen“.
um dieses ziel zu erreichen, hat liquid ai seine ersten multimodalen ki-modelle auf den markt gebracht: liquid foundation models (lfm). hierbei handelt es sich um eine neue generation generativer ki-modelle, die auf grundprinzipien basieren. dabei erreichen 1b-, 3b- und 40b-lfms sota-leistung auf allen skalen bei gleichzeitig geringerem speicherbedarf und effizienterer inferenz.
maxime labonne, post-training-direktor von liquid ai, sagte auf x, dass lfm die version ist, auf die er in seiner karriere am meisten stolz ist. der hauptvorteil von lfm besteht darin, dass sie transformer-basierte modelle übertreffen können und dabei weniger speicher beanspruchen.
manche leute sagen, dass lfm der terminator von transformer ist.
einige internetnutzer lobten lfm als game changer.
einige internetnutzer glauben, dass „es vielleicht an der zeit ist, transformers aufzugeben. diese neue architektur sieht sehr vielversprechend aus.“
liquid ai veröffentlicht drei modelle
die lfm-reihe ist in drei verschiedenen größen und varianten erhältlich:
intensives lfm 1,3b (minimum), ideal für umgebungen mit stark eingeschränkten ressourcen.
dichtes lfm 3b, optimiert für edge-bereitstellung.
lfm 40.3b moe-modell (das größte mistral-ähnliche experten-hybridmodell), entwickelt für die bewältigung komplexerer aufgaben.
sota-leistung
vergleich von lfm-1b mit äquivalenten modellen. der lfm-1b erreichte in jedem benchmark-test spitzenwerte und ist damit das fortschrittlichste modell seiner größenordnung. dies ist das erste mal, dass eine nicht-gpt-architektur transformer-basierte modelle deutlich übertrifft. beispielsweise übertraf lfm 1.3b metas llama 3.2-1.2b und microsofts phi-1.5 in benchmarks von drittanbietern.
lfm-3b erreicht eine unglaubliche leistung und belegt im vergleich mit 3b-transformatormodellen, hybridmodellen und rnn-modellen den ersten platz. es ist auch in mehreren benchmark-tests mit phi-3.5-mini vergleichbar und dabei 18,4 % kleiner. es ist ersichtlich, dass lfm-3b ideal für mobile und andere edge-text-anwendungen ist.
lfm-40b erreicht ein neues gleichgewicht zwischen modellgröße und ausgabequalität. es kann 12b parameter zur laufzeit aktivieren, mit einer leistung, die mit größeren modellen vergleichbar ist, während die moe-architektur einen höheren durchsatz ermöglicht und auf kostengünstigerer hardware eingesetzt werden kann.
speichereffizient
lfm benötigt im vergleich zur transformer-architektur weniger speicher. dies gilt insbesondere für lange eingaben, da der kv-cache im transformer-basierten llm linear mit der sequenzlänge wächst. durch die effiziente komprimierung der eingabe kann lfm längere sequenzen auf derselben hardware verarbeiten. im vergleich zu anderen modellen der klasse 3b belegt lfm den geringsten speicher. beispielsweise benötigt der lfm-3b nur 16 gb speicher, während metas llama-3.2-3b mehr als 48 gb speicher benötigt.
lfm nutzt die kontextlänge wirklich aus
die folgende tabelle vergleicht die leistung mehrerer modelle bei unterschiedlichen kontextlängen.
dieses effiziente kontextfenster ermöglicht erstmals langkontext-aufgaben auf edge-geräten. für entwickler eröffnet es neue anwendungen, darunter dokumentanalyse und -zusammenfassung, sinnvollere interaktionen mit kontextsensitiven chatbots und eine verbesserte leistung der retrieval-augmented generation (rag).
diese modelle sind nicht nur in bezug auf die reinen leistungsbenchmarks wettbewerbsfähig, sondern auch in bezug auf die betriebseffizienz, was sie ideal für eine vielzahl von anwendungsfällen macht, von anwendungen der unternehmensklasse bis hin zum einsatz von geräten im finanzdienstleistungsbereich, in der biotechnologie und in der unterhaltungselektronik.
benutzer können über lambda chat oder perplexity ai usw. darauf zugreifen.
wie liquid über den generativen vortrainierten transformer (gpt) hinausgeht
liquid verwendet eine mischung aus recheneinheiten, die tief in den theorien der dynamischen systemtheorie, der signalverarbeitung und der numerischen linearen algebra verwurzelt sind. das ergebnis war die entwicklung universeller ki-modelle, mit denen jede art von sequenzdaten, einschließlich video, audio, text, zeitreihen und signale, simuliert werden kann, um das neue lfm zu trainieren.
bereits letztes jahr verwendete liquid ai eine methode namens lnn (liquid neural networks), die tausende von neuronen benötigt, um komplexe aufgaben auszuführen. lnn zeigt, dass weniger neuronen (in kombination mit innovativen mathematischen formeln) dasselbe erreichen können ergebnisse.
die neuen modelle von liquid ai behalten den kernvorteil dieser anpassungsfähigkeit bei und ermöglichen echtzeitanpassungen während der inferenz ohne den rechenaufwand, der mit herkömmlichen modellen verbunden ist. kann bis zu 1 million token effizient verarbeiten und gleichzeitig den speicherverbrauch minimieren.
in bezug auf den inferenzspeicherbedarf übertrifft das lfm-3b-modell beispielsweise beliebte modelle wie googles gemma-2, microsofts phi-3 und metas llama-3.2, insbesondere wenn die tokenlänge erweitert wird.
während andere modelle bei der verarbeitung langer kontexte einen dramatischen anstieg der speichernutzung verzeichnen, nimmt lfm-3b viel weniger platz ein und eignet sich daher ideal für anwendungen, die eine umfangreiche sequentielle datenverarbeitung erfordern, wie z. b. dokumentenanalysen oder chatbots.
liquid ai hat sein grundmodell als universelles modell für mehrere datenmodalitäten, einschließlich audio, video und text, aufgebaut.
mit dieser multimodalen fähigkeit möchte liquid eine vielzahl branchenspezifischer herausforderungen lösen, die von finanzdienstleistungen bis hin zu biotechnologie und unterhaltungselektronik reichen.
liquid ai optimiert seine modelle für produkte mehrerer hardwarehersteller, darunter nvidia, amd, apple, qualcomm und cerebras.
liquid ai lädt frühe benutzer und entwickler ein, ihre neuen modelle zu testen und feedback zu geben. obwohl das modell noch nicht perfekt ist, plant das unternehmen, das feedback zu nutzen, um das produkt zu verbessern. sie werden am 23. oktober 2024 am mit eine offizielle auftaktveranstaltung abhalten.
um die transparenz zu wahren und die wissenschaft voranzutreiben, plant das unternehmen, vor der markteinführung eine reihe technischer blogbeiträge zu veröffentlichen. sie ermutigen benutzer außerdem, red-team-tests durchzuführen, um die grenzen des modells zu erkunden und so zur verbesserung künftiger versionen beizutragen.
das von liquid ai eingeführte lfm kombiniert hohe leistung und effiziente speichernutzung und bietet eine leistungsstarke alternative zu herkömmlichen transformer-basierten modellen. dies lässt liquid ai voraussichtlich zu einem wichtigen akteur im bereich der basismodelle werden.
liquid ai: beginnend mit einem winzigen fehler
dieses startup, das offen mit openai und anderen großen sprachmodellunternehmen konkurriert, wurde vom labor für informatik und künstliche intelligenz csail des mit gegründet und im märz 2023 gegründet.
im dezember 2023 erhielt das unternehmen eine seed-finanzierung in höhe von 37,5 millionen us-dollar mit einer bewertung von 300 millionen us-dollar.
zu den investoren zählen github-mitbegründer tom preston werner, shopify-mitbegründer tobias lütke, red hat-mitbegründer bob young usw.
daniela rus, direktorin des mit csail, ist eine der gründerinnen des unternehmens. die berühmte robotikerin und informatikerin ist auch die erste weibliche direktorin des labors.
neben daniela rus waren die anderen drei mitbegründer von liquid ai allesamt postdoktoranden am mit csail.
mitbegründer und ceo ramin hasani war leitender wissenschaftler für künstliche intelligenz bei vanguard, einer der größten fondsverwaltungsgesellschaften in den vereinigten staaten, bevor er als postdoktorand am mit csail forschte.
mitbegründer und cto mathias lechner hatte bereits während ihres studiums an der technischen universität wien mit hasani die neuronale struktur von nematoden untersucht.
mitbegründer und chief scientific officer alexander amini war doktorand von daniela rus.
die vier gründer (von links nach rechts) ceo ramin hasani, daniela rus, chief scientific officer alexander amini und cto mathias lechner
im jahr 2017 „holte“ daniela rus hasani und lechner zum mit csail, und rus und ihr doktorand amini beteiligten sich ebenfalls an der forschung zu flüssigen neuronalen netzen.
daniela rus wies darauf hin, dass generative ki offensichtliche einschränkungen hinsichtlich sicherheit, interpretierbarkeit und rechenleistung aufweist, was ihren einsatz zur lösung von roboterproblemen, insbesondere von mobilen robotern, erschwert.
inspiriert von der neuronalen struktur des nematoden caenorhabditis elegans, einem „häufigen gast“ in der wissenschaftlichen forschungsgemeinschaft, entwickelten daniela rus und postdoktoranden in ihrem labor einen neuen typ eines flexiblen neuronalen netzwerks, auch bekannt als flüssiges neuronales netzwerk.
caenorhabditis elegans ist zudem der einzige organismus, für den die konnektombestimmung abgeschlossen ist (stand 2019). obwohl das gehirn einfach ist, kann es viel besser lernen und sich an die umgebung anpassen als jedes aktuelle system der künstlichen intelligenz.
caenorhabditis elegans ist nur 1 mm lang, hat nur 302 neuronen und 96 muskeln, ist aber zu komplexen intelligenten verhaltensweisen wie spüren, entkommen, nahrungssuche und paarung fähig.
es ist der einfachste lebende intelligente agent und der kleinste träger zur realisierung allgemeiner künstlicher intelligenz durch simulation biologischer neuronaler mechanismen.
in den letzten jahren haben wissenschaftliche forscher auch forschungsergebnisse zu c. elegans-nerven genutzt, um biologische computersimulationen durchzuführen. indem sie untersuchten, wie das gehirn von c. elegans funktioniert, entwarfen daniela rus und andere ein „flüssiges zeitkonstantes netzwerk“:
ein zeitkontinuierliches modell, das aus mehreren einfachen dynamischen systemen besteht, die sich gegenseitig durch nichtlineare gatter regulieren.
wenn wir sagen, dass ein standardmäßiges neuronales netzwerk wie eine schicht aus gleichmäßig verteilten dämmen ist, wobei auf jeder schicht von dämmen viele ventile (gewichte) installiert sind, muss der berechnete strom jedes mal, wenn er eine schicht von dämmen durchquert, diese ventile passieren, und dann eile zum nächsten level.
nun, flüssige neuronale netze benötigen keine dämme, da jedes neuron durch eine differentialgleichung (ode) gesteuert wird.
diese art von netzwerk zeichnet sich durch variable zeitkonstanten aus und die ausgabe wird durch lösen von differentialgleichungen erhalten. untersuchungen zeigen, dass es herkömmliche modelle in bezug auf stabilität, aussagekraft und zeitreihenvorhersage übertrifft.
später schlugen daniela rus und andere eine näherungsmethode vor, mit der lösungen in geschlossener form verwendet werden können, um die interaktion zwischen neuronen und synapsen (zeitkontinuierliche neuronale netze in geschlossener form) effizient zu simulieren, was nicht nur die berechnungsgeschwindigkeit des modells erheblich verbesserte, sondern auch weist eine bessere skalierbarkeit auf und bietet eine gute leistung bei der zeitreihenmodellierung, wobei es viele fortgeschrittene modelle rekurrenter neuronaler netzwerke übertrifft.
mitglieder des liquid ai-teams haben behauptet, dass die architektur für die analyse jedes phänomens geeignet ist, das im laufe der zeit schwankt, einschließlich videoverarbeitung, autonomes fahren, gehirn- und herzüberwachung, finanzhandel (börsenkurse) und wettervorhersagen.
ein weiteres merkmal flüssiger neuronaler netze ist nicht nur, dass sie flexibel wie eine flüssigkeit sind, sondern auch, dass sie viel kleiner sind als generative ki-modelle, die oft über milliarden von parametern verfügen.
beispielsweise verfügt lfm 1.3b, das in stark ressourcenbeschränkten umgebungen eingesetzt werden kann, nur über 1,3b-parameter (ähnlich der gpt-2-maximalversion 1.5b), behält jedoch einen geringeren speicherbedarf und eine effizientere inferenz bei und kann dies auch tun wird in verschiedenen ausführungen auf der roboter-hardwareplattform verwendet.
darüber hinaus haben flüssige neuronale netze aufgrund ihrer geringen größe und einfachen architektur auch den vorteil der interpretierbarkeit.
es bleibt jedoch abzuwarten, wie die neue architektur mit mainstream-modellen von wettbewerbern wie openai konkurrieren wird.
hasani sagte, dass liquid ai derzeit keine pläne habe, anwendungen wie chatgpt für verbraucher zu entwickeln. das unternehmen konzentriert sich zunächst auf firmenkunden, die finanz- und medizinische forschung modellieren möchten.
referenzlinks:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai