ein artikel zum verständnis von meta connect 2024: llama 3.2 ist da, ar-brille orian enthüllt

2024-09-26

tencent technology-autor wu bin hao boyang

herausgeber zheng kejun

am 26. september um 1:00 uhr pekinger zeit fand die jährliche meta connect 2024 in menlo park, kalifornien, statt. zuckerberg startete mit dem erwarteten neuen produkt quest 3s und kündigte an, dass metas traum vom metaversum begonnen habe, sich auf den einstiegsmarkt für verbraucher auszudehnen.

gleichzeitig kündigte meta auch die neueste version 3.2 seines großen ki-modells llama an, das visuelle multimodale funktionen in kombination mit der neuesten ki-sprachdialogfunktion ai voice bietet. die größte bedeutung der veröffentlichung dieser modelle besteht darin, dass meta alle gängigen multimodalen modelle fertiggestellt hat, was eine solide grundlage für die integration von ki- und xr-hardware legt. gleichzeitig sind mehrere von meta angekündigte ki-anwendungen, wie etwa ki-echtzeitübersetzung und echtzeit-ki-digital-human vergleichbar mit „her 2.0“, auch bei branchenlösungen einen schritt weiter gegangen und haben das potenzial, sich zu killeranwendungen zu entwickeln .

darüber hinaus wird die dieses mal veröffentlichte ar-brille orion von xiao zha als die leistungsstärkste ar-brille auf der welt bezeichnet. sie bietet auch mehr zugänge zur zukünftigen metaversum-welt. obwohl es immer noch nicht perfekt ist, ist es auch ein produkt, das den ehrgeiz der endgültigen form von ki-geräten für räumliches rechnen in sich trägt. laut ausländischen medienberichten belaufen sich die kosten für dieses produkt auf über 10.000 us-dollar.

mate besteht weiterhin darauf, die beiden wege des metaversums und der ki weiter voranzutreiben, und strebt danach, virtuelle realität und künstliche intelligenz durch die integration von produkten zu kombinieren.

auf der connect-konferenz im jahr 2024 zeigte zuckerberg der welt erneut die von ihm entworfene einstiegsform der virtuellen realität. wir sahen die integration von virtualität und realität, die integration von autonomer steuerbarkeit und künstlicher intelligenz sowie die form der realität produkte und integration zukünftiger betriebserfahrungen.

zuckerberg fasst die pressekonferenz zusammen: meta bringt fünf neue produkte auf den markt und arbeitet hart daran, eine offenere zukunft aufzubauen

meta quest 3s ist da, der preis ist reduziert, aber nicht die materialien

meta quest 3s erschien als erstes, und dieses mal wurde der produktpreis selten vor parametern und neuen funktionen veröffentlicht.

zuckerberg möchte allen mitteilen, dass diese neue vr-brille nur für 299,99 us-dollar erhältlich ist, was ganze 200 us-dollar günstiger ist als die quest 3, die im gleichen zeitraum des letzten jahres veröffentlicht wurde. außerdem verfügt sie im vergleich zur quest 3 nicht über allzu viele funktionen.

meta quest 3s verfügt über den gleichen qualcomm snapdragon xr2 gen 2-chip und 8 gb arbeitsspeicher wie sein „großer bruder“ quest 3, was bedeutet, dass sie über genau die gleiche rechenleistung für die datenberechnung verfügen.

gleichzeitig verwendet quest 3s denselben touch plus-controller wie quest 3 und unterstützt die technologie zur erfassung von augen- und handbewegungen.

sogar quest 3s hat eine längere akkulaufzeit. laut den offiziellen daten von meta kann das quest 3s mit einem eingebauten 4324-mah-akku eine akkulaufzeit von 2,5 stunden erreichen, während das quest 3 mit einer größeren akkukapazität (5060 mah) nur maximal 2,2 stunden arbeiten kann.

da es sich um ein billiges virtual-reality-brillenprodukt handelt, ist das bedauern, dass es nicht die gleiche fresnel-linse wie die serien quest 1 und 2 verwendet. es ist relativ ausgereift und kostengünstig, aber es bedeutet auch, dass seine gesamtgröße und sein gewicht größer sein werden als das von quest 3.

der eigentliche unterschied zwischen den beiden produkten liegt jedoch in der unterschiedlichen anzeigewirkung: quest 3s verwendet ein schnell umschaltendes lcd mit 1832 x 1920 (20 ppd-pixel pro grad) und einer bildwiederholfrequenz von 90/120 hz.

sein horizontales und vertikales sichtfeld beträgt nur 96 bzw. 90 grad, verglichen mit dem 2064 x 2208 (25 ppd-pixel pro grad) und 110 grad horizontalen und 96 grad vertikalen sichtfeld des quest 3.

offensichtlich demonstriert quest 3s den ehrgeiz von meta im rahmen des metaverse-traums seit vielen jahren. es verwendet virtual-reality-brillen mit kernkonfigurationen, die den mainstream-produkten nahe kommen, aber billiger sind, um die popularisierung von vr-brillen bei einer breiteren benutzerbasis zu fördern.

eine weitere treibende kraft, die meta dazu antreibt, ein solches produkt zu entwickeln, ist sein virtual-reality-ökosystem, das sich immer noch schrittweise verbessert.

auf der pressekonferenz sagte zuckerberg, dass quest 3s die dolby vision-technologie unterstützen und eine bildschirmerkennungsfunktion hinzufügen wird, die den verwendeten computer identifizieren und den bildschirm mit einem klick übertragen kann. dies erweitert die breiteren einsatzszenarien von am kopf montierten virtual-reality-produkten wie quest 3s.

bei einer live-demonstration dieser technologie stürzte meta jedoch unerwartet ab, was für einen jubelschrei im publikum sorgte.

anschließend zeigte zuckerberg die neueste version von horizon worlds, obwohl es immer noch wie ein „spielhaus“-spiel aussieht, es verbessert sich langsam: in diesem jahr wurde die multiplayer-youtube-funktion eingeführt, die hoffentlich mehr youtube-nutzer anlocken wird.

was die drittanbieter-apps angeht, kommt die größte überraschung von „batman: arkham shadow“, das am 22. oktober erscheint und mit den neuen quest 3 und 3s gebündelt wird und bis april nächsten jahres gültig ist. das bereits angekündigte „alien: rogue invasion“ und das zombiespiel „arizona sunshine“ werden ebenfalls auf der quest-plattform veröffentlicht. darüber hinaus kündigte meta auch an, wordle (ein täglich von der new york times veröffentlichtes wortspiel) für quest herauszubringen.

übrigens, damit sie das neue quest 3s kaufen können, hat meta die initiative ergriffen, die produktion von quest 2 und quest pro einzustellen. nachdem der lagerbestand dieser beiden produkte ausverkauft ist, sind dies die einzigen optionen, die sie wählen können sind das günstigere quest 3s oder das günstigere quest 3s. es handelt sich um das quest 3 mit höherer konfiguration.

xiao zha sagte, dass das leistungsstärkste endseitenmodell llama 3.2 hier sei

meta bringt das multimodale großmodell llama 3.2 auf den markt, die leichte version kann auf mobiltelefonen ausgeführt werden

wie schon bei der letzten connect-konferenz ist auch bei dieser konferenz der protagonist unverzichtbar: ki.

zuckerberg kündigte das 3.2-update seines basismodells llama an. das große modell ist in den versionen 90b und 11b erhältlich, und das endmodell ist in den größen 1b und 3b erhältlich.

xiao zha demonstrierte eine neue produktfunktion, die für llama 3.2 entwickelt wurde: durch das hochladen von bildern können sie nicht nur magische pinselfunktionen löschen und hinzufügen, sondern auch die kleidung des charakters basierend auf der textbeschreibung direkt ändern und sogar den aktuellen hintergrund durch einen regenbogen ersetzen.

laut der von mata bereitgestellten technischen dokumentation kann llama 3.2 direkt als eine version von llama 3.1 verstanden werden, die multimodalität unterstützt. weil meta die parameter seines sprachmodells während des bilderkennungstrainingsprozesses nicht aktualisiert.

in bezug auf die trainingsmethode verwendet meta eine konventionellere methode: es fügt llama3.1 einen bildadapter und encoder hinzu, verwendet das diffusionsmodell, um den entsprechenden text und die bilder zu trainieren, und führt dann eine feinabstimmung des domäneninhalts durch.

schließlich verwendet llama 3.2 in der nachtrainingsphase der anpassung des modells auch mehrere runden überwachter feinabstimmung, ablehnungsstichprobe (unter verwendung einer hilfsverteilung zur generierung von stichproben und annahme oder ablehnung von stichproben entsprechend einer bestimmten wahrscheinlichkeit) und direkter präferenz optimierung. lassen sie das modell ausrichten.

interessanterweise verwendete meta während dieses prozesses llama 3.1, um mehrere sätze von bildunterschriften zu generieren, um die beschreibung des bildes durch das modell zu optimieren.

meta verwendet llama 3.1, um mehrere sätze von bilduntertiteln zu generieren, um die beschreibung des bildes durch das modell zu optimieren.

in den testergebnissen von meta liegt die fähigkeit zum grafischen denken der 90b-version von llama 3.2 in mehreren tests vor gpt 4o-mini. die 11b-version übertrifft die haiku-version, eine kleinere version von claude 3, um längen.

zuckerberg sagte, dass die clientseitigen versionen 1b und 3b von llama 3.2 die leistungsstärkste clientseitige ki sein werden.

es akzeptiert derzeit die texteingabe und -ausgabe und unterstützt eine maximale kontextlänge von 128 kb-tokens. diese beiden endseitigen modelle wurden durch beschneiden (ausschneiden von parametern mit geringer auslastung im großen modell) und destillation (unter verwendung des großen modells als lehrer und des kernparameter-trainingsmodus des lernens kleiner modelle) auf llama 3.1 8b trainiert 70b. während des feinabstimmungstrainingsprozesses wurden auch synthetische daten hinzugefügt, die von llama 3.1 405b bereitgestellt wurden, um seine leistung in mehreren funktionen wie zusammenfassung, umschreiben, befolgen von anweisungen, sprachlichem denken und werkzeuggebrauch zu optimieren.

die pressekonferenz zeigte, dass die 3b-version von llama 3.2 das von google im juni veröffentlichte gemma 2 2b-modell und das im august von microsoft veröffentlichte phi 3.5 3.8b-modell in vielen indikatoren übertraf, insbesondere wenn es um häufig verwendete terminalseitige funktionen wie z b. zusammenfassung, befehlsfolge und der punktevorteil ist bei der umschreibeaufgabe offensichtlich.

auf dem testset ifeval, das die fähigkeit testet, benutzeranweisungen zu befolgen, verbessert sich beispielsweise die version llama 3.2 3b im vergleich zu phi 3.5 derselben größe um mehr als 20 %. auch in den beiden benchmarks, die die aufruffähigkeit von tools testen, hat llama 3.2 deutliche vorteile.

damit ist llama 3.2 laut xiao zha derzeit „das stärkste“ in bezug auf die praktische anwendungserfahrung auf der geräteseite. allerdings bleibt llama 3.2 3b in bezug auf grundfähigkeiten wie denken und mathematik größtenteils hinter phi 3.5 mini zurück.

darüber hinaus unterstützen diese modelle am tag der markteinführung qualcomm- und mediatek-hardware und sind für arm-prozessoren optimiert.

neben llama 3.2, das das multimodale verständnis von bildern unterstützt, hat meta dieses mal auch meta ai voice auf der connect vorgestellt. alle gängigen multimodalen funktionen auf einmal ausführen. bei live-demonstrationen kann es wie gpt-4o die dialogunterbrechung unterstützen und der klang ist sehr natürlich, aber leider zeigt es nicht, dass es über die satte intonation und den emotionalen ausdruck von gpt-4o verfügt.

obwohl die leistung nur gpt-4o entspricht, hat meta ai voice ein neues verkaufsargument gefunden: es bietet sprachoptionen für fünf prominente, wie judi dench von der kaltgesichtigen chefin in 007 und die heldin von crazy rich asians . die stimme des protagonisten lin jiazhen.

im vergleich zu openai, das vor gericht wegen angeblichen diebstahls der stimme von scarlett johansson verklagt wurde, ist meta in dieser hinsicht offensichtlich zuverlässiger. laut dem wall street journal hat meta „millionen dollar“ für die stimme jedes prominenten gezahlt. einige prominente möchten die verwendung ihrer stimmen einschränken und sicherstellen, dass sie nicht haftbar gemacht werden, wenn meta ai verwendet wird.

laut „reuters“ wird celebrity voice diese woche in den usa und anderen englischsprachigen märkten über die app-familie von meta, darunter facebook, instagram und whatsapp, eingeführt.

neben der ergänzung grundlegender modellfunktionen demonstrierte meta auch einige neue funktionen in ki-anwendungen. diese funktionen werden größtenteils von bestehenden ki-lösungen unterstützt, meta geht jedoch noch einen schritt weiter. es eignet sich auch besser für die einsatzszenarien von social media oder ki-brillen.

beispielsweise unterstützt meta ai studio jetzt die direkte konstruktion digitaler menschlicher ki-systeme. bei live-demonstrationen war die latenz von gesprächen mit digitalen menschen sehr gering und die bewegungseffekte und geräusche waren real und natürlich.

meta ai studio unterstützt den direkten aufbau digitaler menschlicher ki-systeme

stellen sie sich vor, sie hätten eine ki, die mit einer so echten stimme und einem gesicht zu ihnen spricht, als ihren emotionalen begleiter. ich würde sie gerne als „sichtbare“ her 2.0 bezeichnen.

ob es ein goldenes zeitalter der ki-begleitprodukte einläuten wird, müssen die benutzer noch weiter testen.

ein weiteres sehr erstaunliches produkt ist die meta live-übersetzung. mit den neuen multimodalen funktionen von meta ai kann es die mundform der originalsprache direkt erkennen und durch die mundform der zielsprache ersetzen. diese funktion wurde tatsächlich von unternehmen wie heygen implementiert, aber basierend auf der breite der meta-anwendungsabdeckung könnte es das erste völlig beliebte verwandte produkt werden.

obwohl llama 3.1 bereits das von entwicklern am weitesten verbreitete open-source-modell ist, hat meta auf der connect-konferenz auch die erste offizielle version des llama-produktentwicklungstools llama stack veröffentlicht, die den arbeitsablauf erheblich vereinfachen kann von entwicklern, die llama-modelle in verschiedenen umgebungen verwenden, und kann auch die bereitstellung von tool-basierten anwendungen wie retrieval enhanced generation (rag) und integrierten sicherheitsfunktionen mit einem klick ermöglichen.

die veröffentlichung von llama 3.2 ist für meta von großer bedeutung. es ergänzt die kernmängel von llama bei hochmodernen multimodalen modellen und bildet auch die grundlage für die multimodalen funktionen seiner nachfolgenden ki-hardwareprodukte, wie etwa ray-ban-brillen, die ki-intelligenz unterstützen.

das beliebte produkt „ray-ban-brillen“ schmiedet das heiße eisen und bringt neue produkte auf den markt

auf der meta connect-konferenz im letzten jahr hätte niemand erwartet, dass das beliebteste produkt nicht die quest 3, sondern die von meta und dem brillenhersteller ray-ban auf den markt gebrachte ki-brille der zweiten generation war.

obwohl die erste generation unbekannt ist, hindert sie technikbegeisterte in europa und den usa nicht daran, sich auf den kauf der zweiten generation der ray-ban-datenbrillen zu begeben. laut idc-statistiken hat meta mehr als 700.000 ray-ban-brillen ausgeliefert insbesondere das auftragsvolumen im zweiten quartal dieses jahres, das höher ist als das der ersten generation, hat sich von quartal zu quartal mehr als verdoppelt. während des gesamten lebenszyklus der ray-ban meta-brillen beliefen sich die weltweiten verkäufe (stand mai 2024) auf über 1 million einheiten, und der markt geht davon aus, dass die auslieferungen für das gesamtjahr 2024 1,5 millionen einheiten übersteigen werden.

meta schlug zu, als das eisen noch heiß war, und brachte in diesem jahr sofort sein neues produkt auf den markt.

anstatt zu sagen, dass es sich um ein neues produkt handelt, ist es besser zu sagen, dass es sich um einen brandneuen durchscheinenden stil handelt, da das gesamtdesign genau das gleiche ist wie im letzten jahr.

aber es hat einen transparenten brillenkörper mit einem stärkeren sinn für technik – wie erwartet haben hardware-unternehmen auf der ganzen welt das gleiche verständnis von „sinn für technik“, der durchscheinend sein muss.

meta hat dieser brillengeneration weitere ki-funktionen hinzugefügt. die größte verbesserung ist die hinzufügung einer bilderkennungsfunktion mit künstlicher intelligenz in echtzeit, die es benutzern ermöglicht, ray-ban meta-brillen nach der szene oder dem objekt zu fragen, die sie gerade sehen. benutzer können qr-codes auch direkt durch ihre brille scannen und telefonnummern anrufen, die sie in sichtweite sehen.

darüber hinaus unterstützt die sonnenbrille smartphone-ähnliche erinnerungsfunktionen, sprachübersetzungen in echtzeit, einschließlich englisch ins französische, italienische oder spanische, und die integration mit musik-streaming-apps wie amazon music, audible und iheart radio.

orian, laut meta die ultimative form der ar-brille?

orian hätte schon vor langer zeit in massenproduktion hergestellt werden sollen, aber aufgrund der allgemeinen budgetkürzungen von meta aufgrund der epidemie beschloss zuckerberg, die veröffentlichung zurückzustellen. dies führte dazu, dass meta sein erstes ar-brillenprodukt erst 2024 auf den markt brachte.

dabei handelt es sich um eine ar-brille, die nur 98 gramm wiegt, was unter den ar-brillenprodukten nicht besonders leicht ist.

die rahmen von orian bestehen aus einer magnesiumlegierung, die leichter als aluminium ist und wärme besser ableiten kann. die linsen bestehen aus siliziumkarbid, das langlebig und leicht ist und einen hohen brechungsindex aufweist, wodurch sich das vom projektor auf die brille ausgestrahlte licht auf einen größeren sichtbereich ausdehnen kann.

aber orian eine ar-brille zu nennen, scheint nicht streng zu sein. wenn es richtig funktionieren will, muss es mit einem armband und einem rechenkörper zusammenarbeiten.

das rechengehäuse bietet mehr rechenleistung und die brille kann nicht alleine arbeiten. wenn sie orian normal nutzen möchten, müssen sie das rechengehäuse ständig an ihrer seite tragen.

das armband erledigt eine interessantere aufgabe, es besteht aus leistungsstarken textilmaterialien und nutzt elektromyographie (emg), um die mit gesten verbundenen neuronalen signale zu verstehen. innerhalb weniger millisekunden werden diese signale in eingangssignale umgewandelt und an den computeragenten übermittelt, ein bisschen wie in einem science-fiction-film.

was das display betrifft, verfügt orion über ein 70-grad-sichtfeld und ist mit einem micro-led-projektor im rahmen ausgestattet, der bilder auf das siliziumsubstrat der linse projizieren kann. dies ähnelt dem funktionsprinzip aller aktuellen ar-brillen .

zuckerberg sagte, er hoffe, dass die menschen orion für zwei hauptzwecke nutzen werden: die kommunikation mit digitalen informationen, die der realen welt überlagert sind, und die interaktion mit künstlicher intelligenz.

letzteres ist leichter zu verstehen. orion verfügt über dieselben ki-funktionen wie ray-ban meta-brillen, einschließlich neu hinzugefügter bilderkennungsfunktionen und sprachinteraktionsfunktionen.

ersteres ist abstrakter. vor ort demonstrierte meta eine szene, die holografische bilder mit der realen welt kombiniert. meta hat für diese brille eine ar-version der messenger-anwendung entwickelt, mit der holografische projektionsvideoanrufe in echtzeit realisiert werden können, als ob die andere partei daneben stünde du.

um für ar-brillen zu werben, stellte meta auch huang renxun als erste welle von nutzern vor, die orion erlebten, und sagte: „huang hat es ausprobiert und gesagt, es sei gut“!

nach ansicht von zuckerberg wird die reifung von ar-brillen ein schrittweiser prozess sein. einerseits werden brillen mit künstlicher intelligenz ohne display wie ray-ban meta schneller populär werden.

auf der anderen seite wird es durch brillen mit kleinen displays populär gemacht, wie etwa die kommende hypernova von meta, die einfachere touch-interaktionen ermöglichen kann, etwa die interaktion mit meta ai oder die kommunikation mit freunden.

xiao zha sagte, dass orion die endgültige form einer ar-brille darstelle: ausgereifte ar-brillen verfügen über genügend rechenleistung, um es zu ermöglichen, das smartphone zu hause zu lassen.

obwohl wir vom mobiltelefon getrennt sind, müssen wir den computer immer noch mitnehmen, wenn wir ausgehen, was noch lange nicht die endgültige form ist, die wir uns vorgestellt haben.

darüber hinaus gibt es auch rechtzeitig ein becken mit kaltem wasser: die akkulaufzeit des orion beträgt nur 2 stunden. einfacher ausgedrückt: orion kann ihnen nur 2 stunden lang erlauben, ein superheld in der virtuellen welt zu sein.

und die ultimative freiheit einer ar-brille zu erkennen, ist möglicherweise nicht allzu billig. laut ausländischen medienberichten wie the verge und techcrunch sagten meta-mitarbeiter bei der vorführung der testmaschine, dass die aktuellen hardwarekosten von orion 10.000 us-dollar übersteigen. dies bedeutet, dass der preis dieses produkts viel höher ist als der des vision pro von apple.

abschluss

vom scheitern des metaversums im jahr 2022 und dem spott vieler parteien bis hin zum aufstieg zum könig der open-source-ki im jahr 2023 und dem einsatz von datenbrillen in diesem jahr, um die tür zu einer neuen generation von ki-hardware zu öffnen. zuckerberg gelang in den vergangenen drei jahren ein nahezu unmöglicher gegenangriff.

in dieser zeit wurden seine beiden wichtigen entscheidungen: open-source-ki zu entwickeln und leichte datenbrillen zu entwickeln, beide heute in connect verwirklicht.

anhand der darstellung von ray-ban-brillen, die mit ki-funktionen ausgestattet sind, haben wir tatsächlich die vorteile von brillen als träger im ki-zeitalter gesehen: sie können nicht nur große modelle per sprache anrufen, sondern auch das potenzial am direktsten nutzen der multimodalen ki. das direkte „ansehen“ ist ein viel natürlicheres benutzererlebnis als das „scannen“ mit einem mobiltelefon. und diese direktheit dürfte den transfer der nächsten generation smarter geräte bestimmen.

der zuletzt veröffentlichte orion ist ein zukünftiges werk, das den ehrgeiz der endgültigen form von ki-geräten für räumliches rechnen in sich trägt. im vergleich zum schweren und unbequemen vision pro ähnelt xiao zhas leichtes mr-vision eher der zukunft des räumlichen rechnens. und nun hat diese vision gestalt angenommen. wenn die migration intelligenter geräte im ki-zeitalter stattfinden soll, ist meta im vergleich zu kleinen versuchen wie ai pin das unternehmen, das seiner schwelle am nächsten kommt.

wenn man im jahr 2022 mit einem menschen über all das spricht, wird er es ganz sicher nicht glauben.zuckerberg, ein etwas zwielichtig wirkender tech-nerd, hält sein versprechen wirklich und führt uns immer näher an den eingang des metaversums.

nachricht