2024-09-26
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autor | cheng qianzer0
bearbeiten | xin yuan
zhidongxi berichtete am 26. september, dass heute um 1:15 uhr pekinger zeit die jährliche meta connect 2024-konferenz „mr circle spring festival gala“ offiziell begonnen hat.
mark zuckerberg, ceo von meta, betrat die bühne in einem schwarzen t-shirt und veröffentlichte die nachricht in vollem gangesuche 3skopfanzeige,lama 3.2großes modell,ray-ban-datenbrille、holografische ar-brillewarten auf neue produkte.
das erste neue hardwareprodukt, das zuckerberg vorstellte, warsuche 3s, schockierender preis299,99 $(entspricht ca. rmb 2.110).
obwohl seine leistung etwas schlechter ist als die von metas erstem all-in-one-mr-gerät für endverbraucher, dem quest 3, ist der einstiegspreis200 $ rabatt, ungefähr gleich apple vision pro1/11, eine wirklich kostengünstige maschine! ! !
auch große modelle sind neu erschienen! meta-multimodales modelllama 3.2veröffentlicht, einschließlich der parameter 90b und 11bvisuelles großes sprachmodellsowie die parameter 1b und 3bleichtes klartextmodell。
mit lama 3.2,meta-kieinführung einer neuen multimodalen funktion, die die sprachinteraktion unterstützt und über eine vielzahl von tonoptionen verfügt (einschließlich der stimmen einiger prominenter). zuckerberg demonstrierte einen live-voice-chat mit meta ai, der sehr reibungslos verlief.
es gibt auch ar-brillen, die meta als die fortschrittlichsten aller zeiten bezeichnet –holografische ar-brille„orion“。
nvidia-gründer und ceo jensen huang hat es bereits versucht.
01.
quest 3s: erschwingliche und erschwingliche version zum preis von 300 us-dollar.
die leistung ist fast die gleiche wie bei quest 3
zunächst einmal ist die erschwingliche version des quest-geräts da!
meta direktsuche 3sder preis ist um 200 us-dollar reduziert (entspricht etwa 1.406 rmb) und die leistung entspricht fast der von quest 3.
der preis für die meta quest 3s 128gb-version liegt bei299,99 $(entspricht ca. 2.110 rmb), die 256-gb-version ist zum preis erhältlich399,99 $(entspricht ca. rmb 2.813). das 512 gb große quest 3 ist499,99 $(entspricht ca. 3.516 rmb).
beide headsets nutzen den gleichen prozessorqualcomm snapdragon xr2 gen 2-chip. der schlüssel zum deutlichen preisverfall liegt darin, dass das quest 3s das pancake-objektiv ersetzt hatunendliche linse。
der live-vorführung nach zu urteilen, verfügt das quest 3s mit 4k-display über eine sehr klare darstellung und unterstützt auch dolby atmos surround.
metahorizon os neu erstelltum räumliches rechnen zu erreichen, kann es benutzer besser bei der verwendung grundlegender 2d-anwendungen wie youtube, facebook und instagram unterstützen.
meta hinzugefügträumliches audio, und verbessertpassthroughder kontrast und die farbe machen die bildpräsentation realistischer und immersiver.
zuckerberg gibt bekannt, dass meta mit zusammenarbeitetmicrosoftkooperieren, nutzenwindows 11-pcum ein nahtloses virtuelles desktop-erlebnis zu erreichen.
meta bietet bereits multi-screen-unterstützung und die möglichkeit, direkt mit dem geschehen auf dem display zu interagieren. beispielsweise können benutzer die schnittstelle im notebook direkt auf das quest-gerät ziehen.
um eine realistischere metaverse-umgebung zu schaffen, wurde meta gestartethyperscapebenutzer müssen lediglich den raum, in dem sie sich befinden, mit ihrem mobiltelefon scannen und dann das headset tragen, um den raum jederzeit „reproduzieren“ zu können.
mit diesem am kopf montierten anzeigegerät können sie in der ersten reihe sitzen, um konzerte anzusehen, im heimkino sitzen, um hochauflösende blockbuster anzusehen, sport zu treiben und vieles mehr.
darüber hinaus ist quest 3s mit den tausenden apps und der vollständigen spielebibliothek von meta sowie den kommenden exklusiven quest 3- und 3s-spielen wie batman: arkham shadow kompatibel.
für diejenigen, die neu bei xr sind oder auf einen preisverfall bei den quest- und quest 2-geräten gewartet haben, ist das quest 3s möglicherweise die bessere wahl.
02.
llama 3.2: das visuelle modell holt gpt-4o mini ein,das 1b-endseitenmodell ist mit gemma vergleichbar
im hinblick auf open-source-ki hat meta ein neues multimodales großes modell veröffentlichtlama 3.2。
llama 3.2 verfügt über zwei visuelle große sprachmodelle mit 90b- und 11b-parameterspezifikationen sowie leichte 1b- und 3b-klartextmodelle, die lokal auf dem gerät ausgeführt werden können, einschließlich versionen vor dem training und an anweisungen angepasst.
download-adresse:https://www.llama.com/
unterstützung für 1b- und 3b-modelle128.000 tokenkontext, passt sich an qualcomm- und mediatek-hardware und -ziele anarmprozessoroptimiert.
3b-modellübertrifft die modelle gemma 2 2.6b und phi 3.5-mini bei aufgaben wie dem befolgen von anweisungen, dem zusammenfassen, schnellem umschreiben und der verwendung von werkzeugen.1b-modelldie leistung ist vergleichbar mit gemma.
visuelle modelle 90b und 11bes ist ein direkter ersatz für das entsprechende textmodell und seine leistung bei bildverständnisaufgaben ist besser als die geschlossener modelle wie claude 3 haiku und gpt-4o mini.
wenn sie beispielsweise ein unternehmen fragen, welcher monat im letzten jahr den höchsten umsatz verzeichnete, kann llama 3.2 anhand der verfügbaren diagramme schlussfolgern und schnell eine antwort liefern.
es kann auch karten zur begründung und beantwortung von fragen verwenden, beispielsweise zur entfernung eines bestimmten, auf der karte markierten pfades.
visuelle modelle können auch dabei helfen, geschichten zu erzählen, indem sie details aus einem bild extrahieren, die szene verstehen und dann einen oder zwei sätze als bildunterschrift erstellen.
im gegensatz zu anderen offenen multimodalen modellen können sowohl vorab trainierte als auch ausgerichtete modelle mit torchtune für benutzerdefinierte anwendungen optimiert und mit torchchat lokal bereitgestellt werden.
es sind multimodale modelle mit 11b- und 90b-parametern erforderlichneue modellarchitektur zur unterstützung der bildinferenz。
der trainingsprozess von meta besteht aus mehreren phasen, beginnend mit einem vorab trainierten llama 3.1-textmodell, zunächst dem hinzufügen von bildadaptern und encodern, dann dem vortraining der daten mit großem rauschen und dann dem vortraining mit mittlerer hoher qualität domänen und trainieren mit wissensbasierten daten.
nach dem training verwendet meta ähnliche methoden wie textmodelle und führt mehrere ausrichtungsrunden im hinblick auf überwachte feinabstimmung, ablehnungsstichprobe und direkte präferenzoptimierung durch. das ergebnis ist eine reihe von modellen, die sowohl bild- als auch texthinweise empfangen und die kombination beider tiefgreifend verstehen und darüber nachdenken können.
für leichte modelle mit 1b- und 3b-parametern verwendet meta ein leistungsstarkes lehrermodell, um kleine modelle mit besserer leistung zu erstellen. damit ist meta eines der ersten leistungsstarken, leichten llama-modelle, das sich effizient an geräte anpassen kann.
meta nutzt die einmalige nutzung der strukturierten bereinigung von llama 3.1 8b, indem es die größe der vorhandenen llama-modelle reduziert und gleichzeitig so viel wissen und leistung wie möglich wiederherstellt.
nach dem training verwendeten die forscher einen ähnlichen ansatz wie llama 3.1, um das endgültige chat-modell zu generieren, indem sie mehrere ausrichtungsrunden auf der grundlage des vorab trainierten modells durchführten.
meta stellt die erste offizielle llama-stack-version vor, die die art und weise, wie entwickler llama-modelle in verschiedenen umgebungen verwenden, z. b. auf der einzelknoten-, lokalen, cloud- und geräteseite, erheblich vereinfachen wird, indem sie retrieval enhanced generation (rag) und integrierte sicherheitstools ermöglicht, die eine schlüsselfertige bereitstellung unterstützen von anwendungen.
03.
meta-ki: wählen sie aus einer vielzahl von promi-stimmen,
p-bilder und echtzeitübersetzung sind bequemer
mit lama 3.2,meta ai hat eine stimme。
sprechen sie jetzt mit ihrer stimme mit meta ai und lassen sie sich ihre fragen beantworten oder ihnen witze erzählen, die sie zum lachen bringen. meta fügt der stimme auch viele bekannte ki-stimmen hinzu. wie zum beispiel die stimmen der britischen schauspielerin judi dench.