un article pour comprendre meta connect 2024 : llama 3.2 est là, les lunettes ar orian unveiled

un article pour comprendre meta connect 2024 : llama 3.2 est là, les lunettes ar orian dévoilées

2024-09-26

wu bin hao boyang, auteur de la technologie tencent

éditeur zheng kejun

le 26 septembre à 13 heures, heure de pékin, la conférence annuelle meta connect 2024 s'est tenue à menlo park, en californie. zuckerberg a commencé avec le nouveau produit attendu quest 3s, annonçant que le rêve de meta du métaverse avait commencé à s'étendre au marché de consommation d'entrée de gamme.

dans le même temps, meta a également annoncé la dernière version 3.2 de son grand modèle d'ia llama, qui offre des capacités visuelles multimodales, combinées à la dernière capacité de dialogue vocal ai ai voice. la plus grande importance de la sortie de ces modèles est que meta a complété tous les modèles multimodaux traditionnels, ce qui constitue une base solide pour son intégration du matériel ia et xr. dans le même temps, plusieurs applications d'ia annoncées par meta, telles que la traduction en temps réel de l'ia et l'humain numérique d'ia en temps réel comparable à "her 2.0", ont également franchi une étape supplémentaire dans les solutions industrielles et ont le potentiel de devenir des applications tueuses. .

de plus, les lunettes ar qu'orion a publiées cette fois sont appelées les lunettes ar les plus puissantes en surface par xiao zha. elles offrent également plus d'entrées dans le futur monde du métaverse. même s'il n'est pas encore parfait, c'est aussi un produit qui porte l'ambition de la forme finale de l'équipement informatique spatial de l'ia. selon les médias étrangers, le coût de ce produit dépasse 10 000 dollars américains.

mate insiste toujours pour continuer à avancer sur les deux voies du métaverse et de l'ia, et s'efforce de combiner réalité virtuelle et intelligence artificielle grâce à l'intégration de produits.

lors de la conférence connect en 2024, zuckerberg a une fois de plus montré au monde la forme d'entrée du monde de réalité virtuelle qu'il a présenté. nous avons vu l'intégration de la virtualité et de la réalité, l'intégration de la contrôlabilité autonome et de l'intelligence artificielle, ainsi que la forme du réel. produits et intégration de l’expérience opérationnelle future.

zuckerberg résume la conférence de presse : en lançant 5 nouveaux produits, meta travaille dur pour construire un avenir plus ouvert

meta quest 3s est là, le prix est réduit mais pas les matériaux

meta quest 3s a été le premier à apparaître, et cette fois il était rare de publier le prix du produit plus tôt que les paramètres et les nouvelles fonctionnalités.

zuckerberg est impatient de faire savoir à tout le monde que ces nouvelles lunettes vr ne se vendent que 299,99 $, soit 200 $ de moins que le quest 3 sorti à la même période l'année dernière. de plus, elles n'ont pas trop de fonctionnalités par rapport au quest 3.

meta quest 3s possède la même puce qualcomm snapdragon xr2 gen 2 et 8 go de mémoire opérationnelle que son "grand frère" quest 3, ce qui signifie qu'ils ont exactement la même puissance de traitement pour le calcul des données.

dans le même temps, quest 3s utilise le même contrôleur touch plus que quest 3 et prend en charge la technologie de capture de mouvement des yeux et des mains.

même le quest 3s a une durée de vie de la batterie plus longue. selon les données officielles fournies par meta, le quest 3s avec une batterie intégrée de 4324 mah peut atteindre 2,5 heures d'autonomie, tandis que le quest 3 avec une plus grande capacité de batterie (5060 mah) ne peut fonctionner que pendant un maximum de 2,2 heures.

en tant que produit de lunettes de réalité virtuelle bon marché, le regret du quest 3s est qu'il n'utilise pas la structure optique pancake plus traditionnelle. il utilise la même lentille de fresnel que les séries quest 1 et 2. ce design est relativement plus élégant. et peu coûteux, mais cela signifie également que sa taille et son poids globaux seront supérieurs à ceux du quest 3.

mais la vraie différence entre les deux produits réside dans l'effet d'affichage : le quest 3s utilise un écran lcd à commutation rapide de 1 832 x 1 920 (20 pixels ppd par degré) avec un taux de rafraîchissement de 90/120 hz.

son champ de vision horizontal et vertical n'est que de 96 et 90 degrés, par rapport aux 2064 x 2208 (25 pixels ppd par degré) du quest 3 et à son champ de vision horizontal de 110 degrés et vertical de 96 degrés.

de toute évidence, quest 3s démontre l'ambition de meta dans le rêve du métaverse depuis de nombreuses années. il utilise des lunettes de réalité virtuelle avec des configurations de base proches des produits traditionnels mais moins chères pour promouvoir la vulgarisation des lunettes vr auprès d'une base d'utilisateurs plus large.

un autre moteur qui pousse meta à créer un tel produit est son écosystème de réalité virtuelle, qui continue de s’améliorer progressivement.

lors de la conférence de presse, zuckerberg a déclaré que quest 3s prendrait en charge la technologie dolby vision et ajouterait une fonction de reconnaissance d'écran capable d'identifier l'ordinateur utilisé et de diffuser l'écran en un seul clic. cela élargit les scénarios d'utilisation plus larges des produits de réalité virtuelle montés sur la tête tels que quest 3s.

cependant, meta a gâché une chose. lors d'une démonstration en direct de cette technologie, le quest 3s s'est écrasé de manière inattendue, ce qui a provoqué une explosion d'acclamations de la part du public. zuckerberg n'a eu d'autre choix que de s'en occuper.

par la suite, zuckerberg a présenté la dernière version d'horizon worlds. bien qu'il ressemble toujours à un jeu "play house", il s'améliore lentement : cette année, la fonction youtube multi-joueurs d'avantar a été lancée, j'espère que cela attirera davantage d'utilisateurs de youtube.

en termes d'applications tierces, la plus grande surprise vient de "batman : arkham shadow", qui sortira le 22 octobre et sera fourni avec les nouveaux quest 3 et 3s et sera valable jusqu'en avril de l'année prochaine. "alien: rogue invasion" annoncé précédemment et le jeu de zombies "arizona sunshine" seront également lancés sur la plateforme quest. de plus, meta a également annoncé le lancement de wordle (un jeu de mots publié quotidiennement par le new york times) pour quest.

oh, au fait, pour que vous puissiez acheter le nouveau quest 3s, meta a pris l'initiative d'arrêter la production du quest 2 et du quest pro. après avoir épuisé l'inventaire de ces deux produits, les seules options que vous pouvez choisir. sont le quest 3s moins cher, ou le quest 3s moins cher. il s'agit du quest 3 avec une configuration supérieure.

xiao zha a déclaré que le modèle final le plus puissant, llama 3.2, est ici

meta lance le grand modèle multimodal llama 3.2, la version légère peut fonctionner sur les téléphones mobiles

comme lors de la dernière conférence connect, le protagoniste de cette conférence est également incontournable : l’ia.

zuckerberg a annoncé la mise à jour 3.2 de son modèle de base llama. son grand modèle est disponible en versions 90b et 11b, et le modèle d'extrémité est disponible en tailles 1b et 3b.

xiao zha a présenté une nouvelle fonctionnalité développée pour llama 3.2 : en téléchargeant des images, vous pouvez non seulement effacer et ajouter des fonctions de pinceau magique, mais également modifier directement les vêtements du personnage en fonction de la description textuelle, et même remplacer l'arrière-plan actuel par un arc-en-ciel.

selon la documentation technique fournie par mata, llama 3.2 peut être directement compris comme une version de llama 3.1 prenant en charge la multimodalité. parce que meta ne met pas à jour les paramètres de son modèle de langage pendant le processus de formation à la reconnaissance d'images.

en termes de méthode de formation, meta utilise une méthode plus conventionnelle : il ajoute un adaptateur d'image et un encodeur à llama3.1, utilise le modèle de diffusion pour former le texte et les images correspondants, puis effectue un réglage fin du contenu du domaine.

enfin, dans la phase post-formation d'ajustement du modèle, llama 3.2 utilise également plusieurs cycles de réglage fin supervisé, d'échantillonnage par rejet (en utilisant une distribution auxiliaire pour générer des échantillons et en acceptant ou en rejetant des échantillons selon une certaine probabilité) et de préférence directe. optimisation. laissez le modèle s’aligner.

fait intéressant, au cours de ce processus, meta a utilisé llama 3.1 pour générer plusieurs ensembles de légendes d'image afin d'optimiser la description de l'image par le modèle.

meta utilise llama 3.1 pour générer plusieurs ensembles de sous-titres d'image afin d'optimiser la description de l'image par le modèle.

dans les résultats des tests fournis par meta, la capacité de raisonnement graphique de la version 90b de llama 3.2 est en avance sur gpt 4o-mini dans plusieurs tests. la version 11b surpasse largement la version haiku, une version plus petite de claude 3.

zuckerberg a déclaré que les versions 1b et 3b côté client de llama 3.2 seront l'ia côté client la plus puissante.

il accepte actuellement l'entrée et la sortie de texte et prend en charge une longueur de contexte maximale de 128 000 jetons. ces deux modèles d'extrémité ont été formés par élagage (élagage des paramètres avec une faible utilisation dans le grand modèle) et distillation (en utilisant le grand modèle comme enseignant et le mode de formation des paramètres de base de l'apprentissage du petit modèle) sur llama 3.1 8b et 70b. au cours du processus de formation de réglage fin, des données synthétiques fournies par llama 3.1 405b ont également été ajoutées pour optimiser ses performances dans de multiples fonctionnalités telles que le résumé, la réécriture, le suivi d'instructions, le raisonnement linguistique et l'utilisation d'outils.

la conférence de presse a montré que la version 3b de llama 3.2 surpassait le modèle gemma 2 2b publié par google en juin et le modèle phi 3.5 3.8b publié par microsoft en août dans de nombreux indicateurs, notamment en ce qui concerne les fonctions côté terminal couramment utilisées telles que comme résumé, le suivi des commandes et l'avantage du score sont évidents dans la tâche de réécriture.

par exemple, sur l'ensemble de test ifeval, qui teste la capacité à respecter les instructions d'utilisation, la version llama 3.2 3b s'améliore de plus de 20 % par rapport à phi 3.5 de même taille. dans les deux benchmarks qui testent la capacité d'appeler des outils, llama 3.2 présente également des avantages évidents.

cela permet à llama 3.2 d'être ce que xiao zha dit être actuellement « le plus puissant » en termes d'expérience d'application pratique du côté de l'appareil. cependant, en termes de capacités de base telles que le raisonnement et les mathématiques, llama 3.2 3b est largement en retard par rapport à phi 3.5 mini.

de plus, ces modèles prennent en charge le matériel qualcomm et mediatek le jour du lancement et sont optimisés pour les processeurs arm.

en plus de llama 3.2, qui prend en charge la compréhension multimodale des images, meta a également lancé cette fois meta ai voice sur connect. compléter toutes les fonctions multimodales traditionnelles en même temps. dans les démonstrations en direct, comme le gpt-4o, il peut prendre en charge l'interruption du dialogue et le son est très naturel, mais malheureusement il ne montre pas qu'il possède l'intonation riche et l'expression émotionnelle du gpt-4o.

bien que les performances ne soient égales qu'à gpt-4o, meta ai voice a trouvé un nouvel argument de vente : il offre des options vocales pour 5 célébrités, comme judi dench de la patronne au visage froid de 007 et l'héroïne de crazy rich asians. .la voix du protagoniste lin jiazhen.

comparé à openai, qui a été poursuivi en justice pour avoir prétendument volé la voix de scarlett johansson, meta est évidemment plus fiable à cet égard. selon le wall street journal, meta a payé « des millions de dollars » pour la voix de chaque célébrité. certaines célébrités souhaitent limiter la manière dont leur voix peut être utilisée et s'assurer qu'elles ne seront pas tenues responsables si meta ai est utilisée.

selon "reuters", celebrity voice sera lancée cette semaine aux états-unis et sur d'autres marchés anglophones via la famille d'applications meta, notamment facebook, instagram et whatsapp.

en plus de compléter les capacités de base du modèle, meta a également présenté de nouvelles fonctionnalités dans les applications d'ia. ces fonctionnalités sont largement prises en charge par les solutions d'ia existantes, mais meta va encore plus loin. il est également plus adapté aux scénarios d’utilisation des réseaux sociaux ou des lunettes ia.

par exemple, meta ai studio prend désormais en charge la construction directe de systèmes humains numériques d’ia. lors des démonstrations en direct, la latence des conversations avec les humains numériques était très faible, et les effets de mouvement et les sons étaient réels et naturels.

meta ai studio prend directement en charge la création de systèmes humains numériques d'ia

imaginez avoir une ia qui vous parle avec une voix et un visage aussi réels que votre compagnon émotionnel. j'aimerais l'appeler une her 2.0 « visible ».

la question de savoir si cela marquera le début d’un âge d’or pour les produits compagnons de l’ia reste à tester par les utilisateurs.

un autre produit très étonnant est la traduction meta live. grâce aux nouvelles capacités multimodales de meta ai, il peut directement reconnaître et remplacer la forme buccale de la langue d'origine par celle de la langue cible. cette fonctionnalité a en fait été implémentée par des sociétés telles que heygen, mais sur la base de l'étendue de la couverture des applications meta, elle pourrait devenir le premier produit connexe complètement populaire.

bien que llama 3.1 soit déjà le modèle open source le plus largement utilisé par les développeurs, afin de mieux étendre la couche d'application, meta a également publié la première version officielle de l'outil de développement de produits llama, llama stack, lors de la conférence connect, ce qui peut grandement simplifier le flux de travail. des développeurs utilisant des modèles llama dans différents environnements, et peut également permettre le déploiement en un clic d'applications basées sur des outils telles que la génération améliorée de récupération (rag) et les fonctions de sécurité intégrées.

la sortie de llama 3.2 revêt une grande importance pour meta. il complète les principales lacunes de llama dans les modèles multimodaux de pointe et constitue également la base des fonctions multimodales de ses produits matériels d'ia ultérieurs, tels que les lunettes ray-ban qui prennent en charge l'intelligence de l'ia.

le produit populaire "lunettes ray-ban", frappe pendant que le fer est chaud et lance de nouveaux produits

lors de la conférence meta connect de l'année dernière, personne ne s'attendait à ce que le produit le plus populaire ne soit pas le quest 3, mais les lunettes ia de deuxième génération lancées par meta et le fabricant de lunettes ray-ban.

bien que la première génération soit inconnue, cela n'empêche pas les passionnés de technologie en europe et aux états-unis de se précipiter pour acheter la deuxième génération de lunettes intelligentes ray-ban. selon les statistiques d'idc, meta a expédié plus de 700 000 paires de lunettes ray-ban. , en particulier le volume des commandes au deuxième trimestre de cette année, qui est supérieur à celui de la première génération. plus que doublé d'un trimestre à l'autre. tout au long du cycle de vie des lunettes ray-ban meta, en mai 2024, leurs ventes mondiales ont dépassé 1 million d'unités, et le marché s'attend à ce que les expéditions pour l'ensemble de l'année 2024 dépassent 1,5 million d'unités.

meta a frappé alors que le fer était chaud et a immédiatement lancé son nouveau produit cette année.

plutôt que de dire qu'il s'agit d'un nouveau produit, il vaut mieux dire qu'il s'agit d'un tout nouveau style translucide, car son design général est exactement le même que celui de l'année dernière.

mais il a un corps de lunettes transparent avec un sens de la technologie plus fort - comme prévu, les fabricants de matériel du monde entier ont la même compréhension du « sens de la technologie », qui doit être translucide.

meta a ajouté davantage de fonctions d'ia à cette génération de lunettes. la plus grande amélioration est l'ajout d'une fonction de reconnaissance d'image par intelligence artificielle en temps réel, qui permet aux utilisateurs d'interroger les lunettes ray-ban meta sur la scène ou l'objet qu'ils voient actuellement. les utilisateurs peuvent également scanner les codes qr directement à travers leurs lunettes et appeler les numéros de téléphone qu'ils voient en vue.

en outre, les lunettes de soleil prennent également en charge des fonctions de rappel de type smartphone, une traduction en temps réel, notamment de l'anglais vers le français, l'italien ou l'espagnol, et l'intégration d'applications de streaming musical telles qu'amazon music, audible et iheart radio intégrées.

orian, la forme ultime de lunettes ar selon meta ?

orian aurait dû être produit en masse il y a longtemps, mais en raison du resserrement global du budget de meta en raison de l'épidémie, zuckerberg a décidé de suspendre la sortie. cela a conduit meta à ne lancer son premier produit de lunettes ar qu'en 2024.

il s'agit de lunettes ar qui ne pèsent que 98 grammes, ce qui n'est pas particulièrement léger parmi les produits de lunettes ar.

les cadres d'orian sont fabriqués en alliage de magnésium, qui est plus léger que l'aluminium et peut dissiper la chaleur plus facilement. les lentilles sont en carbure de silicium, qui est durable, léger et possède un indice de réfraction élevé, ce qui permet à la lumière émise par le projecteur sur les lunettes de s'étendre à une zone de vision plus large.

mais appeler orian une paire de lunettes ar ne semble pas être rigoureux. s’il veut fonctionner correctement, il doit coopérer avec un bracelet et un ordinateur.

le corps informatique fournit plus de puissance de traitement et les lunettes ne peuvent pas fonctionner seules. si vous souhaitez utiliser orian normalement, vous devez porter le corps informatique à vos côtés tout le temps.

le bracelet fait un travail plus intéressant, il est fabriqué à partir de matériaux textiles haute performance et utilise l'électromyographie (emg) pour comprendre les signaux neuronaux associés aux gestes. en quelques millisecondes, ces signaux sont convertis en signaux d’entrée et communiqués à l’agent informatique, un peu à la manière d’un film de science-fiction.

quant à l'écran, orion a un champ de vision de 70 degrés et est équipé d'un projecteur micro led dans le cadre, qui peut projeter des images sur le substrat en silicium de la lentille. ceci est similaire au principe de fonctionnement de toutes les lunettes ar actuelles. .

zuckerberg a déclaré qu'il espérait que les gens utiliseraient orion à deux fins principales : communiquer avec des informations numériques superposées au monde réel et interagir avec l'intelligence artificielle.

ce dernier est plus facile à comprendre. orion possède les mêmes capacités d'ia que les lunettes ray-ban meta, y compris des capacités de reconnaissance d'image et des capacités d'interaction linguistique nouvellement ajoutées.

le premier est plus abstrait. sur place, meta a présenté une scène combinant des images holographiques avec le monde réel. meta a développé une version ar de l'application messenger pour ces lunettes, qui peut réaliser des appels vidéo de projection holographique en temps réel, comme si l'autre partie se tenait à côté. toi.

afin de promouvoir les lunettes ar, meta a également présenté huang renxun, la première vague d'utilisateurs à avoir découvert orion zuckerberg a déclaré : « huang l'a essayé et a dit que c'était bien » !

selon zuckerberg, la maturation des lunettes ar sera un processus progressif. d’une part, les lunettes à intelligence artificielle sans affichage, comme les ray-ban meta, seront popularisées plus rapidement.

d’autre part, il sera popularisé par des lunettes dotées de petits écrans, comme la prochaine hypernova de meta, qui peuvent permettre des interactions tactiles plus faciles, comme interagir avec meta ai ou communiquer avec des amis.

xiao zha a déclaré qu'orion représente la forme finale des lunettes ar : les lunettes ar matures ont suffisamment de puissance de calcul pour vous permettre de laisser votre smartphone à la maison.

cela dit, même si nous sommes séparés du téléphone portable, nous devons quand même emmener le corps informatique avec nous lorsque nous sortons, ce qui est encore loin de la forme finale que nous imaginions.

de plus, il y a aussi une bassine d'eau froide versée à temps : l'autonomie de la batterie d'orion n'est que de 2 heures. pour faire plus simple, orion ne peut vous permettre d'être un super-héros dans le monde virtuel que pendant 2 heures.

et réaliser la liberté ultime des lunettes ar n’est peut-être pas trop bon marché. selon des médias étrangers tels que the verge et techcrunch, lors de la présentation de la machine de test, le personnel de meta a déclaré que le coût actuel du matériel d'orion dépassait 10 000 dollars américains. cela signifie que le prix de ce produit est bien plus élevé que celui du vision pro d'apple.

conclusion

de l'échec du metaverse en 2022 et du ridicule de nombreuses parties, jusqu'à devenir le roi de l'ia open source en 2023, puis à utiliser des lunettes intelligentes cette année pour ouvrir la porte à une nouvelle génération de matériel d'ia. zuckerberg a réalisé une contre-attaque presque impossible au cours des trois dernières années.

au cours de cette période, ses deux décisions importantes : créer une ia open source et développer des lunettes intelligentes légères, se sont toutes deux concrétisées aujourd'hui dans connect.

depuis l'affichage des lunettes ray-ban équipées de fonctions d'ia, nous avons en effet vu les avantages des lunettes en tant que support à l'ère de l'ia : elles peuvent non seulement utiliser la voix pour appeler de grands modèles, mais peuvent également utiliser plus directement le potentiel. de l'ia multimodale. la « visualisation » directe est une expérience utilisateur beaucoup plus naturelle que la « numérisation » avec un téléphone mobile. et cette franchise déterminera probablement le transfert de la prochaine génération d’appareils intelligents.

le dernier orion publié est un travail futur qui porte l’ambition de la forme finale d’équipement informatique spatial d’ia. comparée au vision pro, lourd et inconfortable, la vision mr légère de xiao zha ressemble davantage à l’avenir de l’informatique spatiale. et maintenant, cette vision a pris forme. si la migration des appareils intelligents à l’ère de l’ia est destinée à se produire, meta est l’entreprise la plus proche de son seuil par rapport aux petites tentatives comme ai pin.

si vous parlez de tout cela à une personne en 2022, elle n’y croira certainement pas.zuckerberg, un tech nerd qui semble un peu louche, tient vraiment sa promesse et nous rapproche de plus en plus de l'entrée du métaverse.

nouvelles