un artículo para comprender meta connect 2024: llama 3.2 ya está aquí, gafas ar orian reveladas

un artículo para comprender meta connect 2024: llama 3.2 ya está aquí, presentó las gafas ar orian

2024-09-26

autor de tecnología tencent, wu bin hao boyang

editor zheng kejun

a la 1:00 del 26 de septiembre, hora de beijing, se celebró el meta connect 2024 anual en menlo park, california. zuckerberg comenzó con el esperado nuevo producto quest 3s, anunciando que el sueño del metaverso de meta ha comenzado a extenderse al mercado de consumo básico.

al mismo tiempo, meta también anunció la última versión 3.2 de su gran modelo de ia llama, que proporciona capacidades visuales multimodales, combinadas con la última capacidad de diálogo de voz de ia, ai voice. la mayor importancia del lanzamiento de estos modelos es que meta ha completado todos los modelos multimodales convencionales, lo que sienta una base sólida para su integración de hardware ai y xr. al mismo tiempo, varias aplicaciones de ia anunciadas por meta, como la traducción de ia en tiempo real y la ia humana digital en tiempo real comparable a "her 2.0", también han dado un paso más en las soluciones industriales y tienen el potencial de convertirse en aplicaciones asesinas. .

además, las gafas ar que orion lanzó esta vez son consideradas por xiao zha las gafas ar más poderosas en la superficie. también proporcionan más entradas al futuro mundo del metaverso. aunque todavía no es perfecto, también es un producto que conlleva la ambición de la forma final de equipo de computación espacial de ia. según informes de medios extranjeros, el coste de este producto supera los 10.000 dólares estadounidenses.

mate todavía insiste en seguir avanzando en los dos caminos del metaverso y la ia, y se esfuerza por combinar la realidad virtual y la inteligencia artificial mediante la integración de productos.

en la conferencia connect de 2024, zuckerberg una vez más mostró al mundo la forma de entrada del mundo de realidad virtual que presentó. vimos la integración de la virtualidad y la realidad, la integración de la controlabilidad autónoma y la inteligencia artificial, así como la forma de lo real. productos e integración de futuras experiencias operativas.

zuckerberg resume la conferencia de prensa: con el lanzamiento de 5 nuevos productos, meta está trabajando duro para construir un futuro más abierto

meta quest 3s ya está aquí, se reduce el precio pero no los materiales

meta quest 3s fue el primero en aparecer, y esta vez fue raro publicar el precio del producto antes que los parámetros y las nuevas funciones.

zuckerberg está ansioso por hacerles saber a todos que estas nuevas gafas de realidad virtual solo se venden por $ 299,99, que son $ 200 más baratas que las quest 3 lanzadas en el mismo período del año pasado. además, no tienen demasiadas funciones en comparación con las quest 3.

meta quest 3s tiene el mismo chip qualcomm snapdragon xr2 gen 2 y 8 gb de memoria de funcionamiento que su "hermano mayor" quest 3, lo que significa que tienen exactamente la misma potencia de procesamiento para datos informáticos.

al mismo tiempo, quest 3s utiliza el mismo controlador touch plus que quest 3 y admite tecnología de captura de movimiento de ojos y manos.

incluso el quest 3s tiene una duración de batería más larga. según los datos oficiales proporcionados por meta, el quest 3s con una batería incorporada de 4324 mah puede alcanzar 2,5 horas de duración de la batería, mientras que el quest 3 con una batería de mayor capacidad (5060 mah) solo puede funcionar durante un máximo de 2,2 horas.

como producto económico de gafas de realidad virtual, lo que lamenta el quest 3s es que no utiliza la estructura óptica pancake más convencional. utiliza la misma lente fresnel que las series quest 1 y 2. este diseño es relativamente más elegante. y de bajo costo, pero también significa que su tamaño y peso total serán mayores que los del quest 3.

pero la verdadera diferencia entre los dos productos es la diferencia en el efecto de visualización: quest 3s utiliza una pantalla lcd de conmutación rápida de 1832 x 1920 (20 ppd píxeles por grado) con una frecuencia de actualización de 90/120 hz.

su campo de visión horizontal y vertical es de sólo 96 y 90 grados, en comparación con los 2064 x 2208 (25 ppd píxeles por grado) y el campo de visión horizontal de 110 grados y vertical de 96 grados del quest 3.

obviamente, quest 3s demuestra la ambición de meta bajo el sueño del metaverso durante muchos años: utiliza gafas de realidad virtual con configuraciones centrales que están cerca de los productos convencionales pero más baratas para promover la popularización de las gafas de realidad virtual entre una base de usuarios más amplia.

otra fuerza impulsora que impulsa a meta a crear un producto de este tipo es su ecosistema de realidad virtual, que todavía está mejorando gradualmente.

en la conferencia de prensa, zuckerberg dijo que quest 3s admitirá la tecnología dolby vision y agregará una función de reconocimiento de pantalla que puede identificar la computadora que se está utilizando y proyectar la pantalla con un solo clic. esto amplía los escenarios de uso más amplios de productos de realidad virtual montados en la cabeza como quest 3s.

sin embargo, meta se equivocó en una cosa: durante una demostración en vivo de esta tecnología, quest 3s se estrelló inesperadamente, lo que provocó una explosión de vítores de la audiencia y zuckerberg no tuvo más remedio que lidiar con ello.

posteriormente, zuckerberg mostró la última versión de horizon worlds. aunque todavía parece un juego de "jugar a las casitas", está mejorando lentamente: este año, se lanzó la función multijugador de youtube de avantar. espero que esto atraiga a más usuarios de youtube.

en cuanto a aplicaciones de terceros, la mayor sorpresa viene de la mano de "batman: arkham shadow", que se lanzará el 22 de octubre y vendrá incluido con los nuevos quest 3 y 3s y estará vigente hasta abril del próximo año. el previamente anunciado "alien: rogue invasion" y el juego de zombies "arizona sunshine" también se lanzarán en la plataforma quest. además, meta también anunció que lanzará wordle (un juego de palabras publicado diariamente por el new york times) para quest.

ah, por cierto, para que puedas comprar el nuevo quest 3s, meta ha tomado la iniciativa de suspender la producción de quest 2 y quest pro después de agotar el inventario de estos dos productos, las únicas opciones que puedes elegir. son el quest 3s más económico, o el quest 3s más económico. es el quest 3 con mayor configuración.

xiao zha dijo que el modelo final más potente llama 3.2 ya está aquí

meta lanza llama 3.2 modelo grande multimodal, la versión liviana puede ejecutarse en teléfonos móviles

al igual que la última conferencia connect, el protagonista de esta conferencia también es indispensable: la ia.

zuckerberg anunció la actualización 3.2 de su modelo básico llama. su modelo grande está disponible en versiones 90b y 11b, y el modelo final está disponible en tamaños 1b y 3b.

xiao zha demostró una nueva característica del producto desarrollada para llama 3.2: al cargar imágenes, no solo puedes borrar y agregar funciones de pincel mágico, sino también cambiar directamente la ropa del personaje según la descripción del texto e incluso reemplazar el fondo actual con un arco iris.

según la documentación técnica proporcionada por mata, llama 3.2 puede entenderse directamente como una versión de llama 3.1 que admite multimodalidad. porque meta no actualiza los parámetros de su modelo de lenguaje durante el proceso de entrenamiento de reconocimiento de imágenes.

en términos de método de entrenamiento, meta usa un método más convencional: agrega un adaptador de imagen y un codificador a llama3.1, usa el modelo de difusión para entrenar el texto y las imágenes correspondientes y luego realiza un ajuste fino del contenido del dominio.

finalmente, en la etapa posterior al entrenamiento de ajuste del modelo, llama 3.2 también utiliza múltiples rondas de ajuste fino supervisado, muestreo de rechazo (usando una distribución auxiliar para generar muestras y aceptando o rechazando muestras de acuerdo con una cierta probabilidad) y preferencia directa. optimización deje que el modelo se alinee.

curiosamente, durante este proceso, meta utilizó llama 3.1 para generar múltiples conjuntos de títulos de imágenes para optimizar la descripción de la imagen por parte del modelo.

meta utiliza llama 3.1 para generar múltiples conjuntos de subtítulos de imágenes para optimizar la descripción de la imagen por parte del modelo.

en los resultados de las pruebas proporcionados por meta, la capacidad de razonamiento gráfico de la versión 90b de llama 3.2 está por delante de gpt 4o-mini en múltiples pruebas. la versión 11b supera ampliamente a la versión haiku, una versión más pequeña de claude 3.

zuckerberg dijo que las versiones 1b y 3b del lado del cliente de llama 3.2 serán la ia del lado del cliente más poderosa.

actualmente acepta entrada y salida de texto y admite una longitud de contexto máxima de 128 000 tokens. estos dos modelos finales se entrenaron mediante poda (eliminación de parámetros con baja utilización en el modelo grande) y destilación (utilizando el modelo grande como maestro y el modo de entrenamiento de parámetros centrales del aprendizaje de modelos pequeños) en llama 3.1 8b y 70b. durante el proceso de capacitación de ajuste, también se agregaron datos sintéticos proporcionados por llama 3.1 405b para optimizar su rendimiento en múltiples capacidades como resumen, reescritura, seguimiento de instrucciones, razonamiento del lenguaje y uso de herramientas.

la conferencia de prensa mostró que la versión 3b de llama 3.2 superó en muchos indicadores al modelo gemma 2 2b lanzado por google en junio y al modelo phi 3.5 3.8b lanzado por microsoft en agosto en muchos indicadores, especialmente cuando se trata de funciones de terminal de uso común como como resumen, seguimiento de comandos y la ventaja de puntuación es obvia en la tarea de reescritura.

por ejemplo, en el equipo de prueba ifeval, que prueba la capacidad de seguir las instrucciones del usuario, la versión llama 3.2 3b mejora en más de un 20% en comparación con phi 3.5 del mismo tamaño. en los dos puntos de referencia que prueban la capacidad de llamar a herramientas, llama 3.2 también tiene ventajas obvias.

esto permite que llama 3.2 sea lo que xiao zha dijo que es actualmente "el más fuerte" en términos de experiencia de aplicación práctica en el lado del dispositivo. sin embargo, en términos de habilidades básicas como razonamiento y matemáticas, llama 3.2 3b está mayoritariamente por detrás de phi 3.5 mini.

además, estos modelos son compatibles con hardware qualcomm y mediatek el día del lanzamiento y están optimizados para procesadores arm.

además de llama 3.2, que admite la comprensión multimodal de imágenes, meta también lanzó meta ai voice en connect esta vez. completar todas las funciones multimodales principales a la vez. en demostraciones en vivo, como gpt-4o, puede soportar la interrupción del diálogo y el sonido es muy natural, pero desafortunadamente no demuestra que tenga la rica entonación y expresión emocional de gpt-4o.

aunque el rendimiento solo es igual al de gpt-4o, meta ai voice ha encontrado un nuevo punto de venta: ofrece opciones de voz para 5 celebridades, como judi dench de la fría jefa de 007 y la heroína de crazy rich asians. la voz del protagonista lin jiazhen.

en comparación con openai, que fue demandado ante los tribunales por supuestamente robar la voz de scarlett johansson, meta es obviamente más confiable en este sentido. según el wall street journal, meta ha pagado "millones de dólares" por la voz de cada celebridad. algunas celebridades quieren limitar el uso de sus voces y asegurarse de que no serán responsables si se utiliza meta ai.

según "reuters", celebrity voice se lanzará esta semana en estados unidos y otros mercados de habla inglesa a través de la familia de aplicaciones de meta, incluidas facebook, instagram y whatsapp.

además de complementar las capacidades básicas del modelo, meta también demostró algunas características nuevas en aplicaciones de ia. estas funciones están respaldadas en gran medida por las soluciones de inteligencia artificial existentes, pero meta va un paso más allá. también es más adecuado para escenarios de uso de redes sociales o gafas de ia.

por ejemplo, meta ai studio ahora admite la construcción directa de sistemas humanos digitales de ia. en las demostraciones en vivo, la latencia de las conversaciones con humanos digitales fue muy baja y los efectos de movimiento y los sonidos fueron reales y naturales.

meta ai studio apoya directamente la construcción de sistemas humanos digitales de ia

imagínese tener una ia que le hable con una voz y un rostro tan reales como su compañero emocional. me gustaría llamarlo un her 2.0 "visible".

los usuarios aún deben probar más a fondo si marcará el comienzo de una era dorada de los productos complementarios de ia.

otro producto sorprendente es la traducción meta live. con las nuevas capacidades multimodales de meta ai, puede reconocer y reemplazar directamente la forma de la boca del idioma original por la forma de la boca del idioma de destino. en realidad, esta característica ha sido implementada por compañías como heygen, pero según la amplitud de la cobertura de metaaplicaciones, puede convertirse en el primer producto relacionado completamente popular.

aunque llama 3.1 ya es el modelo de código abierto más utilizado por los desarrolladores, para expandir mejor la capa de aplicación, meta también lanzó la primera versión oficial de la herramienta de desarrollo de productos llama, llama stack, en la conferencia connect. de desarrolladores que utilizan modelos llama en diferentes entornos, y también puede permitir la implementación con un solo clic de aplicaciones basadas en herramientas, como la generación mejorada de recuperación (rag) y funciones de seguridad integradas.

el lanzamiento de llama 3.2 es de gran importancia para meta. complementa las principales deficiencias de llama en los modelos multimodales de vanguardia y también proporciona la base para las funciones multimodales de sus productos de hardware de ia posteriores, como las gafas ray-ban que admiten inteligencia de ia.

el popular producto "gafas ray-ban", ataca mientras la plancha está caliente y lanza nuevos productos

en la conferencia meta connect del año pasado, nadie esperaba que el producto más popular no fuera el quest 3, sino las gafas de ia de segunda generación lanzadas por meta y el fabricante de gafas ray-ban.

aunque se desconoce la primera generación, eso no impide que los entusiastas de la tecnología en europa y estados unidos se apresuren a comprar la segunda generación de gafas inteligentes ray-ban. según las estadísticas de idc, meta ha enviado más de 700.000 pares de gafas ray-ban. , especialmente el volumen de pedidos en el segundo trimestre de este año, que es superior al de la primera generación y se duplicó con creces de un trimestre a otro. a lo largo del ciclo de vida de las gafas ray-ban meta, hasta mayo de 2024, sus ventas globales superaron el millón de unidades, y el mercado espera que los envíos para todo el año en 2024 superen los 1,5 millones de unidades.

meta atacó mientras el hierro estaba caliente e inmediatamente lanzó su nuevo producto este año.

en lugar de decir que es un producto nuevo, es mejor decir que se trata de un estilo translúcido completamente nuevo, porque su diseño general es exactamente el mismo que el del año pasado.

pero tiene un cuerpo de gafas transparente con un sentido tecnológico más fuerte; como era de esperar, las empresas de hardware de todo el mundo tienen la misma comprensión del "sentido de la tecnología", que debe ser translúcido.

meta ha agregado más funciones de ia a esta generación de gafas. la mayor mejora es la incorporación de la función de reconocimiento de imágenes de inteligencia artificial en tiempo real, que permite a los usuarios preguntar a las gafas ray-ban meta sobre la escena u objeto que están viendo en ese momento. los usuarios también pueden escanear códigos qr directamente a través de sus gafas y llamar a los números de teléfono que ven a la vista.

además, las gafas de sol también admiten funciones de recordatorio similares a las de los teléfonos inteligentes, traducción de idiomas en tiempo real, incluido el inglés al francés, italiano o español, e integración con aplicaciones de transmisión de música como amazon music, audible e iheart radio.

orian, ¿la forma definitiva de gafas ar según meta?

orian debería haberse producido en masa hace mucho tiempo, pero debido al ajuste presupuestario general de meta debido a la epidemia, zuckerberg decidió archivar el lanzamiento. esto resultó en que meta no lanzara su primer producto de gafas ar hasta 2024.

se trata de unas gafas ar que pesan sólo 98 gramos, lo que no es particularmente ligero entre los productos de gafas ar.

los marcos de orian están hechos de una aleación de magnesio, que es más ligera que el aluminio y puede disipar el calor más fácilmente. las lentes están hechas de carburo de silicio, que es duradero, liviano y tiene un alto índice de refracción, lo que permite que la luz emitida por el proyector de las gafas se expanda a un área de visión más grande.

pero llamar a orian un par de gafas ar no parece ser riguroso. si quiere funcionar correctamente, necesita cooperar con una pulsera y un cuerpo informático.

el cuerpo de la computadora proporciona más potencia de procesamiento y las gafas no pueden funcionar solas sin él. si desea usar orian normalmente, debe usar el cuerpo de la computadora a su lado todo el tiempo.

la pulsera hace un trabajo más interesante, está hecha de materiales textiles de alto rendimiento y utiliza electromiografía (emg) para comprender las señales neuronales asociadas con los gestos. en unos pocos milisegundos, estas señales se convierten en señales de entrada y se comunican al agente informático, un poco como en una película de ciencia ficción.

en cuanto a la pantalla, orion tiene un campo de visión de 70 grados y está equipado con un proyector micro led en el marco, que puede proyectar imágenes sobre el sustrato de silicio de la lente. este es un principio de funcionamiento similar al de todas las gafas ar actuales. .

zuckerberg dijo que espera que la gente utilice orion para dos propósitos principales: comunicarse con información digital superpuesta al mundo real e interactuar con inteligencia artificial.

este último es más fácil de entender. orion tiene las mismas capacidades de inteligencia artificial que las gafas ray-ban meta, incluidas capacidades de reconocimiento de imágenes y de interacción de idiomas recientemente agregadas.

el primero es más abstracto. en la escena, meta demostró una escena que combina imágenes holográficas con el mundo real. meta desarrolló una versión ar de la aplicación messenger para estas gafas, que puede realizar videollamadas de proyección holográfica en tiempo real, como si la otra parte estuviera parada al lado. tú.

para promover las gafas ar, meta también presentó a huang renxun como la primera ola de usuarios en experimentar orion y dijo: "¡huang lo ha probado y dijo que es bueno!"

en opinión de zuckerberg, la maduración de las gafas ar será un proceso gradual. por un lado, las gafas de inteligencia artificial sin pantalla, como las ray-ban meta, se popularizarán más rápidamente.

por otro lado, se popularizarán con gafas con pantallas pequeñas, como las próximas hypernova de meta, que pueden proporcionar interacciones táctiles más fáciles, como interactuar con meta ai o comunicarse con amigos.

xiao zha dijo que orion representa la forma final de gafas ar: las gafas ar maduras tienen suficiente potencia informática para permitirle dejar su teléfono inteligente en casa.

dicho esto, aunque estemos separados del teléfono móvil, todavía tenemos que llevarnos el cuerpo informático cuando salimos, que aún está lejos de la forma final que imaginamos.

además, también hay un recipiente con agua fría que se vierte a tiempo: la duración de la batería del orion es de sólo 2 horas. para decirlo de manera más simple, orion solo puede permitirte ser un superhéroe en el mundo virtual durante 2 horas.

y aprovechar la máxima libertad de las gafas ar puede no ser demasiado barato. según informes de medios extranjeros como the verge y techcrunch, al mostrar la máquina de prueba, el personal de meta dijo que el costo actual del hardware de orion supera los 10.000 dólares estadounidenses. esto significa que el precio de este producto es mucho más alto que el del vision pro de apple.

conclusión

desde el fracaso del metaverso en 2022 y ser ridiculizado por muchas partes, hasta convertirse en el rey de la ia de código abierto en 2023, y luego usar gafas inteligentes este año para abrir la puerta a una nueva generación de hardware de ia. zuckerberg completó un contraataque casi imposible en los últimos tres años.

durante este período, sus dos decisiones importantes: hacer ia de código abierto y desarrollar gafas inteligentes livianas, se hicieron realidad en connect hoy.

desde la pantalla de las gafas ray-ban equipadas con funciones de ia, hemos visto las ventajas de las gafas como portador en la era de la ia: no solo pueden usar la voz para llamar a modelos grandes, sino que también pueden utilizar el potencial más directamente. de ia multimodal. la "visualización" directa es una experiencia de usuario mucho más natural que la "escaneo" con un teléfono móvil. y es probable que esta franqueza determine la transferencia de la próxima generación de dispositivos inteligentes.

el último orion lanzado es un trabajo futuro que conlleva la ambición de la forma final de equipo de computación espacial de ia. en comparación con el pesado e incómodo vision pro, la visión de resonancia magnética liviana de xiao zha se parece más al futuro de la computación espacial. y ahora esta visión ha tomado forma. si la migración de dispositivos inteligentes en la era de la ia está destinada a suceder, meta es la empresa más cercana a su umbral en comparación con pequeños intentos como ai pin.

si hablas con una persona en 2022 sobre todo esto, definitivamente no lo creerá.zuckerberg, un nerd tecnológico que parece un poco turbio, realmente cumple su promesa y nos acerca cada vez más a la entrada del metaverso.

noticias