um artigo para entender o meta connect 2024: llama 3.2 está aqui, óculos ar orian revelados

2024-09-26

autor de tecnologia da tencent, wu bin hao boyang

editor zheng kejun

à 1h do dia 26 de setembro, horário de pequim, o meta connect 2024 anual foi realizado em menlo park, califórnia. zuckerberg começou com o esperado novo produto quest 3s, anunciando que o sonho da meta do metaverso começou a se espalhar para o mercado consumidor de nível básico.

ao mesmo tempo, meta também anunciou a versão 3.2 mais recente de seu grande modelo de ia llama, que fornece recursos visuais multimodais, combinados com o mais recente recurso de diálogo de voz de ia ai voice. o maior significado do lançamento desses modelos é que a meta completou todos os modelos multimodais convencionais, o que estabelece uma base sólida para sua integração de hardware ai e xr. ao mesmo tempo, vários aplicativos de ia anunciados pela meta, como tradução em tempo real de ia e humano digital de ia em tempo real comparável a "her 2.0", também deram um passo adiante em soluções industriais e têm potencial para se tornarem aplicativos matadores .

além disso, os óculos ar orion lançados desta vez são chamados de óculos ar mais poderosos da superfície por xiao zha. eles também fornecem mais entradas para o futuro mundo do metaverso. embora ainda não seja perfeito, é também um produto que carrega a ambição da forma final de equipamento de computação espacial de ia. de acordo com relatos da mídia estrangeira, o custo deste produto ultrapassa 10.000 dólares americanos.

mate ainda insiste em continuar avançando nos dois caminhos do metaverso e da ia, e se esforça para combinar realidade virtual e inteligência artificial por meio da integração de produtos.

na conferência connect em 2024, zuckerberg mais uma vez mostrou ao mundo a forma de entrada do mundo de realidade virtual que ele apresentou. vimos a integração da virtualidade e da realidade, a integração da controlabilidade autônoma e da inteligência artificial, bem como a forma do real. produtos e integração de experiências operacionais futuras.

zuckerberg resume a conferência de imprensa: lançando 5 novos produtos, meta está trabalhando duro para construir um futuro mais aberto

chegou meta quest 3s, o preço foi reduzido, mas os materiais não

meta quest 3s foi o primeiro a aparecer, e desta vez era raro divulgar o preço do produto antes dos parâmetros e novos recursos.

zuckerberg está ansioso para que todos saibam que estes novos óculos vr são vendidos por apenas us$ 299,99, o que é us$ 200 mais barato que o quest 3 lançado no mesmo período do ano passado.

o meta quest 3s tem o mesmo chip qualcomm snapdragon xr2 gen 2 e 8 gb de memória operacional que seu “irmão mais velho” quest 3, o que significa que eles têm exatamente o mesmo poder de processamento para computar dados.

ao mesmo tempo, o quest 3s usa o mesmo controlador touch plus do quest 3 e oferece suporte à tecnologia de captura de movimento dos olhos e das mãos.

até o quest 3s tem bateria de maior duração. de acordo com os dados oficiais fornecidos pela meta, o quest 3s com bateria embutida de 4324mah pode atingir 2,5 horas de duração da bateria, enquanto o quest 3 com bateria de maior capacidade (5060 mah) só pode funcionar por no máximo 2,2 horas.

como um produto barato de óculos de realidade virtual, o arrependimento do quest 3s é que ele não usa a estrutura óptica pancake mais convencional. ele usa a mesma lente fresnel das séries quest 1 e 2. este design é relativamente mais elegante. e de baixo custo, mas também significa que seu tamanho e peso gerais serão maiores que os da quest 3.

mas a verdadeira diferença entre os dois produtos é a diferença no efeito de exibição: o quest 3s usa um lcd de comutação rápida de 1832 x 1920 (20 ppd pixels por grau) com uma taxa de atualização de 90/120 hz.

seu campo de visão horizontal e vertical é de apenas 96 e 90 graus, em comparação com 2064 x 2208 (25 pixels ppd por grau) do quest 3 e campo de visão horizontal de 110 graus e vertical de 96 graus.

obviamente, o quest 3s demonstra a ambição da meta sob o sonho do metaverso por muitos anos. ele usa óculos de realidade virtual com configurações básicas próximas aos produtos convencionais, mas mais baratos para promover a popularização dos óculos vr para uma base de usuários mais ampla.

outra força motriz que leva a meta a criar tal produto é o seu ecossistema de realidade virtual, que ainda está melhorando gradualmente.

na coletiva de imprensa, zuckerberg disse que o quest 3s suportará a tecnologia dolby vision e adicionará uma função de reconhecimento de tela que pode identificar o computador em uso e transmitir a tela com um clique. isso expande os cenários de uso mais amplos de produtos de realidade virtual montados na cabeça, como o quest 3s.

no entanto, meta estragou uma coisa. durante uma demonstração ao vivo dessa tecnologia, o quest 3s travou inesperadamente, o que causou uma explosão de aplausos no público.

posteriormente, zuckerberg mostrou a versão mais recente do horizon worlds. embora ainda pareça um jogo de "casa de brincar", está melhorando lentamente: este ano, a função multijogador do youtube do avantar foi lançada.

em termos de aplicativos de terceiros, a maior surpresa vem de “batman: arkham shadow”, que será lançado no dia 22 de outubro e virá junto com os novos quest 3 e 3s e será válido até abril do próximo ano. o já anunciado “alien: rogue invasion” e o jogo de zumbis “arizona sunshine” também serão lançados na plataforma quest. além disso, a meta também anunciou que lançará o wordle (jogo de palavras publicado diariamente pelo new york times) para o quest.

ah, aliás, para que você compre o novo quest 3s, a meta tomou a iniciativa de descontinuar a produção do quest 2 e do quest pro. após esgotar o estoque desses dois produtos, as únicas opções que você pode escolher. são o quest 3s mais barato, ou o quest 3s mais barato e o quest 3 com configuração superior.

xiao zha disse que o modelo final mais poderoso, llama 3.2, está aqui

meta lança modelo grande multimodal llama 3.2, a versão leve pode rodar em celulares

tal como na última conferência connect, o protagonista desta conferência também é indispensável: a ia.

zuckerberg anunciou a atualização 3.2 de seu modelo básico llama. seu modelo grande está disponível nas versões 90b e 11b, e o modelo final está disponível nos tamanhos 1b e 3b.

xiao zha demonstrou um novo recurso de produto desenvolvido para llama 3.2: ao enviar imagens, você pode não apenas limpar e adicionar funções de pincel mágico, mas também alterar diretamente as roupas do personagem com base na descrição do texto e até mesmo substituir o fundo atual por um arco-íris.

de acordo com a documentação técnica fornecida pela mata, o llama 3.2 pode ser entendido diretamente como uma versão do llama 3.1 que suporta multimodalidade. porque o meta não atualiza os parâmetros do seu modelo de linguagem durante o processo de treinamento de reconhecimento de imagem.

em termos de método de treinamento, meta usa um método mais convencional. ele adiciona um adaptador de imagem e codificador ao llama3.1, usa o modelo diffusion para treinar o texto e as imagens correspondentes e, em seguida, realiza o ajuste fino do conteúdo do domínio.

finalmente, no estágio pós-treinamento de ajuste do modelo, o llama 3.2 também usa múltiplas rodadas de ajuste fino supervisionado, amostragem de rejeição (usando uma distribuição auxiliar para gerar amostras e aceitando ou rejeitando amostras de acordo com uma certa probabilidade) e preferência direta otimização. deixe o modelo se alinhar.

curiosamente, durante esse processo, meta usou o llama 3.1 para gerar vários conjuntos de legendas de imagens para otimizar a descrição da imagem pelo modelo.

meta usa o llama 3.1 para gerar vários conjuntos de legendas de imagens para otimizar a descrição da imagem pelo modelo.

nos resultados dos testes fornecidos pela meta, a capacidade de raciocínio gráfico da versão 90b do llama 3.2 está à frente do gpt 4o-mini em vários testes. a versão 11b supera de forma abrangente a versão haiku, uma versão menor do claude 3.

zuckerberg disse que as versões 1b e 3b do lado do cliente do llama 3.2 serão a ia mais poderosa do lado do cliente.

atualmente, ele aceita entrada e saída de texto e suporta um comprimento máximo de contexto de 128 mil tokens. esses dois modelos finais foram treinados por meio de poda (remoção de parâmetros com baixa utilização no modelo grande) e destilação (usando o modelo grande como professor e o modo de treinamento de parâmetros principais de aprendizado de modelo pequeno) no llama 3.1 8b e 70b. durante o processo de treinamento de ajuste fino, dados sintéticos fornecidos pelo llama 3.1 405b também foram adicionados para otimizar seu desempenho em vários recursos, como resumo, reescrita, acompanhamento de instruções, raciocínio linguístico e uso de ferramentas.

a coletiva de imprensa mostrou que a versão 3b do llama 3.2 superou o modelo gemma 2 2b lançado pelo google em junho e o modelo phi 3.5 3.8b lançado pela microsoft em agosto em muitos indicadores, especialmente quando se trata de funções comumente usadas no terminal, como como resumo, seguimento de comando e a vantagem de pontuação é óbvia na tarefa de reescrita.

por exemplo, no conjunto de testes ifeval, que testa a capacidade de cumprir as instruções do usuário, a versão llama 3.2 3b melhora em mais de 20% em comparação com phi 3.5 do mesmo tamanho. nos dois benchmarks que testam a capacidade de chamar ferramentas, o llama 3.2 também apresenta vantagens óbvias.

isso permite que o llama 3.2 seja o que xiao zha disse ser atualmente “o mais forte” em termos de experiência prática de aplicação no lado do dispositivo. no entanto, em termos de habilidades básicas, como raciocínio e matemática, o llama 3.2 3b fica muito atrás do phi 3.5 mini.

além disso, esses modelos oferecem suporte a hardware qualcomm e mediatek no dia do lançamento e são otimizados para processadores arm.

além do llama 3.2, que oferece suporte à compreensão multimodal de imagens, a meta também lançou o meta ai voice no connect desta vez. concluindo todas as principais funções multimodais de uma só vez. em demonstrações ao vivo, como o gpt-4o, ele pode suportar a interrupção do diálogo e o som é muito natural, mas infelizmente não mostra que possui a entonação rica e a expressão emocional do gpt-4o.

embora o desempenho seja apenas igual ao gpt-4o, o meta ai voice encontrou um novo ponto de venda: oferece opções de voz para 5 celebridades, como judi dench, da chefe feminina de rosto frio em 007, e a heroína de crazy rich asians .a voz do protagonista lin jiazhen.

comparado ao openai, que foi processado judicialmente por supostamente roubar a voz de scarlett johansson, o meta é obviamente mais confiável nesse aspecto. de acordo com o wall street journal, a meta pagou “milhões de dólares” pela voz de cada celebridade. algumas celebridades querem limitar a forma como suas vozes podem ser usadas e garantir que não serão responsabilizadas se o meta ai for usado.

segundo a "reuters", o celebrity voice será lançado esta semana nos estados unidos e em outros mercados de língua inglesa por meio da família de aplicativos meta, incluindo facebook, instagram e whatsapp.

além de complementar as capacidades básicas do modelo, o meta também demonstrou alguns novos recursos em aplicações de ia. esses recursos são amplamente suportados pelas soluções de ia existentes, mas o meta vai um passo além. também é mais adequado para cenários de uso de mídias sociais ou óculos de ia.

por exemplo, o meta ai studio agora oferece suporte à construção direta de sistemas humanos digitais de ia. nas demonstrações ao vivo, a latência das conversas com humanos digitais era muito baixa e os efeitos de movimento e sons eram reais e naturais.

meta ai studio oferece suporte direto à construção de sistemas humanos digitais de ia

imagine ter uma ia que fala com você com uma voz e um rosto tão reais como seu companheiro emocional. eu gostaria de chamá-lo de her 2.0 “visível”.

se isso dará início a uma era de ouro dos produtos complementares de ia, ainda será testado pelos usuários.

outro produto incrível é a tradução meta live. com os novos recursos multimodais do meta ai, ele pode reconhecer e substituir diretamente o formato da boca do idioma original pelo formato da boca do idioma de destino. na verdade, esse recurso foi implementado por empresas como a heygen, mas com base na amplitude da cobertura do aplicativo meta, pode se tornar o primeiro produto relacionado completamente popular.

embora o llama 3.1 já seja o modelo de código aberto mais utilizado pelos desenvolvedores, para melhor expandir a camada de aplicação, a meta também lançou a primeira versão oficial da ferramenta de desenvolvimento de produto llama, llama stack, na conferência connect, o que pode simplificar bastante o fluxo de trabalho. de desenvolvedores que usam modelos llama em diferentes ambientes e também pode permitir a implantação com um clique de aplicativos baseados em ferramentas, como geração aprimorada de recuperação (rag) e funções de segurança integradas.

o lançamento do llama 3.2 é de grande importância para o meta. ele complementa as principais deficiências da llama em modelos multimodais de ponta e também fornece a base para as funções multimodais de seus produtos de hardware de ia subsequentes, como os óculos ray-ban que suportam inteligência de ia.

o popular produto "óculos ray-ban", ataque enquanto o ferro está quente e lança novos produtos

na conferência meta connect do ano passado, ninguém esperava que o produto mais popular não fosse o quest 3, mas o produto de óculos ai de segunda geração lançado pela meta e pelo fabricante de óculos ray-ban.

embora a primeira geração seja desconhecida, isso não impede que os entusiastas da tecnologia na europa e nos estados unidos corram para comprar a segunda geração de óculos inteligentes ray-ban. de acordo com as estatísticas da idc, a meta vendeu mais de 700.000 pares de óculos ray-ban. , especialmente o volume de pedidos no segundo trimestre deste ano, que é superior ao da primeira geração mais que dobrou trimestre a trimestre. ao longo do ciclo de vida dos óculos ray-ban meta, em maio de 2024, suas vendas globais ultrapassaram 1 milhão de unidades, e o mercado espera que as remessas anuais em 2024 excedam 1,5 milhão de unidades.

a meta atacou enquanto o ferro estava quente e lançou imediatamente seu novo produto este ano.

em vez de dizer que é um produto novo, é melhor dizer que se trata de um estilo translúcido totalmente novo, porque seu design geral é exatamente o mesmo do ano passado.

mas tem um corpo de vidro transparente com um senso de tecnologia mais forte - como esperado, empresas de hardware em todo o mundo têm o mesmo entendimento de “senso de tecnologia”, que deve ser translúcido.

meta adicionou mais funções de ia a esta geração de óculos. a maior melhoria é a adição da função de reconhecimento de imagem de inteligência artificial em tempo real, que permite aos usuários perguntar aos óculos ray-ban meta sobre a cena ou objeto que estão vendo no momento. os usuários também podem escanear códigos qr diretamente através de seus óculos e ligar para números de telefone que veem à vista.

além disso, os óculos de sol também suportam funções de lembrete semelhantes às dos smartphones, tradução de idiomas em tempo real, incluindo inglês para francês, italiano ou espanhol, e integração com aplicativos de streaming de música como amazon music, audible e iheart radio integrados.

orian, a forma definitiva de óculos ar de acordo com meta?

orian deveria ter sido produzido em massa há muito tempo, mas devido ao aperto geral do orçamento da meta devido à epidemia, zuckerberg decidiu adiar o lançamento. isso fez com que a meta não lançasse seu primeiro produto de óculos ar até 2024.

este é um óculos ar que pesa apenas 98 gramas, o que não é particularmente leve entre os produtos de óculos ar.

as armações da orian são feitas de liga de magnésio, que é mais leve que o alumínio e pode dissipar o calor com mais facilidade. as lentes são feitas de carboneto de silício, que é durável, leve e possui alto índice de refração, o que permite que a luz emitida pelo projetor nos óculos se expanda para uma área de visualização maior.

mas chamar orian de óculos ar não parece ser rigoroso. se quiser funcionar corretamente, precisa cooperar com uma pulseira e um corpo computacional.

o corpo computacional fornece mais poder de processamento e os óculos não podem funcionar sozinhos longe dele. se você quiser usar o orian normalmente, terá que usar o corpo computacional ao seu lado o tempo todo.

a pulseira faz um trabalho mais interessante, é feita de materiais têxteis de alto desempenho e utiliza eletromiografia (emg) para entender os sinais neurais associados aos gestos. dentro de alguns milissegundos, esses sinais são convertidos em sinais de entrada e comunicados ao agente computacional, um pouco como um filme de ficção científica.

quanto à tela, o orion possui um campo de visão de 70 graus e está equipado com um projetor micro led na moldura, que pode projetar imagens no substrato de silício da lente. isso é semelhante ao princípio de funcionamento de todos os óculos ar atuais. .

zuckerberg disse que espera que as pessoas usem o orion para dois propósitos principais: comunicar-se com informações digitais sobrepostas ao mundo real e interagir com inteligência artificial.

este último é mais fácil de entender. o orion possui os mesmos recursos de ia dos óculos ray-ban meta, incluindo recursos de reconhecimento de imagem e recursos de interação de linguagem recém-adicionados.

o primeiro é mais abstrato. no local, meta demonstrou uma cena que combina imagens holográficas com o mundo real meta desenvolveu uma versão ar do aplicativo messenger para estes óculos, que pode realizar videochamadas de projeção holográfica em tempo real, como se a outra parte estivesse ao lado. você.

para promover os óculos ar, meta também trouxe huang renxun como a primeira leva de usuários a experimentar o orion, disse: “huang experimentou e disse que é bom”!

na opinião de zuckerberg, o amadurecimento dos óculos ar será um processo gradual. por um lado, óculos de inteligência artificial sem display, como o ray-ban meta, serão popularizados mais rapidamente.

por outro lado, será popularizado por óculos com telas pequenas, como o próximo hypernova da meta, que pode proporcionar interações de toque mais fáceis, como interagir com meta ai ou comunicar-se com amigos.

xiao zha disse que orion representa a forma final dos óculos ar: os óculos ar maduros têm poder de computação suficiente para permitir que você deixe seu smartphone em casa.

dito isto, mesmo estando separados do telemóvel, ainda temos que levar connosco o corpo computacional quando saímos, o que ainda está longe da forma final que imaginávamos.

além disso, há também uma bacia com água fria despejada no tempo: a duração da bateria do orion é de apenas 2 horas. simplificando, orion só pode permitir que você seja um super-herói no mundo virtual por 2 horas.

e perceber a liberdade máxima dos óculos ar pode não ser muito barato. de acordo com reportagens da mídia estrangeira como the verge e techcrunch, ao exibir a máquina de teste, a equipe da meta disse que o custo atual do hardware do orion ultrapassa us$ 10.000. isso significa que o preço deste produto é muito superior ao vision pro da apple.

conclusão

desde o fracasso do metaverso em 2022 e sendo ridicularizado por muitas partes, até se tornar o rei da ia de código aberto em 2023 e, em seguida, usar óculos inteligentes este ano para abrir a porta para uma nova geração de hardware de ia. zuckerberg completou um contra-ataque quase impossível nos últimos três anos.

durante esse período, suas duas decisões importantes: criar ia de código aberto e desenvolver óculos inteligentes leves, se concretizaram hoje no connect.

a partir da exibição dos óculos ray-ban equipados com funções de ia, vimos de fato as vantagens dos óculos como transportadores na era da ia: eles não só podem usar a voz para ligar para modelos grandes, mas também podem utilizar mais diretamente o potencial de ia multimodal. a “visualização” direta é uma experiência de usuário muito mais natural do que a “digitalização” com um telefone celular. e essa franqueza provavelmente determinará a transferência da próxima geração de dispositivos inteligentes.

o último orion lançado é um trabalho futuro que carrega a ambição da forma final de equipamento de computação espacial de ia. comparada ao pesado e desconfortável vision pro, a visão mr leve de xiao zha é mais parecida com o futuro da computação espacial. e agora esta visão tomou forma. se a migração de dispositivos inteligentes na era da ia estiver destinada a acontecer, a meta é a empresa mais próxima de seu limite em comparação com pequenas tentativas como ai pin.

se você falar com uma pessoa em 2022 sobre tudo isso, ela com certeza não vai acreditar.zuckerberg, um nerd de tecnologia que parece um pouco obscuro, realmente cumpre sua promessa e nos leva cada vez mais perto da entrada do metaverso.

notícias