A versão dela do Google está à frente do jogo! Convoque Gemini com um clique, subvertendo 5,2 bilhões de terminais em todo o mundo

2024-08-14

Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]Versão do Google de sua estreia antes do OpenAI? O modelo de voz Gemini Live do Google estará disponível em breve em 3 bilhões de dispositivos Android e 2,2 bilhões de dispositivos iOS em todo o mundo. Embora a demonstração ao vivo ainda tenha sido um pouco revirada, o Google estava determinado a não esperar mais e a derrotar o OpenAI e lutar contra a Apple!

OpenAI, acabou de ser bloqueado?

Seguindo os passos de “Her” da OpenAI, o Google também anunciou oficialmente: lançando a função de voz AI!

Apenas no discurso de abertura "Made by Google", o Google anunciou o lançamento do Gemini Live, um modo de voz. Gemini Live estará disponível no aplicativo móvel Gemini em breve.

A corrida armamentista entre Google e OpenAI começou novamente.

Dê uma olhada no OpenAI. O “Her” que foi inovador há três meses ainda está em silêncio. Este é um ritmo que certamente será censurado pelo Google.

Rick Osterloh, o líder do Google presente, também disse de forma significativa: "Ouvimos muitas promessas sobre IA e slogans sobre seu próximo lançamento. Hoje, o que queremos mostrar é um progresso real!"

Além disso, durante esta apresentação, o Google também demonstrou em detalhes como o Gemini será mais profundamente integrado ao Android, aos aplicativos e aos novos dispositivos Pixel.

Na série Pixel 9 de telefones celulares lançados de uma só vez, o Google também explorou a nova forma de "telefones celulares AI +": que tipo de produto de IA do lado do dispositivo será criado pela integração de Gemini, Android e Pixel.

Agora, com o Android com tecnologia de IA, o Google pode vencer a Apple?

“Ela” do Google também está aqui

Segundo o Google, o Gemini Live é uma nova experiência de conversação móvel.

Se quisermos debater que tipo de empregos podemos encontrar com base em nossas habilidades e educação, Gêmeos pode falar conosco imediatamente em tempo real.

Essa sensação é como ter no bolso um assistente atencioso que pode conversar a qualquer hora.

E, como o OpenAI, a função de voz do Google também permite que os usuários se comuniquem com ele em uma linguagem de conversação natural, e suas respostas também usam voz e ritmo humanos.

Por favor, ouça o áudio abaixo. Várias vozes masculinas e femininas têm timbres muito naturais.

Para nos proporcionar a experiência mais natural, o Google lançou 10 vozes de uma só vez, e podemos escolher nosso tom e estilo preferidos à vontade.

Além disso, o Gemini Live também suporta a função mãos-livres. Mesmo que o aplicativo Gemini esteja em segundo plano ou o telefone esteja bloqueado, ainda podemos falar com ele como em uma ligação normal.

Além disso, podemos interrompê-lo e mudar de assunto a qualquer momento – parece familiar, certo? É isso mesmo, ele pode fazer tudo o que a voz da OpenAI pode fazer.

A função de voz avançada “Her” da OpenAI, que surpreendeu a todos em maio, ainda está em desenvolvimento. No final do mês passado, foi aberta apenas seletivamente para um pequeno número de participantes do teste Alpha.

Em termos de velocidade, o Google supera claramente o OpenAI.

Gemini Live agora está disponível em dispositivos Android por US$ 19,99 por mês por meio do aplicativo Google Gemini.

A versão em inglês está aberta no momento, e a versão iOS e suporte para mais idiomas serão lançados nas próximas semanas.

Por outro lado, em termos de escala de usuários, o modo de voz avançado do Google também alcançará uma gama mais ampla de usuários potenciais do que o OpenAI.

Você sabe, existem agora mais de 3 bilhões de usuários de Android e 2,2 bilhões de usuários de iOS no mundo.

Parte da razão pela qual a função de voz do OpenAI falhou pode estar relacionada ao desempenho anormal da IA no teste da equipe vermelha.

O Google resolveu completamente esses problemas de segurança? Ninguém sabe ainda, mas é óbvio que o Google, que não quer sucumbir aos outros, decidiu dar tudo de si desta vez.

Mas virou duas vezes

A única desvantagem é que houve alguns contratempos durante a demonstração ao vivo do Gemini Live.

Quando o executivo do Google, Dave Citron, mostrou os novos recursos do Gemini para conectar o Google Calendar, Tasks e Keep em novos telefones Android, ele não esperava derrubar duas vezes consecutivas.

Ele primeiro usou seu celular para tirar um pôster promocional do desfile de moda de Sabrina Carpenter em São Francisco e depois perguntou a Gêmeos: "Verifique minha agenda para ver se estou livre para assistir ao desfile de moda de Sabrina Carpenter".

Na primeira resposta de Gêmeos, ela disse que algo deu errado e que precisava tentar novamente.

Quando tentei as etapas pela segunda vez, Gêmeos ainda não obteve resposta.

Só na terceira vez (um aparelho diferente foi trocado) é que os resultados foram finalmente divulgados e houve uma explosão de aplausos do público.

Redefinindo o Assistente de IA

Neste discurso, o Google disse: Com o Gemini, eles reinventaram o que significa para um assistente pessoal ser verdadeiramente útil para os humanos – mais natural, coloquial e intuitivo.

Conecte mais aplicativos

Quais são as palavras-chave mais importantes para um bom assistente de IA?

conectar.

Gemini é assim, ele se integrará a todos os aplicativos e ferramentas do Google que usamos para realizar tarefas grandes e pequenas.

E ao contrário de outros assistentes, não precisamos perder tempo alternando entre aplicativos e serviços.

Nas próximas semanas, o Google também lançará novas extensões, incluindo Keep, Tasks, Utilities e YouTube Music.

Que comida está na foto? Pergunte ao Gêmeos e ele listará tudo para você.

Suponha que agora queiramos realizar um jantar, Gêmeos possa usar suas várias artes marciais——

No Gmail, ele pode encontrar uma receita de lasanha que alguém nos enviou e, em seguida, adicionar os ingredientes à lista de compras do Keep; em seguida, pode pedir ao Gemini que compile uma lista de reprodução para nós, pedindo-lhe que “me lembre do final dos anos 90”.

Na próxima extensão de calendário do Google, podemos tirar diretamente uma foto do pôster de um show e perguntar a Gêmeos: Estou livre naquele dia? Se a resposta for sim, também podemos pedir a Gêmeos que nos ajude a definir lembretes e a nos preparar para comprar ingressos.

Peça ao Gêmeos que escreva um e-mail para o professor pedindo licença, e peça a prorrogação do prazo por mais alguns dias, apenas conversando.

Convoque Gêmeos com um clique

Agora, o Gemini foi totalmente integrado à experiência do usuário Android.

Somente no Android podemos experimentar uma consciência de contexto tão suave como a seda.

Enquanto tivermos um telefone Android, não importa o que queiramos fazer, o Gemini pode aparecer quando necessário.

Pressione e segure o botão liga / desliga ou diga “Ok Google” para invocar Gêmeos!

Se estiver usando o YouTube, você pode fazer perguntas ao Gêmeos sobre os vídeos.

Por exemplo, suponha que estamos fazendo um guia para viagens ao exterior e acabamos de assistir a um videoblog de viagens. Clique em "Pergunte sobre este vídeo" e liste todos os restaurantes que aparecem no vídeo e adicione-os ao Google Maps. farei isso um por um.

Olhando a imagem abaixo, as imagens geradas pelo Gemini podem ser arrastadas e soltas diretamente no Gmail e no Mensagens do Google.

Acredito que você percebeu a beleza desta operação——

Como o Gemini construiu uma integração profunda para o Android, a IA pode fazer mais do que apenas ler o conteúdo da tela e interagir com muitos dos aplicativos que já usamos.

Gemini 1.5 Flash, equipado com assistente de IA

No entanto, existem dois problemas: o LLM que pode interpretar melhor a linguagem natural e processar tarefas geralmente significa que leva mais tempo para concluir até mesmo tarefas simples.

E se a IA mostrar um comportamento inesperado ou fornecer informações imprecisas, também será uma dor de cabeça.

Para este fim, o Google introduziu especialmente um novo modelo - Gemini 1.5 Flash.

Ele responde mais rápido e a qualidade de suas respostas é maior.

Nos próximos meses, o Google também integrará mais profundamente o modelo com Google Home, Phone e Mensagens.

O Google afirma que hoje atingimos oficialmente um ponto de inflexão em que a utilidade dos assistentes de IA supera em muito os seus desafios.

Com base na Imagem 3, gere imagens em 2 segundos

Na reunião, o Google também lançou um novo aplicativo de geração de fotos com IA – Pixel Studio.

São necessárias apenas algumas palavras rápidas para gerar uma bela imagem.

O mais importante é que se trata de um APP de geração de imagens local, construído no Imagen 3, que pode gerar diversas imagens em 2 segundos.

Também hoje foi divulgado o relatório técnico do Imagen 3. Os detalhes técnicos podem ser encontrados no artigo de 32 páginas.

Endereço do artigo: https://arxiv.org/pdf/2408.07009

O primeiro telefone AI custa 20 dólares criptônicos por mês

Todos esses recursos de IA foram integrados ao hardware de telefonia móvel mais recente do Google.

No evento, o Google lançou um total de quatro telefones AI – Pixel 9, Pixel9 Pro, Pixel9 Pro XL e a tela dobrável de segunda geração Pixel 9 Pro Fold.

O que você não deve perder na nova série Pixel 9 são os recursos da câmera com tecnologia de IA.

O Google afirmou que o algoritmo de processamento de imagem – HDR+pipeline, foi totalmente reconstruído, permitindo que as fotos tiradas tenham melhor contraste, sombras, exposição, nitidez, cor, etc.

A seguir estão os novos recursos de edição de imagens AI dos telefones da série Pixel 9:

Me adicione

Você costuma descobrir que durante reuniões familiares, formação de equipes e viagens familiares, você assume a responsabilidade de tirar fotos, mas é o único que falta nas fotos?

No entanto, você não precisa se preocupar com isso no futuro.

A função “Add Me” do Google pode compensar seus arrependimentos.

Primeiro, uma foto de grupo precisa ser tirada. Em seguida, o responsável por tirar a foto interage com a pessoa da foto e tira uma foto incluindo o “fotógrafo”.

Neste momento, o Pixel usa tecnologia AR em tempo real para orientar a segunda pessoa na composição da foto para que ela corresponda à composição da primeira foto.

Por fim, o Pixel mescla as duas imagens para garantir que todos apareçam na mesma foto, incluindo o “fotógrafo”.

Reimaginar

Outra função do Reimagine é fácil de entender.

Neste momento, um recurso do Magic Editor permite descrever o efeito desejado diretamente na caixa de texto.

A IA pode transformar suas ideias em realidade.

Por exemplo, você pode modificar o fundo da foto, vulcões, pôr do sol, aurora e outras cenas, e brincar com elas como quiser.

Moldura Automática

A composição automática é um novo recurso do Magic Editor que pode recompor fotos que já foram tiradas.

Ele pode até ampliar suas fotos e gerar fundos de áreas em branco por meio de IA.

Melhorar o zoom

O Zoom Enhance pode preencher automaticamente as lacunas entre os pixels e prever detalhes com precisão para obter efeitos de ampliação de fotografia de alta qualidade.

A realização dos recursos de IA é inseparável dos poderosos chips por trás da série Pixel 9.

O processador de IA mais poderoso: Google Tensor G4

O novo telefone celular usa o processador recém-projetado do Google – Google Tensor G4.

O Google disse: “O chip Tensor G4 é nosso chip mais rápido e poderoso até agora”.

Com base no Tensor G3 do ano passado, o Google se uniu à Samsung para criar um processador semipersonalizado Tensor G4 baseado no processo de 4nm, usando os núcleos de CPU e GPU fornecidos pela Arm.

Ao mesmo tempo, também usa módulos próprios do Google para aprimorar funções de IA, fotografia e segurança.

É relatado que, em comparação com as duas gerações anteriores, o G4 aumentou a velocidade de navegação na web em 20%, a velocidade de inicialização do APP em 17% e o consumo diário de energia da bateria do aplicativo aumentou em até 20%.

Em termos de CPU, o G4 está equipado com 1 núcleo Cortex-X4 rodando a 3,1 GHz, 3 núcleos Cortex-A720 rodando a 2,6 GHz e 4 núcleos Cortex-A520 rodando a 1,95 GHz.

Em comparação, o Tensor G3 tem um núcleo Cortex-X3 a 2,91 GHz, quatro núcleos Cortex-A715 a 2,37 GHz e quatro núcleos Cortex-A510 a 1,70 GHz.

Embora o Tensor G4 tenha um núcleo a menos, todos os núcleos têm freqüência de 200 a 300 MHz mais alta.

De acordo com as pontuações vazadas do Geekbench, o Tensor G4 obteve 2.005 pontos no teste single-core e 4.835 no teste multi-core. Em comparação, o Tensor G3 pontuou 1.751 no teste single-core e 4.208 no teste multi-core. Há uma diferença de desempenho de 14%.

Quanto à GPU, o Tensor G4 usa a mesma GPU ARM Mali-G715 do Tensor G3 do ano passado, mas a frequência foi aumentada de 890 MHz para 940 MHz. Isso significa que o desempenho da GPU do Tensor G4 deve ser um pouco melhor que o do Tensor G3.

Apoie novas funções de IA

A IA é obviamente uma das principais forças motrizes por trás do projeto Tensor.

O Tensor G4 redesenhado foi projetado para capacitar as funções mais recentes do Gemini e da fotografia computacional.

Os modelos Gemini Nano que podem ser executados localmente (a versão maior tem 3,5 bilhões de parâmetros) podem produzir conteúdo a uma velocidade de 45 tokens/s.

Embora a TPU do Google já seja rápida, ela não está à frente de seus concorrentes em termos de processamento de tokens.

Em comparação, o Qualcomm Snapdragon 8 Gen 3 pode produzir 15 tokens por segundo ao executar 10 bilhões de parâmetros; o MediaTek Dimensity 9300 pode executar 7 bilhões de parâmetros a 20 tokens por segundo;

No entanto, os recursos exclusivos de IA da série Pixel 9 podem não depender inteiramente do novo chip, mas sim do resultado de outros fatores.

A IA também requer grandes quantidades de memória e acesso a conjuntos de memória grandes e rápidos para executar modelos mais complexos.

O Pixel 9 vem com 12 GB de RAM e a série Pro é atualizada para 16 GB.

O Google disse que, para obter uma experiência de IA mais suave, esta é a primeira vez que reserva “uma porção dedicada de RAM para executar o Gemini no dispositivo” para evitar que outros aplicativos usem a memória.

No entanto, o Google não divulgou quanto foi alocado para tarefas de IA.

Embora o chip em si não tenha uma grande atualização em termos de IA, ele ainda pode trazer uma melhor experiência de IA e novos recursos através da otimização do gerenciamento de RAM.

Referências:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-take-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

notícias

A versão dela do Google está à frente do jogo! Convoque Gemini com um clique, subvertendo 5,2 bilhões de terminais em todo o mundo

Introdução

Minhas informações de contato