Google: telefones Android, ouça-me, a IA tem que fazer isso

Google: telefones Android, me escute, a IA tem que fazer isso

2024-08-14

Autor |
editar |

Um mês antes da Apple, o Google demonstrou todas as possibilidades dos telefones AI+ em seu novo telefone Pixel.

Em 13 de agosto, horário local, o Google lançou novos produtos de hardware, como Pixel 9, Pixel 9 Pro e a tela dobrável de segunda geração Pixel 9 Fold, relógios inteligentes e fones de ouvido. Em comparação com o hardware, as pessoas estão mais preocupadas em como o Google, como gerente do sistema Android, usará a IA no dispositivo para telefones Android quando os telefones celulares AI+ são tão populares.

Há quase 10 meses, o Google lançou a primeira geração de telefones celulares com IA. Agora, há menos de um ano, a gigante mais uma vez atualizou seu portfólio de produtos Gemini, Android e Pixel. tem." "modelo.

Desde que a OpenAI lançou o modo de voz ChatGPT e as funções de IA do iPhone de próxima geração da Apple foram expostas, o Google não está disposto a ficar para trás no que seus pares podem fazer, incluindo conversas de voz de IA, busca de informações em capturas de tela, etc. Ao mesmo tempo, o Google também está integrando ainda mais a IA em seu próprio ecossistema de aplicativos.

Quem é o líder em telefones celulares com IA, o Google deve competir com a Apple?

Em resposta à OpenAI,

Gemini Live está online

Gemini é a base dos vários produtos de IA do Google e o assistente padrão nos telefones celulares da série Pixel 9 do Google. As atualizações que o Gemini oferece quando integrado aos telefones celulares foram o foco principal da conferência.

Gemini em telefones Google Pixel pode ser convocado pressionando o botão liga / desliga. A partir de hoje, os usuários podem exibir sobreposições do Gemini acima dos aplicativos que usam para fazer perguntas sobre o que está na tela, de acordo com executivos do Google. Por exemplo, os usuários podem fazer perguntas sobre um vídeo do YouTube que estão assistindo ou podem gerar imagens diretamente das sobreposições do Gemini e arrastá-las e soltá-las em aplicativos como Gmail e Google Mensagens.

O Google também planeja conectar o Gemini a mais aplicativos “nas próximas semanas”, incluindo Calendar, Keep e YouTube Music. Recursos específicos incluem pedir ao Gemini para "fazer uma lista de reprodução de músicas que me lembrem do final dos anos 90". "Tire uma foto de um folheto de um show e peça ao Gemini para verificar a disponibilidade naquele dia - até mesmo definir lembretes para comprar ingressos". encontre uma receita no seu Gmail e peça para adicionar os ingredientes à sua lista de compras no Keep."

Gemini usa capturas de tela para extrair informações e interagir com mais aplicativos Fonte da imagem: Google

Além dessas experiências integradas, o Google também lançou oficialmente o Gemini Live. Esse recurso pode ser considerado a resposta do Google ao modo de voz avançado GPT-4o lançado pela OpenAI. Este recurso foi exposto anteriormente na 2024 I/O Developer Conference do Google e será lançado oficialmente hoje.

Os usuários podem usar seus telefones celulares para conduzir conversas de voz com o Gemini, o chatbot generativo de IA do Google. Eles podem interromper no meio do caminho e fazer perguntas de acompanhamento, e a conversa pode ser pausada e retomada a qualquer momento. Alguns exemplos de usos específicos incluem permitir que o Gemini Live acompanhe você na preparação para entrevistas de emprego, praticar discursos e conversar casualmente sobre tópicos de seu interesse.

O Gemini Live obviamente visa avaliar a interação de voz do GPT-4o ｜ Fonte da imagem: Google

Então, o Gemini Live tem alguma vantagem sobre o modo de voz do ChatGPT?

Diz-se que a arquitetura do modelo generativo de IA que suporta Live - Gemini 1.5 Pro e Gemini 1.5 Flash tem uma "janela de contexto" mais longa que a média, o que significa que eles podem processar e raciocinar sobre grandes quantidades de dados antes de gerar uma resposta. teoria As conversas podem durar horas.

O Gemini Live também funciona com viva-voz, permitindo que os usuários continuem conversas de voz em segundo plano no aplicativo ou quando o telefone estiver bloqueado, com 10 novas vozes para escolher.

No entanto, é importante destacar que a Gemini Live ainda não lançou a função “entrada multimodal”, que deverá ser lançada “ainda este ano”.

Há alguns meses, o Google divulgou um vídeo pré-gravado mostrando como o Gemini Live conseguia reconhecer o entorno do usuário por meio de fotos e vídeos capturados pela câmera do celular e responder, como apontar uma peça quebrada da bicicleta ou explicar o que estava acontecendo na tela do computador. . A funcionalidade de um trecho de código, nenhum dos quais foi demonstrado ao vivo.

Além disso, o Gemini Live está disponível para assinantes do Gemini Advanced em telefones Android e não é gratuito. Atualmente está disponível apenas em inglês, mas o Google afirma que irá expandir para mais idiomas “nas próximas semanas” e para iOS por meio de um aplicativo.

Demonstração de transmissão ao vivo de executivos do Google Gemini Live ｜ Fonte da imagem: Google

Uma experiência do Google Gemini e um executivo do Google Assistant disseram: “O Google está nos estágios iniciais de exploração de maneiras pelas quais os assistentes com tecnologia de IA podem ser úteis – e, assim como os telefones Pixel, o Gemini ficará cada vez melhor”.

Além disso, em termos de questões de privacidade, os executivos do ecossistema Android do Google disseram que o Gemini suporta centenas de modelos de telefones celulares de dezenas de fabricantes de dispositivos e, ao processar os dados do usuário, os dados não sairão do telefone.

"Gemini pode ajudar a criar um plano de treino diário com base em um e-mail de seu personal trainer ou escrever um perfil de trabalho usando seu currículo no Google Drive. Somente Gemini pode fazer tudo dessa maneira segura e completa, sem a necessidade de Os dados são entregues a um fornecedor terceirizado de IA que você talvez não conheça ou não confie”, disse Sameer Samat, presidente do ecossistema Android do Google.

“Como o Android é o primeiro sistema operacional móvel a ter um grande modelo de IA multimodal no dispositivo – chamado Gemini Nano – seus dados nunca saem do seu telefone enquanto lidam com alguns dos casos de uso mais sensíveis.”

IA está ainda mais integrada ao Android

A maior vantagem do Google na promoção de telefones com IA são, sem dúvida, suas múltiplas ferramentas de aplicativos e o ecossistema Android. O Google agora tem bilhões de usuários do Android, e obviamente há mais espaço para isso do que um aplicativo de chatbot.

No ano passado, como o primeiro smartphone centrado em IA, a série Pixel 8 do Google trouxe vários recursos de IA. Por exemplo, os usuários podem remover, mover ou editar elementos individuais em uma foto, mover expressões entre fotos para obter a melhor foto composta, pesquisar com base em capturas de tela ou em uma “parte circulada” da tela e muito mais.

Todos esses recursos apareceram pela primeira vez na série Pixel 8 e desde então se espalharam por todo o ecossistema Android.

A função de “pesquisa circular” do Google apareceu pela primeira vez no telefone Galaxy AI da Samsung. Como parceiro do ecossistema Android do Google, os telefones da Samsung também adicionaram muitos recursos de IA semelhantes. O mencionado assistente de IA Gemini também aparece no Galaxy Z Fold6 da Samsung, no Motorola Razr + e em outros telefones celulares.

Ao mesmo tempo, outros fabricantes também anunciaram que lançarão sua própria IA para celulares. O que mais chamou a atenção nos últimos meses é a Apple. A mesma direção e conceito é integrar seu próprio ecossistema de aplicativos.

Em quase um ano, pode-se dizer que os "telefones celulares com IA" se tornaram a perspectiva central da visão do mercado sobre os telefones celulares, não apenas sobre os telefones celulares do Google. Como usar a IA para fazer as pessoas brilharem é um desafio para o Google. Atualmente, semelhante a quando lançou o telefone AI Pixel 8 de primeira geração, a maior produção do Google ainda são vários dispositivos com funções de IA.

No evento Made By Google deste ano, os principais novos recursos de IA do Google incluem:

“Add Me” permite que até mesmo a pessoa que tirou a foto se inclua na foto do grupo;
"Pixel Studio", um gerador de imagens de IA muito semelhante ao próximo aplicativo Image Playground da Apple;
“Pixel Screenshots”, que verifica a galeria de um usuário em busca de capturas de tela e as transforma em um banco de dados facilmente pesquisável;
"Notas de chamada" pode salvar um resumo das informações no histórico de chamadas. Após ativar esta função, todos na chamada receberão uma notificação.

Dentre elas, se quiser implementar a função “Adicionar-me”, o fotógrafo primeiro tira uma foto sem ele mesmo, depois outra pessoa passa a ser o fotógrafo e tira outra foto. O Pixel mesclará as duas fotos para garantir que todos estejam na mesma foto, portanto, não há necessidade de pedir a um estranho para tirar a foto.

Função de foto de grupo｜Fonte da imagem: Google

Um importante ponto de venda do posicionamento da série Pixel 9 pelo Google é também a câmera AI, que ele se autodenomina "a primeira câmera movida por IA do mundo". Os executivos do Google também disseram que "Pixel foi o primeiro telefone a usar o Night Sight em fotos e vídeos, e agora também é o primeiro telefone a capturar paisagens panorâmicas deslumbrantes e paisagens urbanas em ambientes com pouca luz. Na conferência de imprensa, os executivos do Google também." comparou fotos tiradas pelo Pixel 9 Pro XL com o iPhone 15 Pro Max da Apple.

Efeito de fotografia noturna de celular Google vs celular Apple ｜ Fonte: Google

A tela ultragrande dobrável do Pixel 9 Pro Fold também possui uma função “Made You Look” que pode ser usada para atrair a atenção dos usuários e fazê-los sorrir para a câmera. Ao usar esse recurso, desdobre o telefone e uma animação visual marcante será reproduzida em um lado da tela externa, como uma galinha amarela brilhante ou outras animações engraçadas.

Recursos de tela que atraem a atenção dos usuários｜Fonte da imagem: Google

Depois de tirar uma foto, também existem ferramentas de edição de fotos, e o Magic Editor do Google Fotos lançou alguns novos recursos este ano. Por exemplo, a função “Auto Frame” é usada para corrigir o ângulo de fotos inclinadas, enquanto usa IA generativa para preencher as lacunas ao redor do assunto para criar um campo de visão mais amplo. Há também uma função "Reimaginar" Depois de descrever o efeito desejado na caixa de texto, você pode usar IA generativa para imagem P, como transformar grama no chão em flores silvestres, adicionar um balão de ar quente a uma determinada parte do. céu, etc

Além disso, o Google seguiu os passos da Apple e lançou um recurso “Satélite SOS” para uso em emergências. Esse recurso permite aos usuários entrar em contato com equipes de emergência e compartilhar informações de localização quando não há serviço de celular. Segundo executivos do Google, a série Pixel 9 será “os primeiros telefones Android capazes de usar SOS via satélite”.

Função SOS de satélite｜Fonte da imagem: Google

Do ponto de vista funcional, a combinação do Pixel 9+ Gemini não lidera muito os atuais fabricantes nacionais de Android em termos de IA. Mas deve-se notar que, ao contrário da Apple, o Google possui seus próprios sistemas e terminais, bem como grandes modelos e computação em nuvem. É a empresa que realmente completou um ciclo fechado na “nuvem suave, dura e central” entre todos. empresas atualmente.

Assim que houver um avanço na IA de terminal, o Google, que está pronto para tudo, terá uma chance muito maior de “torná-lo excelente novamente” do que seus concorrentes.

Talvez o que falte ao Google seja apenas uma ambição maior.

*Fonte da imagem do cabeçalho: Google

Este artigo é um artigo original de Geek Park. Para reimpressão, entre em contato com Geek Jun no WeChat geekparkGO.

notícias

Google: telefones Android, me escute, a IA tem que fazer isso

Introdução

Minhas informações de contato