está animado de novo! a versão aprimorada "her" da openai está oficialmente aberta, superando a atualização de "nível de produção" do gemini...

está animado de novo! a versão aprimorada "her" do openai está oficialmente aberta, superando a atualização de "nível de produção" do gemini...

2024-09-25

autora｜jéssica

hoje é realmente um dia animado no círculo de ia que não se via há muito tempo!

fiquei confuso com o ensaio de ia postado ontem por ultraman, e agora a intenção de sua operação está clara.

ultraman quer atacar seu antigo inimigo, o google. para ser mais preciso, são os dois modelos gemini atualizados que o google acaba de atualizar hoje: gemini-1.5-pro-002 e gemini-1.5-flash-002.

o método de sniping é simples e rudimentar: anunciar diretamente que a tão esperada função de voz gpt será inaugurada oficialmente hoje.

em menos de duas horas, o google foi arrancado do momento de destaque duramente conquistado pelo google. se eu fosse o google, ficaria com muita raiva.

a voz avançada gpt está aqui, falando mais de 50 idiomas

openai disse que o modo de voz avançado do chatgpt será gradualmente implementado para todos os usuários plus e team esta semana.

enquanto as pessoas esperam pacientemente, a equipe melhorou alguns recursos, incluindo a adição de comandos personalizados, funções de memória, 5 novas vozes e sotaques aprimorados.

como já se fala nisso há muito tempo, a openai fez uma declaração especial: "pode dizer 'desculpe, estou atrasado' em mais de 50 idiomas."

e coloque um exemplo de mudança do inglês para o mandarim: "vovó, me desculpe, estou atrasado. não era minha intenção deixar você esperando tanto tempo, como posso compensar?"

——bom rapaz, agora você virou avó do gpt, me obrigando a te perdoar.

como pode ser visto no vídeo, o modo de fala agora é representado por uma esfera azul pulsante, em vez do ponto preto animado que a openai usou ao demonstrar a tecnologia em maio.

quando o acesso for concedido, um prompt aparecerá no aplicativo. ele será aberto primeiro para usuários dos níveis plus e teams e será estendido para usuários corporativos e educacionais a partir da próxima semana.

chatgpt também adiciona cinco novas vozes para experiência: arbor, maple, sol, spruce e vale. neste ponto, além dos anteriores breeze, juniper, cove e ember, o número total de vozes do chatgpt atingiu 9 (o número de vozes do google gemini live é 10).

você também deve ter notado que esses nomes são todos inspirados na natureza, desde “bordo” e “brisa” até “sol” e “vale”, talvez para tornar o uso mais natural. uma voz ausente foi sky, a voz que a openai exibiu em seu lançamento na primavera, mas foi retirada devido a uma disputa legal com scarlett johansson, a estrela do filme “her”.

openai também estendeu alguns dos recursos de personalização do chatgpt para modos de voz avançados, incluindo um recurso de “comando personalizado” que permite aos usuários personalizar respostas e um recurso de memória que permite ao chatgpt lembrar conversas para referência futura.

por exemplo, no vídeo abaixo, no menu chatgpt personalizado das configurações do sistema, digite "meu nome é charlotte e moro na área da baía de são francisco". quando questionado sobre atividades ao ar livre nos finais de semana, o gpt ligará para o usuário charlotte, fornece recomendações que correspondem ao clima e ao trânsito locais.

a openai disse que a equipe melhorou a velocidade de resposta, a fluência e o sotaque em algumas línguas estrangeiras. a voz se ajusta ao tom da conversa e você pode criar cenas que a levem a assumir diferentes papéis. o atraso do som é muito baixo e a compreensão é mais forte. é realmente como ter uma conversa natural com outra pessoa.

no entanto, as funções de compartilhamento de vídeo e tela que a openai demonstrou há quatro meses não foram atualizadas desta vez. naquela época, a equipe questionou o gpt sobre os problemas matemáticos no papel e os códigos na tela do computador, e obteve respostas em tempo real por meio de diálogo de voz natural. atualmente, a openai não forneceu um cronograma de implementação para esse recurso multimodal.

além disso, o modo de voz avançado está temporariamente indisponível para a união europeia, reino unido, suíça, islândia, noruega, liechtenstein e outras regiões.

apesar disso, finalmente poder colocar a mão na massa com a versão openai de “ela” é realmente algo emocionante para pessoas que se cansaram do círculo de ia. juntamente com a visualização o1 que acabou de criar uma onda de mania, a openai controlou firmemente a indústria por mais uma semana.

essa excitação também fez com que todos sofressem de amnésia intermitente:

aliás, o que o google postou hoje?

gemini 1.5 atualiza dois novos modelos, o preço cai pela metade e a velocidade aumenta

a atualização do google desta vez é realmente muito importante, pelo menos para os desenvolvedores.

de acordo com o google blog, desta vez eles atualizaram dois modelos gemini de nível de produção: gemini-1.5-pro-002 e gemini-1.5-flash-002. o chamado “nível de produção” significa que o modelo de ia foi totalmente desenvolvido, testado e otimizado e está pronto para implantação comercial. ele pode lidar com um grande número de solicitações de usuários e ser aplicado a serviços de produtos, não apenas para serviços de produtos. experimentos ou pesquisas.

como uma grande atualização dos modelos da série gemini 1.5 revelados na conferência i/o em maio deste ano, os novos modelos são mais rápidos, mais potentes e mais econômicos.

os principais destaques são resumidos como:

1. redução significativa de preços: os preços de entrada e saída do 1.5 pro caíram cerca de 50%, reduzindo significativamente o custo de construção, especialmente para pontas menores que 128 mil tokens.

2. melhoria geral da qualidade: especialmente a melhoria do desempenho em matemática, geração de código, contexto de texto longo e tarefas visuais é significativa, incluindo um aumento de cerca de 20% em testes de benchmark como math e hiddenmath, e um aumento de 2% -7% em aplicações visuais e de código.

3. aumento do limite de taxa: o limite de taxa de 1,5 flash e 1,5 pro foi aumentado de 1.000 rpm (solicitações por minuto) e 360 rpm para 2.000 rpm e 1.000 rpm respectivamente, permitindo que os desenvolvedores criem e processem tarefas com mais rapidez.

4. saída mais rápida e menor latência: a velocidade de saída é aumentada em 2 vezes e a latência é reduzida em 3 vezes, fornecendo suporte para cenários de aplicação mais eficientes.

5. respostas mais concisas: o estilo de resposta é mais conciso, menos caro e o comprimento da saída é reduzido em 5% a 20%. também reduz o número de rejeições e evitações em muitos tópicos e mantém alta utilidade.

6. suporte multimodal e de contexto longo: a janela de contexto longo de 2 milhões de tokens do 1.5 pro suporta o processamento de texto longo e tarefas multimodais, como geração de conteúdo de pdfs de 1.000 páginas ou vídeos longos.

7. configurações de filtragem atualizadas: o filtro de segurança padrão do modelo não é mais aplicado automaticamente e os desenvolvedores podem personalizar as configurações de segurança do modelo conforme necessário.

os desenvolvedores podem acessar os dois modelos mais recentes gratuitamente por meio do google ai studio e da api gemini. o novo modelo também está disponível na vertex ai para grandes organizações e clientes do google cloud.

gêmeos envolto na sombra do gpt

no entanto, em comparação com seus pares, muitos usuários comuns expressaram decepção com a mudança do google, sentindo que este não era nem mesmo um verdadeiro “lançamento”.

o ceo da abacus.ai e conhecido blogueiro bindu reddy disse: "infelizmente, a openai lançou o1 que passou no teste de qi, enquanto o google apenas fez algumas pequenas atualizações no gemini 1.5. eles têm 100 vezes mais recursos, 10 vezes mais talento e 10 vezes o de todas as coisas, como isso pôde acontecer?”

embora alguns desenvolvedores ainda falem pelo google, por exemplo, um internauta no fórum de discussão do reddit disse:

“essas são coisas úteis para pessoas que estão realmente construindo aplicativos e tentando reduzir custos e aumentar lucros. o aplicativo em que estou trabalhando tem um custo fixo por operação, determinado pelo comprimento do token, o que faz com que meu lucro seja cerca de 30% maior melhoria. isso pode não significar muito para a maioria das pessoas, sei que muitas pessoas ficarão irritadas com esse "anúncio" do google - mas na verdade é uma boa atualização para os desenvolvedores."

o preço é reduzido pela metade, a velocidade aumenta e o atraso é reduzido. isso é realmente o que os desenvolvedores desejam. mas como todos disseram, o apelo pode ser limitado à comunidade de desenvolvedores.

até mesmo alguns desenvolvedores zombaram: “não vejo comparação com claude ou o1, e estamos prestes a lançar a próxima geração de modelos openai e anthropic. deepmind na verdade tem modelos muito superiores, mas eles estão indo diretamente para a linha corporativa, ignorando o volkswagen. o gemini não é nada impressionante?

a má nomenclatura dos modelos pelo google também foi ridicularizada pelos internautas, que a consideraram longa e confusa.

the information publicou recentemente um artigo intitulado “por que os desenvolvedores de ia estão ignorando o gemini do google”. por meio de entrevistas com vários fundadores de empresas de ia e funcionários internos do google, ele conta a história de como o gemini foi “abandonado” pelos desenvolvedores e os obstáculos e dificuldades que encontrou para se atualizar com o chatgpt.

por exemplo, em comparação com tecnologias concorrentes, chamar gemini é muito complexo para desenvolvedores e empresas. o fundador da topology, aidan mclaughlin, disse que a primeira vez que usou a api da openai levou apenas 30 segundos, enquanto o uso do gemini levou 4 horas. ao mesmo tempo, o desempenho do modelo de grande porte do google está atrás do openai e do anthropic, e não vale a pena superar esses obstáculos.

comparado ao chatgpt, a impopularidade do gemini entre os desenvolvedores parece ser um segredo aberto no mundo real.

uma pesquisa de junho com mais de 750 funcionários de tecnologia realizada pela startup de software empresarial retool descobriu que apenas 2,6% dos entrevistados disseram que usam o gemini com mais frequência para construir aplicativos de ia, com mais de 76% optando por usar gpt.

os dados de tráfego do site rastreados pela similarweb mostram que entre junho e agosto, a página do desenvolvedor de aplicativos da openai recebeu 82,8 milhões de visualizações de páginas, enquanto as visualizações de páginas do google foram 8,4 milhões de vezes.

inquéritos informais mais pequenos fornecem evidências semelhantes. no final do mês passado, o fundador da finetune, julian saks, perguntou a 50 desenvolvedores de startups de ia em seu espaço de coworking em são francisco quais modelos de ia conversacional eles mais usam. quase todo mundo disse que usa principalmente modelos da anthropic ou openai, e ninguém mencionou o gemini.

embora o modelo gemini seja útil ao analisar documentos longos ou bases de código longas, muitos desenvolvedores dizem que as opções de modelo do google são diversas, as etapas são complexas e o sistema do desenvolvedor é diferente do openai e mais difícil de usar. e, às vezes, os diferentes serviços do google competem entre si nos seus próprios resultados de pesquisa, tornando mais fácil para as pessoas ficarem presas tentando descobrir as ferramentas.

gêmeos é frequentemente ridicularizado no x por esse motivo. brendan dolan-gavitt, pesquisador de ia da startup de segurança xbow, se tornou viral no início deste mês quando postou um tweet detalhando as inúmeras etapas que ele executou para começar a usar o gemini por meio da vertex. outros desenvolvedores acessaram a seção de comentários para expressar sua simpatia.

em um ambiente onde “os principais engenheiros do mundo estão usando openai, claude ou cursor”, os desenvolvedores realmente não precisam tentar mais nada. por outro lado, o declínio no uso não permitirá que o gemini obtenha tanto feedback de dados quanto o chatgpt, fazendo com que o google enfrente um roteiro mais ambíguo para melhorar o modelo.

decepção porque as pessoas esperam muito do google

o google está tentando mudar essa percepção, inclusive respondendo às críticas ao gemini no x, trazendo mais especialistas técnicos famosos de empresas como a openai sob sua proteção e fundindo algumas funções de desenvolvimento sobrepostas. eles também promovem o gemini organizando eventos para desenvolvedores.

hoje, simultaneamente ao lançamento do gemini-1.5-pro-002, há também um evento online do gemini for work. o google gasta muito espaço para promover os casos atuais de aplicação do gemini em empresas como best buy, snap, ups capital,. wayfair, etc. é relatado que eles estão tentando atrair mais clientes corporativos de grande porte, fornecendo um certo grau de serviços "luvas brancas".

mas face à quota de mercado consolidada, o contra-ataque do google pode não ser tão fácil.

logan kilpatrick, líder de produto do ai studio, responsável pelas relações com desenvolvedores na openai antes de ingressar em abril deste ano, disse: “a realidade é que a openai está à frente do google em termos de ferramentas de desenvolvedor de api llm. esforços atuais de desenvolvimento entre os desenvolvedores. lutando por uma participação de mercado consolidada.

anteriormente, rowan cheung, um conhecido blogueiro no círculo de ia, previu que havia concluído uma entrevista sobre uma grande atualização do modelo de ia. hoje, os desenvolvedores terão um grande dia.

sob esse tweet, a expressão do rosto sorridente de logan kilpatrick parecia um pouco envergonhada em meio a um grande número de arrependimentos dizendo “por que não é claude opus 3.5?”

conservador, polêmico e retardatário são os estereótipos que o google, o gigante da ia, deixou na comunidade hoje. o lançamento do gemini-1.5-pro-002 não parece resolver esse impasse.

a decepção das pessoas com esta empresa decorre de grandes expectativas em relação a ela: com uma força e reserva de talentos tão fortes, seria uma pena que todos não pudessem fornecer ao mundo mais opções de “substituição” para openai.

notícias

está animado de novo! a versão aprimorada "her" do openai está oficialmente aberta, superando a atualização de "nível de produção" do gemini...

introdução

minhas informações de contato