minhas informações de contato
correspondência[email protected]
2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
autor|sukhoi
editor|wang bo
com a saída dos executivos e a retirada da apple das negociações de financiamento, esta é sem dúvida uma semana tumultuada para a openai. mas a openai ainda insiste em convencer os desenvolvedores a construir aplicações usando seus modelos de ia.
no dia 1º de outubro, horário local dos estados unidos, a openai realizou o devday em são francisco. ao contrário do grande evento do ano passado, o evento deste ano foi mais discreto e se transformou em um roadshow para desenvolvedores.
desta vez, a openai não está lançando um produto importante, mas sim trabalhando emiaferramentas eapio kit foi aprimorado gradativamente.
eles revelaram quatro inovações:ajuste fino da visão em tempo realapi(api em tempo real), destilação de modelo e cache de prompt.
por exemplo, a versão beta pública da api em tempo real permite que os desenvolvedores criem aplicativos que podem gerar rapidamente respostas de voz de ia. esta nova tecnologia não só responde rapidamente, mas também oferece seis opções de som diferentes. os sons são todos desenvolvidos pela própria openai, evitando problemas de direitos autorais de terceiros. esta api não “copia” o modo de voz avançado do chatgpt, mas a funcionalidade é basicamente semelhante.
romain huet, diretor de experiência de desenvolvedor da openai, também demonstrou como usar o1 para construir um aplicativo ios para iphone com um prompt em cerca de 30 segundos.
yute demonstra a construção de aplicativos ios para iphone. crédito da imagem: x por romain huet
nos últimos dois anos, a openai reduziu em 99% o custo de acesso dos desenvolvedores à sua api, em resposta à pressão de mercado de concorrentes como meta e google. e a partir do contexto da nova ferramenta, podemos descobrir,a estratégia da openai favorece o fortalecimento do seu ecossistema de desenvolvedores em vez de competir diretamente em aplicações de usuário final.
antes do evento, o diretor de produtos da openai, kevin weil, mencionou que a diretora de tecnologia, mira murati, e o diretor de pesquisa, bob mcgrew,a demissão não afetará o desenvolvimento da empresa a longo prazo.ele disse que, apesar das “frequentes mudanças de pessoal”, a openai ainda pode “manter o impulso de desenvolvimento”.
à medida que grupos de tecnologia como google e apple correm para lançar os chamados agentes de inteligência artificial aos consumidores,openai pensaiao assistant “se tornará popular” no próximo ano.as capacidades dos assistentes de ia, incluindo o raciocínio e a realização de tarefas complexas, tornaram-se o mais recente campo de batalha para as empresas tecnológicas, cada uma delas esperando aproveitar esta tecnologia em rápido desenvolvimento para desenvolver fluxos de receitas.
"espera-se que os métodos de interação da ia possam cobrir todas as formas de interação humana." weir disse: "o desenvolvimento de sistemas de agentes tornará essa interação possível." métodos nele contidos, seja comunicação verbal, expressão emocional ou comunicação não verbal, etc., tornam a interação entre humanos e ia tão natural e contínua quanto possível.
além da openai, outras empresas como a microsoft, a salesforce e a workday também estão a colocar as capacidades dos agentes no centro dos seus planos de ia, enquanto a google e a meta também afirmaram que a integração de modelos de ia nos seus produtos é uma área de foco chave para elas.
no ano passado, a openai lançou sua “api assistants” para permitir que os desenvolvedores construíssem agentes usando sua tecnologia. mas também revelaram que os planos foram prejudicados pela funcionalidade limitada dos primeiros modelos.
weill mencionou que as melhorias no pensamento e no raciocínio fornecidas pelos modelos mais recentes da openai se refletirão em seus produtos, como o chatgpt, e nas startups e desenvolvedores que constroem aplicativos usando sua api, mas não disse se desenvolverão imediatamente os seus próprios. agente de ia.
openai demonstrou uma conversa ao vivo com um sistema de ia encarregado de ajudar a encontrar e comprar produtos disponíveis localmente. por exemplo, se você comprar morangos, a ia ligará para o comerciante para fazer um pedido de acordo com as instruções do usuário.
demonstração de compra de morangos por ia com base em instruções. fonte da imagem: x de ken collins.
a openai enfatiza que qualquer pessoa que utilize a tecnologia deve deixar claro que se trata de uma ia, não de um ser humano, e que fornece apenas aos desenvolvedores opções predefinidas limitadas, e não a capacidade de criar novos sons.
“se fizermos certo, teremos mais tempo para nos concentrar no que é importante e menos tempo olhando para nossos telefones”, disse ware.
1. cache de dicas: um salvador para os orçamentos dos desenvolvedores
o recurso “cache de dicas” é um dos lançamentos mais importantes deste evento e é utilizado para reduzir custos e latência para os desenvolvedores.
muitos desenvolvedores que criam aplicativos de ia reutilizam o mesmo contexto em várias chamadas de api, como ao editar uma base de código ou ter uma conversa longa e multifacetada com um chatbot. o cache de dicas aplica automaticamente um desconto de 50% ao token de entrada processado mais recentemente pelo modelo, reutilizando o token de entrada visto mais recentemente.
o armazenamento em cache de tokens de entrada pode economizar até 50% em comparação com tokens não armazenados em cache em vários modelos de gpt. fonte da imagem: openai
disponibilidade e preços do cache de dicas a partir de hoje, o cache de dicas será aplicado automaticamente às versões mais recentes do gpt-4o, gpt-4o mini, o1-preview e o1-mini, bem como às versões ajustadas desses modelos. as dicas armazenadas em cache oferecem um desconto em comparação com as dicas não armazenadas em cache.
as chamadas de api para modelos suportados se beneficiarão automaticamente do cache de prompts, para prompts com mais de 1.024 tokens. o prefixo mais longo de dicas calculado antes do cache da api, começando na marca 1.024 e incrementos de 128 marcas. se um usuário usa dicas com prefixos comuns com frequência, o openai aplicará automaticamente o desconto no cache de dicas sem que o usuário precise fazer alterações na integração da api.
o cache geralmente é limpo após 5 a 10 minutos de inatividade e sempre removido dentro de uma hora após o último uso do cache. como todos os serviços api, o tip caching está sujeito ao compromisso de privacidade corporativa da opai. o cache de dicas não é compartilhado entre organizações.
a redução significativa de custos oferece oportunidades para diversas empresas desenvolverem novas aplicações cuja implementação anteriormente era muito cara.
olivier godement, líder de produto da plataforma openai, falou em uma pequena conferência de imprensa na sede da openai em são francisco: "temos estado muito ocupados. há dois anos, o gpt-3 liderava a tecnologia em sua classe, mas agora alcançamos quase 1.000- redução duplicada nos custos relacionados.” ele disse com orgulho que não conseguiu encontrar nenhuma outra tecnologia que tivesse alcançado uma escala semelhante de redução de custos em apenas dois anos.
2. ajuste visual: a nova fronteira da ia visual
outro grande anúncio é a introdução de recursos de ajuste visual no mais recente modelo de linguagem de grande escala da openai, gpt-4o. os desenvolvedores podem ajustar não apenas o texto, mas também as imagens, o que pode transformar áreas como carros autônomos, imagens médicas e recursos de pesquisa visual.
desde a introdução do ajuste fino de texto, centenas de milhares de desenvolvedores aproveitaram conjuntos de dados somente de texto para otimizar modelos e melhorar o desempenho em tarefas específicas. mas, em muitos casos, o ajuste fino do texto por si só não atenderá a todas as necessidades. através do ajuste visual, os desenvolvedores podem otimizar o modelo gpt-4o simplesmente carregando pelo menos 100 imagens para melhorar seu desempenho em tarefas de visão, especialmente ao processar grandes quantidades de dados de texto e imagem.
a grab, empresa líder em entrega de alimentos e compartilhamento de viagens no sudeste asiático, já aproveitou a tecnologia para melhorar seus serviços de mapeamento, de acordo com a openai. usando apenas 100 exemplos, o grab melhorou a precisão da contagem de faixas em 20% e a precisão da localização dos sinais de limite de velocidade em 13%.
exemplo de sinal de limite de velocidade marcado com sucesso pelo modelo gpt-4o de ajuste visual. fonte da imagem: openai.
automat usa ajuste visual para treinar gpt-4o para reconhecer elementos de ui na tela, com base em um conjunto de dados de capturas de tela, melhorando assim a taxa de sucesso de suas ferramentas de automação. desta forma, a taxa de sucesso do agente robô da automat aumentou de 16,60% para 61,67%.
o robô de desktop identifica com sucesso os centros dos elementos da ui por meio de ajuste visual usando capturas de tela do site, fonte: openai
as aplicações de ajuste fino visual no mundo real demonstram as possibilidades do ajuste fino visual para melhorar significativamente os serviços de ia em uma variedade de setores, usando pequenos lotes de dados de treinamento visual.
o recurso de ajuste visual agora está disponível para todos os usuários pagantes e oferece suporte ao modelo gpt-4o mais recente. os desenvolvedores podem aproveitar esses recursos para ampliar os conjuntos de dados de treinamento existentes para ajuste fino de imagens. além disso, a openai está oferecendo 1 milhão de tokens de treinamento gratuitos por dia até 31 de outubro de 2024. as taxas para treinamento de ajuste fino e inferência serão ajustadas posteriormente.
3. apis em tempo real: preenchendo a lacuna entre ia conversacional
a api em tempo real está atualmente em versão beta pública. ele permite que os desenvolvedores criem experiências multimodais e de baixa latência, especialmente em aplicativos de fala para fala. isso significa que os desenvolvedores podem começar a adicionar controles de voz do chatgpt aos seus aplicativos.
para ilustrar o potencial da api, a openai demonstrou uma versão atualizada do wanderlust, um aplicativo de planejamento de viagens apresentado na conferência do ano passado.
com a ajuda da api em tempo real, os usuários podem falar diretamente com o aplicativo e planejar sua viagem de maneira natural e conversacional. o sistema permite até interrupções durante a fala, imitando a conversa humana.
healthify é um aplicativo de treinamento nutricional e físico que usa apis em tempo real para permitir conversas naturais com ia. fonte da imagem: openai
embora o planejamento de viagens seja apenas um exemplo, as apis em tempo real abrem uma ampla gama de possibilidades para aplicações de voz em diversos setores. desde atendimento ao cliente até ferramentas educacionais e de acessibilidade, os desenvolvedores agora têm novos recursos poderosos para criar experiências mais intuitivas e responsivas baseadas em ia.
“sempre que projetamos um produto, basicamente pensamos em startups e empresas ao mesmo tempo”, explicou goldment. “portanto, na fase alfa, temos muitas empresas usando apis, bem como novos modelos para novos produtos”.
a api em tempo real simplifica essencialmente o processo de construção de assistentes de voz e outras ferramentas de ia de conversação, eliminando a necessidade de unir vários modelos para transcrição, inferência e conversão de texto em fala.
os primeiros usuários, como o aplicativo de nutrição e treinamento físico healthify e a plataforma de aprendizagem de idiomas speak, integraram apis em tempo real em seus produtos. as apis têm o potencial de criar experiências de usuário mais naturais e envolventes em áreas que vão da saúde à educação.
a estrutura de preços da api em tempo real, embora não seja barata (us$ 0,06 por minuto de entrada de áudio, us$ 0,24 por minuto de saída de áudio), ainda representa uma proposta de valor significativa para desenvolvedores que buscam criar aplicativos baseados em voz.
4. destilação de modelo: rumo a uma ia mais acessível
talvez o anúncio mais transformador disso seja a introdução do modelo de destilação.
seu fluxo de trabalho integrado permite que os desenvolvedores usem a saída de modelos avançados, como o1-preview e gpt-4o, para melhorar o desempenho de modelos mais eficientes, como o gpt-4o mini. as pequenas empresas também podem usar recursos semelhantes de modelos avançados sem se preocupar em arcar com os custos de computação.
demonstração de ajuste fino, fonte: openai
a destilação de modelo aborda a lacuna de longa data da indústria de ia entre sistemas de ponta que consomem muitos recursos e sistemas mais acessíveis, mas menos poderosos.
digamos que uma pequena startup de tecnologia médica esteja desenvolvendo uma ferramenta de diagnóstico de ia para clínicas rurais. usando a destilação de modelo, a equipe pode treinar um modelo pequeno que pode ser executado em um laptop ou tablet padrão e capturar a maioria dos diagnósticos do modelo maior. .
isto pode trazer capacidades sofisticadas de ia para ambientes com recursos limitados para melhorar os resultados dos cuidados de saúde em áreas mal servidas.
não é difícil ver nesta atualização que a openai fez uma mudança estratégica importante - concentrando-se mais no desenvolvimento do ecossistema em vez de simplesmente perseguir lançamentos de produtos atraentes, embora a estratégia possa não ser tão direta ao público como o produto lançamentos.
comparado com o emocionante dia do desenvolvedor em 2023, que lançou a loja gpt e ferramentas gpt personalizadas, o evento deste ano é muito discreto. as rápidas mudanças no campo da ia, juntamente com os avanços significativos dos concorrentes e as crescentes preocupações sobre a disponibilidade de dados de formação, levaram a openai a concentrar-se mais no refinamento das ferramentas existentes e no reforço das capacidades dos desenvolvedores para lidar com estas mudanças.
ao melhorar a eficiência do modelo e reduzir custos, a openai espera manter a sua vantagem sobre a concorrência feroz e abordar questões de intensidade de recursos e impacto ambiental. o sucesso da openai dependerá fortemente da sua capacidade de cultivar eficazmente um ecossistema de desenvolvimento vibrante.
referências:
《apresentando a api em tempo real》,openai
《apresentando visão à api de ajuste fino》,openai
《cache de prompt na api》,openai
《modelo de destilação na api》openai
《devday 2024 da openai: 4 atualizações importantes que tornarão a ia mais acessível e acessível》,venturebeat
《devday da openai traz api em tempo real e outras delícias para desenvolvedores de aplicativos de ia》,techcrunch
(fonte da imagem da capa: openai)