notícias

openai developer conference oferece pacotes de presentes: reduzindo significativamente os custos do modelo, aplicativos habilitados para voz com ia e modelos pequenos "melhorando" o desempenho de modelos grandes

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor deste artigo: li dan

na terça-feira, 1º de outubro, horário do leste, a openai realizou sua conferência anual para desenvolvedores, devday. a conferência deste ano não teve nenhum lançamento de produto importante. foi mais discreta do que a conferência do ano passado, mas a openai também distribuiu vários grandes "pacotes de presentes". desenvolvedores.”, fazendo melhorias nas ferramentas de inteligência artificial (ia) e suítes de api existentes.

este openai devday lança uma série de novas ferramentas, incluindo quatro grandes inovações: prompt caching, vision fine-tuning, realtime api e model distillation. traz boas notícias para os desenvolvedores em termos de custo, melhorando o nível de compreensão visual dos modelos, melhorando. funções de ia de voz e desempenho de modelo pequeno.

alguns comentários disseram que o foco do devday deste ano é melhorar as capacidades dos desenvolvedores e mostrar as histórias do círculo de desenvolvedores, o que mostra que à medida que a competição no campo da ia ​​se torna cada vez mais acirrada, a estratégia da openai mudou. as novas ferramentas acima destacam o foco estratégico da openai no fortalecimento do seu ecossistema de desenvolvedores, em vez de competir diretamente em aplicações de usuário final.

alguns meios de comunicação mencionaram que na conferência de imprensa antes do evento devday, o diretor de produtos da openai, kevin weil, falou sobre as recentes saídas do diretor de tecnologia da openai, mira murati, e do diretor de pesquisa, bob mcgrew, dizendo que sua saída não afetaria o desenvolvimento da empresa, " nós não vamos desacelerar."

o cache de prompt pode reduzir os custos de token de entrada em até 50%

o cache de palavras imediatas é considerado a atualização mais importante lançada neste devday. esse recurso foi projetado para reduzir os custos do desenvolvedor e a latência.

o sistema de cache de palavras rápido introduzido pela openai oferece automaticamente um desconto de 50% nos tokens de entrada processados ​​recentemente pelo modelo, o que pode levar a economias significativas para aplicativos que reutilizam frequentemente o contexto. essas reduções drásticas de custos proporcionam às empresas e startups oportunidades significativas para explorar novas aplicações que antes estavam fora de alcance devido aos custos proibitivos.

olivier godement, gerente de produto da plataforma openai, disse que o gpt-3 foi um grande sucesso há dois anos e agora a openai reduziu os custos relacionados em quase 1.000 vezes. ele não poderia citar nenhum outro exemplo em que os custos tivessem sido reduzidos na mesma proporção em dois anos.

o gráfico openai a seguir mostra que o cache de palavras imediatas pode reduzir significativamente o custo de aplicação de modelos de ia. em comparação com tokens não armazenados em vários modelos de pib, o custo de armazenamento em cache de tokens de entrada pode ser reduzido em até 50%.

vision fine-tuning: a nova fronteira da ia ​​visual

openai devday anunciou que o mais recente modelo de linguagem grande (llm) gpt-4o da openai apresenta ajuste visual. este recurso permite que os desenvolvedores personalizem a compreensão visual de seus modelos com imagens e texto.

esta é uma grande atualização conhecida como a nova fronteira da ia ​​visual. poderia ter impactos de longo alcance em áreas como carros autônomos, imagens médicas e recursos de pesquisa visual.

a openai disse que o grab, a versão do sudeste asiático do meituan + didi, usou a tecnologia para melhorar seus serviços de mapas. usando apenas 100 exemplos, o grab melhorou a precisão da contagem de faixas em 20% e a localização dos sinais de limite de velocidade em 13%.

este aplicativo do mundo real demonstra as possibilidades de ajuste visual, usando pequenos lotes de dados de treinamento visual, para aprimorar significativamente os serviços de ia em diversos setores.

a api em tempo real preenche a lacuna da ia ​​conversacional

openai devday lançou a api em tempo real, que está atualmente em fase beta pública. a api em tempo real simplifica inerentemente o processo de construção de assistentes de voz e outras ferramentas de ia de conversação, eliminando a necessidade de unir vários modelos para transcrição, inferência e conversão de texto em fala.

este novo produto permite que os desenvolvedores criem experiências multimodais de baixa latência, especialmente em aplicativos de fala para fala. isso significa que os desenvolvedores podem começar a adicionar controles de voz do chatgpt aos aplicativos.

para ilustrar o potencial da api, a openai exibiu uma versão atualizada do wanderlust, um aplicativo de planejamento de viagens demonstrado na conferência do ano passado.

com a ajuda da api em tempo real, os usuários podem falar diretamente com a nova versão do app e ter conversas naturais para planejar seu roteiro. o sistema ainda permite que os usuários interrompam no meio das frases, imitando uma conversa humana.

o planejamento de viagens é apenas um exemplo: apis em tempo real abrem uma ampla gama de possibilidades para aplicativos de voz em diversos setores. sejam especializados em atendimento ao cliente, educação ou ferramentas de acessibilidade para pessoas com deficiência, os desenvolvedores agora podem aproveitar os novos recursos para criar experiências mais intuitivas e responsivas baseadas em ia.

alguns aplicativos, incluindo o aplicativo de nutrição e treinamento físico healthify e a plataforma de aprendizagem de idiomas speak, já assumiram a liderança na integração de apis em tempo real em seus produtos.

os comentários dizem que a api em tempo real não é barata, cobrando us$ 0,06 por minuto de entrada de áudio e us$ 0,24 por minuto de saída de áudio, mas ainda pode representar uma proposta de valor significativa para desenvolvedores que desejam criar aplicativos baseados em voz.

a destilação de modelo permite que modelos pequenos tenham funções de modelo de ponta

a destilação de modelo é considerada a nova ferramenta mais transformadora da openai desta vez. este fluxo de trabalho integrado permite que os desenvolvedores ajustem modelos universitários relativamente pequenos e econômicos usando a saída de modelos de ponta, como gpt o1-preview e gpt-4o, melhorando assim modelos mais eficientes, como gpt-4o mini. desempenho.

esta abordagem permite que empresas mais pequenas tirem partido de capacidades semelhantes aos modelos de ponta sem incorrer nos custos computacionais da utilização de tais modelos. ajuda a preencher a lacuna que a indústria de ia há muito tem entre sistemas de ponta que consomem muitos recursos e sistemas mais acessíveis, mas menos poderosos.

por exemplo, uma pequena startup de tecnologia médica pretende desenvolver uma ferramenta de diagnóstico baseada em ia para clínicas rurais. usando a destilação de modelo, a empresa pode treinar um modelo compacto que captura grande parte do poder de diagnóstico de um modelo maior, precisando apenas ser executado em um laptop ou tablet padrão.

portanto, a destilação do modelo pode permitir que ambientes com recursos limitados desfrutem de funções complexas de ia, melhorando potencialmente o nível de cuidados médicos em áreas mal servidas.