notícias

“A função mais poderosa e de baixo custo”! OpenAI lança GPT-4o mini para entrar na competição de modelos pequenos

2024-07-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A OpenAI lançou o "GPT-4o mini" na quinta-feira, horário do leste, entrando na competição de modelos de IA "pequenos, mas refinados". Ela chamou esse novo modelo de "o modelo mais poderoso e de baixo custo" e planejou integrar imagens, vídeos e áudio. no futuro neste modelo.

Mais de 60% mais barato que o GPT-3.5 Turbo e o desempenho do chat é melhor que o dos produtos concorrentes

A empresa disse que o GPT-4o mini está disponível para usuários gratuitos do ChatGPT, assinantes do ChatGPT Plus e Teams a partir de quinta-feira, e estará disponível para usuários corporativos do ChatGPT na próxima semana. O GPT-4o mini substituirá o modelo antigo GPT-3.5 Turbo no ChatGPT. A OpenAI disse que o GPT-4o mini custa 15 centavos por milhão de tokens de entrada e 60 centavos por milhão de tokens de saída, tornando-o mais de 60% mais barato que o GPT-3.5 Turbo.

A empresa também disse que o novo modelo atualmente supera o modelo GPT-4 nas preferências de chat e alcançou uma pontuação de 82% no teste massivo de compreensão de linguagem multitarefa (MMLU). De acordo com relatos da mídia, o MMLU é um benchmark de inteligência e raciocínio de texto usado para avaliar as capacidades do modelo de linguagem. Uma pontuação MMLU mais alta indica melhor compreensão e uso da linguagem em diversos domínios, melhorando sua aplicação no mundo real.

De acordo com dados da OpenAI, o mini modelo GPT-4o obteve 82%, o que é superior aos outros dois concorrentes de baixo custo, o Gemini Flash do Google obteve 77,9% e Claude Haiku da Anthropic obteve 73,8%.

Entre os modelos maiores, o GPT-3.5 obteve 70% neste teste, o GPT-4o obteve 88,7% e o Google afirma que seu Gemini Ultra alcançou a pontuação mais alta de todos os tempos, 90%.

A análise sugere que modelos de linguagem mais pequenos requerem menos poder computacional para funcionar, tornando-os uma opção mais acessível para empresas com recursos limitados para implementar IA generativa.

Além disso, este novo modelo leve também suportará recursos de texto e visuais na API, e a OpenAI afirma que em breve lidará com todas as entradas e saídas multimodais, como vídeo e áudio. Com esses recursos, isso poderia funcionar como um assistente virtual mais poderoso, capaz de entender seu itinerário de viagem e fazer recomendações. No entanto, este modelo atualmente só pode ser usado principalmente para tarefas simples.

A competição por modelos de IA “pequenos, mas refinados” é acirrada e a OpenAI finalmente entra no jogo

De acordo com relatos da mídia, a avaliação da OpenAI, apoiada pela Microsoft, ultrapassou os 80 mil milhões de dólares. Embora ainda ocupe uma posição de liderança no mercado de IA generativa, a empresa enfrenta uma pressão competitiva crescente. A OpenAI também precisa encontrar maneiras de ganhar dinheiro, já que a empresa gasta muito dinheiro em processadores e infraestrutura para construir e treinar seus modelos.

No entanto, muitas empresas não podem adquirir modelos maiores e mais caros, por isso modelos leves e mais baratos podem ser mais populares. Até então, muitos desenvolvedores escolheriam Claude 3 Haiku ou Gemini 1.5 Flash em vez de pagar os altos custos computacionais necessários para executar os modelos mais poderosos. Por exemplo, um modelo menor pode ser mais adequado para automatizar tarefas básicas de alto volume, enquanto um modelo maior pode lidar com trabalhos mais complexos. Alguns desenvolvedores podem desejar usar os dois modelos em um único aplicativo.

Olivier Godement, líder de produto de API da OpenAI, explicou em uma entrevista à mídia por que a empresa não conseguiu lançar modelos de IA “pequenos e refinados” anteriormente. Ele disse que isso era puramente uma questão de “prioridade” porque a OpenAI se concentrava na criação de modelos maiores e melhores. modelos, como o GPT-4, requerem recursos humanos e computacionais significativos. Com o tempo, a OpenAI percebeu que os desenvolvedores estavam cada vez mais ansiosos para usar modelos menores, então a empresa decidiu que agora era a hora de investir recursos no desenvolvimento do GPT-4o Mini.

“Nossa missão é criar a tecnologia mais avançada e construir os aplicativos mais poderosos e úteis, e certamente esperamos continuar a criar modelos de ponta e promover o avanço tecnológico”, disse Olivier Godement, líder de produto de API da OpenAI, em entrevista ao a mídia. "Mas também queremos ter o melhor modelo e acho que será muito popular."

"Acho que o GPT-4o Mini realmente incorpora a missão da OpenAI de tornar a IA mais acessível. Se quisermos que a IA beneficie todos os cantos do mundo, todos os setores e todas as aplicações, devemos tornar os produtos da plataforma API da OpenAI, Diretor Olivier." Godement disse à mídia.

GPT-4o mini ajuda os funcionários a se concentrarem

Godement disse que alguns desenvolvedores testaram o modelo na semana passada.

A OpenAI pediu à startup fintech Ramp para testar o modelo, usando GPT-4o Mini para construir uma ferramenta que extrai dados de despesas de recibos. Assim, os usuários podem fazer upload de fotos de seus recibos e a modelo organizará os dados para eles. O cliente de email Superhuman também testou o GPT-4o Mini e o usou para criar um recurso que sugere automaticamente respostas de email.

Inicialmente, o GPT-4o mini será capaz de processar e gerar textos e imagens. Assim que a versão final for concluída, a OpenAI afirma que será capaz de lidar com outros tipos de conteúdo.

A OpenAI também disse que o GPT-4o mini é o primeiro modelo de IA da empresa a usar sua nova “hierarquia de instruções” de política de segurança. O objetivo desta abordagem é fazer com que os sistemas de IA priorizem certas instruções – como as das empresas – para dificultar que as pessoas obriguem a ferramenta a fazer algo que não deveria fazer.

A análise acredita que o minimodelo GPT-4o faz parte do compromisso da OpenAI com a “multimodalidade”, ou seja, fornecer uma ampla gama de mídias geradas por IA (como texto, imagens, áudio e vídeo) em uma ferramenta: ChatGPT.

No ano passado, Brad Lightcap, COO da OpenAI, disse à mídia:

"O mundo é multimodal. Se pensarmos na forma como nós, como humanos, processamos e interagimos com o mundo, vemos coisas, ouvimos coisas, falamos - o mundo não é apenas texto. Portanto, para nós, só existe texto e código como Uma única modalidade, uma única interface, sempre parece incompleta porque o poder desses modelos e o que eles podem fazer é muito mais.”