GPT-4o mini chega ao topo da grande arena de modelos, Ultraman: ajuste fino gratuito em dois meses

2024-07-24

Crecy vem do Templo Aofei
Qubits | Conta pública QbitAI

Agora mesmo, a mini versão GPT-4o inaugurou seu “momento de destaque”——

Escalou a arena de modelos grandes do lmsys, empatando em primeiro lugar com a versão full-health, deixando Claude 3.5 para trás.

Diferente da avaliação geral do conjunto de dados, a grande arena do modelo é o resultado de os usuários definirem suas próprias perguntas e votarem com os pés. Os atalhos não podem ser usados por "escovar perguntas", por isso é mais real.

Assim que o resultado foi divulgado, até o CEO Altman ficou animado:

Diante dos resultados da avaliação, inicialmente tentamos ser reservados, mas quando vimos que o GPT-4o mini tinha o mesmo desempenho da versão full-health, mas o preço era de apenas 1/20, ainda ficamos muito entusiasmados.

Os internautas disseram que estava tudo bem depois de ver, mas estavam mais preocupados em saber quando o "Her" demonstrado na coletiva de imprensa do GPT-4o estaria online.

Ao mesmo tempo, OpenAI também enviou outra boa notícia, que trará benefícios aos desenvolvedores——

GPT-4o miniO ajuste fino será aberto gradualmente, atualmente aberto a usuários de nível 4 e nível 5, e expandirá gradualmente o escopo.

eDe agora até 23 de setembro, você poderá usar 2 milhões de tokens de treinamento gratuitamente todos os dias。

O mini está no mesmo nível da versão completa de saúde

Depois de milhões de rodadas de competição 1v1 com mais de 80 modelos, a pontuação do GPT-4o mini na lista lmsys está apenas 7 pontos atrás da versão full-health.

De acordo com a disposição da lista lmsys, essa diferença de 7 pontos não afeta a classificação, e os dois modelos são contabilizados como empatados no primeiro lugar.

Logo atrás estão as famílias Claude 3.5 e Gemini, bem como duas outras versões do GPT-4.

Se olharmos para os dados brutos do GPT-4o mini, descobriremos que sua taxa média de vitória de 0,6 perde apenas para a versão completa de saúde.

Olhando apenas para os resultados da competição entre os dois, eles estão igualmente equiparados.

A razão pela qual o desempenho do lmsys atraiu a atenção é que ele possui um conjunto único de métodos de competição——

Em vez de usar um conjunto de dados,Deixe os usuários fazerem suas próprias perguntas e sortearem dois modelos aleatoriamente em uma batalha um contra um.e escolha qual modelo tem melhor desempenho.

Antes de ser feita uma escolha, o modelo é anônimo e o usuário não sabe quais dois modelos estão competindo. Se o modelo vazar alguma coisa, o voto será inválido.

As pontuações obtidas desta forma são mais realistas, o que não só evita a possibilidade de obter pontuações artificialmente altas por meio de “escovações de perguntas”, mas também está mais próximo da experiência do usuário.

Esta grande arena modelo, recentementeParticipou da principal conferência de aprendizado de máquina ICML2024。

Além disso, a avaliação do lmsys tambémMuito popular com OpenAI, a versão inicial do GPT-4o mini antes de ser lançada oficialmente foi listada sob o pseudônimo gpt-mini.

Naquela época, já ocupava a 4ª posição, no mesmo patamar do GPT4-Turbo.

Anteriormente, antes do GPT-4o ficar online, ele também foi testado sob o pseudônimo gpt2-chatbot no lmsys.

No entanto, algumas pessoas questionaram que embora o GPT-4o mini tenha um desempenho muito bom, é um exagero dizer que supera o soneto Claude 3.5.

Algumas pessoas até disseram sem rodeios que a integridade do método lmsys começou a entrar em colapso e precisa ser alterada, caso contrário, não será mais um benchmark de teste útil.

O “modelo pequeno” também está enrolado

O lançamento da versão mini foca no custo-benefício.

Por milhão de tokens de entrada/saída, os preços são de 15 centavos e 60 centavos respectivamente (aproximadamente 1,09/4,36 RMB), o que não é nem metade do 3,5 Turbo.

Se comparado com a versão text-davinci-003 do GPT-3 de dois anos atrás (o melhor modelo da época), o preço caiu 99%.

Além de abrir pequenos modelos para os usuários, a OpenAI também criou novas maneiras de jogar——

Em um trabalho póstumo da equipe “Super Alignment”, um modelo pequeno com um milésimo ou um centésimo dos parâmetros do modelo grande foi utilizado para otimizar o modelo grande.

No experimento, os modelos grandes e pequenos “jogam” entre si. O modelo grande precisa otimizar e ajustar continuamente sua saída para fazer o modelo pequeno acreditar que está dizendo a verdade.

No processo deste “jogo”, as capacidades do modelo grande foram melhoradas e a compreensibilidade foi bastante melhorada sem perda significativa de precisão.

Além da OpenAI, outras empresas também lançaram modelos pequenos.

Por exemplo, antes do GPT-4o mini, o Google e a Anthropic lançaram o Gemini Flash e o Claude 3-Haiku, respectivamente.

Pode-se até dizer que o GPT-4o mini é o contra-ataque da OpenAI contra os dois modelos, superando estes dois modelos em termos de desempenho e preço.

Na mesma semana em que o GPT-4o mini foi lançado, Hugging Face e “European OpenAI” Mistral lançaram modelos pequenos.

Até a Apple lançou seu próprio modelo 7B e abriu o código-fonte de todos os processos e recursos de treinamento de uma só vez.

Resumindo, desde que o desempenho seja suficiente para atender às necessidades de uso, o modelo pequeno é sem dúvida uma escolha mais econômica.

Ao mesmo tempo, a escala menor também significa que é possível rodar no lado do terminal, apresentando vantagens na proteção da privacidade e outros aspectos.

Dessa forma, não é difícil entender por que os modelos “pequenos” estão cada vez mais enrolados.

Links de referência:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

notícias