o novo rei dos grandes modelos de código aberto derrubou o gpt4o, a nova tecnologia pode se autocorrigir e a matemática 99.2 maximizou o conjunto de testes

2024-09-06

o vento oeste vem do templo aofei
qubits | conta pública qbitai

o trono dos grandes modelos de código aberto mudou repentinamente de mãos e veio de uma pequena equipe empreendedora, detonando instantaneamente a indústria.

o novo modelo é denominadoreflexão 70b, usando uma nova tecnologia de treinamento para permitir que a ia aprenda a corrigir seus próprios erros e ilusões durante o processo de raciocínio.

por exemplo, no recentemente popular teste digital r, cometeu os mesmos erros que a maioria dos modelos no início, mas tomou a iniciativa demarca <reflexão>zhong se corrigiu.

na avaliação oficial, o modelo 70b superou de forma abrangente o llama 3.1 405b de código aberto mais forte, gpt-4o, claude 3 opus e gemini 1.5 pro. em particular, ele maximizou diretamente o benchmark matemático gsm8k.pontuação de 99,2%。

este resultado também fez com que noam brown, um cientista da openai e pai da ia do pôquer, abrisse o microfone com entusiasmo:

gsm8k pontua 99%! este benchmark pode ser oficialmente eliminado?

assim que o modelo foi colocado online, os internautas ficaram impressionados com o teste, e o meta também apoiou ativamente mais poder de computação.

em testes de internautas, o reflection 70b pode responder perguntas com respostas erradas ao conjunto de dados gsm8k:

alimentei os problemas de "ground_truth" do modelo 5 que existem no gsm8k que são inerentemente incorretos.
em vez de repetir as respostas erradas no conjunto de dados, o modelo acertou todas, o que é impressionante.mostra que a precisão de 99,2% não vem da memorização do conjunto de teste！

é fácil contar todos os tipos de r's, mesmopalavras criadasvários r's em "drirrrrngrrrrnnnn" também podem ser contados corretamente.

os internautas ficam surpresos com o fato de o código aberto feito por uma pequena equipe ter ultrapassado o principal código fechado. agora, o modelo de código aberto mais poderoso pode ser executado localmente.

a chave 70b é apenas o começo. autoridades disseram que uma versão maior será lançada na próxima semana.reflexão 405b。

espera-se que o desempenho do 405b seja significativamente melhor que o sonnet e o gpt-4o.

os pesos do reflection 70b foram tornados públicos e o acesso à api será fornecido pelo hyperbolic labs ainda hoje.

os modelos podem autorrefletir e corrigir erros

mais detalhes atualmente disponíveis sobre o reflection 70b estão abaixo.

a chave para melhorar as capacidades do reflection 70b é o uso de um método chamadoreflexão-afinaçãométodo de treinamento que permite ao modelo refletir sobre o texto que gera, detectando e corrigindo erros no seu próprio raciocínio antes de finalizar uma resposta.

os dados do treinamento vêm de dados sintéticos gerados pela plataforma glaiveai.

o reflection 70b é baseado no llama 3.1 70b instruct e pode ser amostrado no reflection llama-3.1 70b usando o mesmo código, pipeline, etc., como outros modelos llama.

ele ainda usa o formato de bate-papo padrão do llama 3.1.

no entanto, o reflection 70b introduz algunstokens especiais, processo de saída estruturado.

conforme mostrado no exemplo a seguir, dividir o processo de planejamento em uma etapa separada pode melhorar o efeito cot e manter o resultado refinado:

o modelo será de<thinking> e</thinking> a inferência de saída intra-rótulo começa e, uma vez satisfeito com sua inferência, o<output> e</output> a resposta final é exibida no rótulo.

assim, é capaz de separar o seu pensamento e raciocínio internos da resposta final.

existir<thinking> seção, o modelo pode produzir um ou mais<reflection>rótulo, o que indica que o modelo descobriu um erro no seu raciocínio e tentará corrigi-lo antes de fornecer uma resposta final.

o sistema solicita o seguinte:

você é um sistema de ia de classe mundial, capaz de raciocínio e reflexão complexos. raciocine por meio da consulta dentro das tags e, em seguida, forneça sua resposta final dentro
tags. se você detectar que cometeu um erro em seu raciocínio em algum momento, corrija-se dentro das tags.
(você é um sistema de inteligência artificial de classe mundial, capaz de raciocínio e reflexão complexos. raciocinar sobre consultas dentro de tags e, em seguida,
forneça sua resposta final na tag. se você achar que está pensando errado em algum momento, corrija-se no rótulo. )

vale ressaltar também que no teste de benchmark, todos os benchmarks foram verificados quanto à contaminação e isolados pelo llm decontaminator da lmsys.<output> seção e teste esta seção sozinha.

ao usar o reflection 70b, o responsável também deu algumas dicas:

recomenda-se inicialmente que o parâmetro temperatura seja 0,7 e top_p seja 0,95
para melhorar a precisão, é melhor acrescentar “pense com cuidado” no final do prompt.

as autoridades também afirmaram querelatório será divulgado na próxima semana, detalhando o processo de treinamento do modelo e as descobertas.

criado pela equipe empreendedora do agent

por trás do reflection 70b está uma pequena equipe, liderada pelo ceo da hyperwriteai vira-lata shumerliderar.

de acordo com o linkedin, mutt shumer é um empreendedor em série que se formou na syracuse university, nos estados unidos, e atualmente é cofundador e ceo da othersideai.

othersideai é uma empresa de aplicativos de ia dedicada ao desenvolvimento das ferramentas de preenchimento automático mais avançadas do mundo por meio de sistemas de ia em grande escala. é também a empresa por trás do hyperwrite.

hyperwrite é um agente operacional de navegador que pode operar o google chrome como um ser humano para concluir uma série de tarefas, como pedir pizza:

assim como o gpt-llm-trainer, você só precisa descrever o objetivo em texto e ele o executará enquanto lista as etapas.

quando foi lançado pela primeira vez, foi considerado "melhor que o autogpt".

o hyperwrite também pode ser instalado como uma extensão do google.

além disso, mutt shumer fundou a visos quando estava no ensino médio e está empenhado em desenvolver a próxima geração de software de realidade virtual para fins médicos.

também fundou a furi, empresa que visa revolucionar a indústria de artigos esportivos, criando produtos de alto desempenho e vendendo-os a preços justos.

embora haja suporte meta, o teste está atualmente aberto, mas ainda está: temporariamente inacessível.

se você estiver interessado em calçados infantis, pode fazer seu pedido primeiro ~

https://reflection-playground-production.up.railway.app/

links de referência:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

notícias

o novo rei dos grandes modelos de código aberto derrubou o gpt4o, a nova tecnologia pode se autocorrigir e a matemática 99.2 maximizou o conjunto de testes

os modelos podem autorrefletir e corrigir erros

criado pela equipe empreendedora do agent

introdução

minhas informações de contato