o modelo openai o1 é lançado, agi de cinco níveis surge novamente! um supermédico com raciocínio extremo, um chinês da universidade fudan, no norte da dinastia qing, realizou atos meritórios

o modelo openai o1 é lançado, agi de cinco níveis surge novamente! um homem com um super doutorado em raciocínio, um chinês da universidade fudan, no norte da dinastia qing, que realizou atos meritórios

2024-09-13

agora mesmo, os modelos mais poderosos da série o1 da openai de repente ficaram online. sem aviso, a openai lançou esse trovão.

o modelo morango, que estaria online em duas semanas, na verdade chegou em dois dias!

a partir de hoje, o o1-preview será lançado para todos os usuários plus e team no chatgpt e para desenvolvedores de nível 5 na api.

ao mesmo tempo, a openai também lançou o1-mini - um modelo de inferência econômico que é muito bom em stem, especialmente matemática e codificação.

o modelo o1 ainda apresenta falhas e limitações e é mais impressionante no primeiro uso do que no longo prazo.

o desempenho da nova série o1 no raciocínio complexo foi elevado a um nível totalmente novo. pode-se dizer que possui verdadeiras capacidades de raciocínio universal.

em uma série de testes de benchmark, o1 mais uma vez fez uma grande melhoria em relação ao gpt-4o. ele tem a capacidade de ganhar uma medalha de ouro nas olimpíadas de matemática. em testes de benchmark em problemas de física, biologia e química, supera diretamente o. nível de phds humanos!

o pesquisador da openai, jason wei, disse que o1-mini é o resultado de pesquisa mais surpreendente que ele viu no ano passado. na verdade, um modelo pequeno alcançou uma pontuação de mais de 60% na competição de matemática aime.

no entanto, a julgar pelo apêndice do artigo da openai, a visualização e o mini lançados desta vez parecem ser apenas “versões castradas” do o1.

o escalonamento de inferência abre um novo paradigma

o cientista sênior da nvidia, jim fan, analisou ainda mais os princípios por trás do modelo o1.

ele disse que o novo paradigma de escala de tempo de inferência está sendo amplamente popularizado e implantado. como sutton disse em “a bitter lesson”, existem apenas duas tecnologias que podem escalar infinitamente o poder da computação: aprendizagem e pesquisa.

agora é hora de voltar nosso foco para o último.

1. você não precisa de modelos enormes para fazer inferências.

2. transferir uma grande quantidade de cálculos de pré-treinamento/pós-treinamento para serviços de inferência

3. a openai deve ter descoberto a regra de escala de raciocínio muito cedo, mas a comunidade acadêmica só recentemente começou a descobri-la.

4. colocar o1 em uso prático é muito mais difícil do que ter um bom desempenho nos benchmarks acadêmicos

5. o morango pode facilmente se tornar um volante de dados

a julgar pela classificação anterior da openai, o1 alcançou capacidades de raciocínio de nível l2.

alguém testou e descobriu que o1 escreveu com sucesso um poema muito difícil. no processo, o planejamento e o raciocínio necessários para concluir essa tarefa com sucesso foram uma loucura, e o cálculo do tempo de raciocínio foi muito legal.

no entanto, o especialista em ia karpathy reclamou após testar o o1-mini: "ele se recusou a resolver a hipótese de riemann para mim. a preguiça do modelo ainda é um grande problema, o que é muito triste."

o professor assistente da nyu, xie saining, também tentou testar a pergunta clássica "quem é maior, 9,11 ou 9,8?"

o problema clássico de "quantos r existem no morango" naturalmente não é um problema para o1.

big v matthew sabia disse que o mais assustador é que o gpt-5 é 69 vezes mais poderoso que o modelo o1. as pessoas comuns simplesmente não entendem o raciocínio e as habilidades lógicas dos elefantes.

os humanos estão realmente prontos?

problemas de raciocínio lógico que confundem os humanos são resolvidos por o1

todos nós sabemos que o raciocínio lógico era uma montanha difícil de atravessar nos llms anteriores.

mas desta vez, a capacidade do modelo o1 de resolver problemas lógicos complexos é surpreendente.

por exemplo, a seguinte questão lógica -

a idade da princesa é igual à idade do príncipe em algum momento no futuro, quando a idade da princesa será o dobro da idade do príncipe em algum momento no passado e naquele momento no passado, a idade da princesa será a metade; soma de suas idades atuais. quais são as idades da princesa e do príncipe agora? forneça todas as soluções para este problema.

esta pergunta é extremamente difícil de pronunciar. mesmo para os humanos, seria necessário muito esforço para traduzir e compreender o significado da pergunta corretamente.

surpreendentemente, o modelo o1 realmente deu a resposta correta após algumas etapas de reflexão!

através de etapas como definição de variáveis, compreensão de problemas e resolução de equações, conclui-se que a idade da princesa é 8k anos e a idade do príncipe é 6k anos, onde k é um número inteiro positivo.

em outra demonstração, jason wei nos mostrou como o1 programou um videogame com base em instruções.

como você pode ver, ele copiou o prompt no modelo o1.

posteriormente, o modelo pensou por 21 segundos e exibiu todas as etapas do pensamento.

posteriormente, o modelo recebe o código.

depois de executar o código, o jogo ficou muito tranquilo!

nós até jogamos fora um monte de frases confusas em coreano e pedimos para traduzi-las para o inglês, e ele realmente conseguiu.

porque, embora a frase não seja gramaticalmente clara, o1 ainda a decodifica passo a passo.

no final, o1 deu a resposta e disse com humor: nenhum tradutor no planeta pode fazer isso, mas os coreanos podem identificá-lo facilmente. este é um método de criptografar o coreano por meio de várias mudanças em vogais e consoantes.

em contraste, o gpt-4o ficou completamente confuso e incapaz de entender.

pode-se perceber que o superdesempenho de o1 elevou o raciocínio lógico a um novo nível.

como isso é feito?

o aprendizado por reforço traz grandes contribuições, a hora do grande modelo alphago está chegando

a diferença entre os modelos da série o1 e os anteriores é que ele passará mais tempo “pensando no problema” antes de responder à pergunta, assim como os humanos.

através do treinamento, eles aprendem a refinar seus processos de pensamento, experimentar estratégias diferentes e reconhecer erros por conta própria.

por trás disso, o poderoso algoritmo de “aprendizado por reforço” fez grandes contribuições. naquela época, quando alphago derrotou jogadores de xadrez humanos, o algoritmo rl foi usado por trás dele.

ele completa o treinamento eficiente com dados de alto nível e ensina o llm a pensar produtivamente usando cot.

jason wei, o desenvolvedor por trás da proposta do pesquisador cot e openai, disse que o1 não completa o cot apenas por meio de prompts, mas usa modelos de treinamento rl para, em última análise, executar melhor o pensamento em cadeia.

além disso, a equipe openai também descobriu uma “nova lei” na lei de escalabilidade do modelo.

o desempenho do o1 continua a melhorar à medida que mais aprendizagem por reforço (cálculos de tempo de treinamento) e mais tempo de reflexão (cálculos de tempo de teste) são investidos.

as limitações deste método durante o scaling são bastante diferentes das limitações do pré-treinamento llm.

o desempenho do o1 melhora constantemente com o aumento da quantidade de cálculos na fase de treinamento e na fase de teste.

lista de equipes medalha de ouro

estudo de raciocínio

entre os colaboradores fundadores, ilya sutskever, que deixou seu emprego para abrir um negócio, está claramente listado, mas não está listado na liderança executiva (liderança executiva) com greg brockman e outros. deve ser seu trabalho de pesquisa anterior que lançou as bases. para o1.

após a renúncia de ilya, a openai também desenterrou muitos de seus artigos e começou a publicá-los, como pesquisas sobre a interpretabilidade do modelo gpt-4.

hoje em dia, a ssi, que ele está a criar, também está em franca expansão. arrecadou mil milhões de dólares em financiamento sem sequer ter um produto, com uma avaliação de cinco mil milhões de dólares.

hongyu ren

hongyu ren se formou na universidade de pequim com bacharelado em ciência da computação e doutorado em stanford. ele ingressou na openai desde julho do ano passado. ele já trabalhou em empresas como google, apple, nvidia e microsoft.

jason wei

jason wei é atualmente pesquisador da openai. ele trabalhou no google brain de 2020 a 2023, propôs o famoso cot, ajuste fino de instruções, e publicou um artigo sobre a capacidade de emergência de grandes modelos.

kevin yu

kevin yu é atualmente pesquisador da openai. ele recebeu seu mestrado em física e astrofísica e seu doutorado em neurologia pela uc berkeley em 2014 e 2021, respectivamente.

shengjia zhao

shengjia zhao se formou na universidade de tsinghua e também recebeu um doutorado em stanford. depois de se formar em junho de 2022, ele se juntou à equipe técnica da openai. ele também é um dos autores do gpt-4.

wenda zhou

wenda zhou ingressou na openai no ano passado. anteriormente, ele foi moore-sloan fellow no data science center laboratory da universidade de nova york.

ele recebeu um mestrado pela universidade de cambridge em 2015 e um doutorado em estatística pela universidade de columbia em 2020.

canção de francisco

francis song é bacharel em física pela universidade de harvard e possui doutorado em física pela universidade de yale. ele ingressou na openai em 2022. anteriormente, atuou como cientista pesquisador na deepmind e cientista pesquisador assistente na universidade de nova york.

marca chen

mark chen atuou como diretor de frontier research desde que ingressou na openai em 2018, supervisionando um grupo de trabalho sob o vice-presidente de pesquisa bob mcgrew.

depois de se formar no mit, chen recebeu um diploma duplo de bacharel em matemática e ciência da computação. durante a faculdade, estagiou na microsoft e na trading e foi pesquisador visitante na universidade de harvard.

atualmente, ele também atua como treinador da equipe americana de treinamento do ioi.

a informação especulou uma vez que mark chen se tornará membro da liderança da openai no futuro.

além disso, a equipe de liderança também inclui jakub pachocki, o cientista-chefe que substituiu ilya, e wojciech zaremba, um dos poucos cofundadores restantes da openai.

raciocínio sobre segurança técnica

jieqi yu

jieqi yu se formou na universidade fudan com bacharelado em engenharia eletrônica. ela foi para a universidade de ciência e tecnologia de hong kong para fazer intercâmbio e depois recebeu um doutorado na universidade de princeton. ela trabalhou no facebook por 12 anos, passando de engenheira de software para gerente de engenharia de software, e ingressou na openai como gerente de engenharia em agosto do ano passado.

kai xiao

xiao kai se formou no mit com graduação e doutorado. ele também recebeu um diploma duplo em matemática e ciência da computação durante a graduação. foi para a universidade de oxford para visitas acadêmicas e teve experiência de estágio em empresas como deepmind e microsoft. ingressou na openai em setembro de 2022.

lilian weng

lilian weng é atualmente chefe do sistema de segurança openai e está envolvida principalmente em aprendizado de máquina, aprendizado profundo e outras pesquisas.

ela se formou na universidade de pequim com bacharelado em sistemas de informação e ciência da computação. ela foi para a universidade de hong kong para um intercâmbio de curto prazo e depois recebeu seu doutorado na universidade de indiana em bloomington.

assim como mark chen, lilian é considerada uma estrela em ascensão na liderança da openai.

a lista completa das equipes é a seguinte:

física bioquímica, além do nível de doutorado humano

como uma nova série de modelos criados pela openai, qual é a força do o1?

classificado entre os 89% melhores problemas de programação de competição (codeforces); classificado entre os 500 melhores alunos no american mathematical olympiad competition qualifiers (aime);

mais importante ainda, excede o nível de doutorado humano no teste de referência de problemas de física, biologia e química (gpqa).

em testes de benchmark comumente usados, como math e gsm8k para raciocínio, o1 e muitos modelos de ponta recentes atingiram desempenho saturado e são difíceis de distinguir. portanto, a openai também escolhe aime principalmente para avaliar as capacidades matemáticas e de raciocínio do modelo. como outros testes humanos e benchmark.

o aime foi projetado para desafiar as habilidades matemáticas dos melhores alunos do ensino médio nos estados unidos. no exame aime de 2024, o gpt-4o resolveu em média apenas 12% (1,8/15).

porém, a melhoria do o1 é bastante significativa, resolvendo em média 74% (11,1/15) das questões, e atingindo 83% (12,5/15) quando a votação majoritária é realizada em 64 amostras. se usarmos a função de pontuação e reordenarmos 1000 amostras, a precisão chega a chegar a 93% (13,9/15).

uma pontuação de 13,9 significa que o nível o1 atingiu os 500 melhores alunos do país e ultrapassou a pontuação final da olimpíada americana de matemática.

em tarefas desafiadoras como codeforces e gpqa diamond, o1 excede em muito o gpt-4o.

o1 supera amplamente o gpt-4o em benchmark de inferência desafiador

gpqa diamond testa conhecimentos nas áreas de química, física e biologia. para comparar o modelo com os humanos, a equipe recrutou especialistas com doutorado para responder às suas perguntas.

como resultado, o1 superou estes especialistas humanos (69,7) (78,0), tornando-se o primeiro modelo a superar os humanos neste benchmark.

no entanto, este resultado não significa que o1 seja mais forte do que um ser humano com doutoramento em todos os aspectos, apenas mostra que pode resolver alguns problemas de nível correspondente com mais habilidade.

além disso, o1 também atualizou o sota em testes de benchmark como math, mmlu e mathvista.

depois de habilitar capacidades de percepção visual, o1 alcançou uma pontuação de 78,1% no mmmu, tornando-se o primeiro modelo a competir com especialistas humanos, ultrapassando o gpt-4o em 54 das 57 subcategorias do mmlu.

o1 supera gpt-4o em uma ampla gama de benchmarks, incluindo subclasses 54/57 mmlu

cadeia de pensamento

através da aprendizagem por reforço, o1 aprendeu a reconhecer e corrigir seus próprios erros e a dividir etapas complexas em etapas mais simples.

ele também tentará métodos diferentes quando o atual não funcionar. este processo melhora significativamente as capacidades de inferência do modelo.

vejamos o exemplo da “criptografia”.

a pergunta é: "pense passo a passo" está criptografado e corresponde a "oyfjdnisdr rtqwainr acxz mynzbhhx". pergunte qual é o significado de "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz".

percebe-se que o gpt-4o está completamente indefeso nesse tipo de problema.

o1 raciocinou sobre o método de cálculo da criptografia com base nas informações conhecidas e finalmente deu a resposta correta - existem três r's no morango.

gpt-4o

o1-prévia

programação

nesta avaliação, a openai treinou ainda um modelo aprimorado de programação baseado em o1.

na olimpíada internacional de informática (ioi) de 2024, o novo modelo marcou 213 pontos, ficando na posição de 49%.

durante o curso, os modelos têm dez horas para resolver seis problemas algorítmicos desafiadores, sendo permitidas 50 submissões por problema.

quando as restrições de submissão são relaxadas, o desempenho do modelo pode ser significativamente melhorado. ao permitir 10 mil envios por pergunta, o modelo alcançou pontuação de 362,14 – ultrapassando o limite da medalha de ouro.

por fim, a openai também simulou uma competição competitiva de programação organizada pela codeforces – seguindo rigorosamente as regras e permitindo 10 inscrições.

a pontuação elo do gpt-4o é 808, classificando 11% dos jogadores humanos. o novo modelo superou em muito o gpt-4o e o1, alcançando uma pontuação alta de 1807, superando 93% dos jogadores.

aprimoramento adicional do o1 aprimorado em competições de programação: o modelo aprimorado classificado no 49º percentil sob as regras de competição na olimpíada internacional de informática de 2024

avaliação de preferência humana

além de exames e benchmarks acadêmicos, a openai avaliou as preferências humanas para visualização o1 versus gpt-4o em palavras desafiadoras e abertas em uma ampla variedade de domínios.

nesta avaliação, os humanos veem respostas anônimas às palavras solicitadas de o1-preview e gpt-4o e votam na resposta que preferem.

em categorias de raciocínio pesado, como análise de dados, programação e matemática, as pessoas são mais propensas a escolher a visualização o1. mas em algumas tarefas de linguagem natural, o gpt-4o é melhor.

em outras palavras, o1-preview atualmente não é adequado para todos os cenários de uso.

em áreas onde a capacidade de raciocínio é mais importante, as pessoas são mais propensas a escolher a visualização o1

o1-mini é extremamente econômico

para fornecer aos desenvolvedores soluções mais eficientes, a openai lançou o1-mini – um modelo de inferência mais rápido e barato.

por ser um modelo menor, o o1-mini é 80% mais barato que o o1-preview.

este é um modelo poderoso e econômico para aplicações que exigem raciocínio, mas não requerem conhecimento geral do mundo.

no entanto, a atual série o1 ainda está em seus estágios iniciais e recursos como plug-ins de rede, transferência de arquivos de longa distância e imagens ainda não foram integrados. no curto prazo, o gpt-4o ainda é o player mais forte.

referências:

https://openai.com/index/learning-to-reason-with-llms/

notícias

o modelo openai o1 é lançado, agi de cinco níveis surge novamente! um homem com um super doutorado em raciocínio, um chinês da universidade fudan, no norte da dinastia qing, que realizou atos meritórios

introdução

minhas informações de contato