modelo de morango openai ataca tarde da noite! física e química atinge nível de doutorando, muito melhor que gpt-4o, chatgpt está disponível

2024-09-13

autor | baunilha

editor | li shuiqing

zhidongxi relatou em 13 de setembro que esta manhã, a openai lançou repentinamente o lendáriomodelo "morango"visualização parcial de -versão de visualização do openai o1. esta é uma série de novos modelos de ia que podem raciocinar sobre tarefas complexas e resolver problemas mais difíceis do que os modelos científicos, de programação e matemáticos anteriores.

▲ openai lança modelo o1

openai o1 é o primeiro de uma nova série de modelos de ia。ao contrário dos modelos anteriores, temhabilidades de raciocínio evoluídas, estará empense bem antes de responder, gerar um longocadeia de pensamento interno, classificação em questões de programação competitivanº 89, classificado no torneio de qualificação para as olimpíadas de matemática dos euaprimeiros 500, precisão em testes de referência em problemas de física, biologia e químicaexcedendo o nível de doutorado humano！

mais um recém-lançadoo1 minié um modelo mais rápido e menor, treinado usando uma estrutura semelhante a o1. o1 mini é bom em ciências e engenharia, especialmente matemática e programação.o custo é 80% mais barato que a versão de visualização o1。

esses dois modelos são considerados pela openai como um grande avanço em tarefas complexas de raciocínio, por isso são denominados o1 para zerar o contador, em vez de uma continuação da série gpt.

no entanto, a versão aprimorada por inferência do modelo o1 ainda falhou miseravelmente no "problema de ordem superior" de comparar os tamanhos de 9,9 e 9,11.

▲ o modelo o1 responde à questão da “proporção de tamanho”

andrej karpathy, membro fundador da openai e ex-diretor sênior da tesla ai, que deixou a openai para iniciar um negócio, reclamou esta manhã: "o1-mini sempre se recusou a resolver a hipótese de riemann para mim. a preguiça do modelo ainda é um grande problema problema 😞"

▲ andrej karpathy reclamou que o1 mini era “preguiçoso”

openai testou e avaliou rigorosamente a versão de visualização o1 para garantir que o modelo possa ser lançado com segurança. os usuários do chatgpt plus e team podem escolher dois novos modelos hoje, e os desenvolvedores tier 5 também serão os primeiros a obter acesso api aos novos modelos.

a openai também anunciou os principais membros da equipe por trás do modelo o1, incluindo 21 colaboradores básicos, incluindo o ex-cientista-chefe da openai ilya sutskever, que saiu para iniciar um negócio, e 7 líderes de equipe.

1. mmlu é comparável a especialistas humanos em capacidade de programação8matança duplagpt-4o

conforme exposto anteriormente, o openai o1 é treinado para ser um modelo que passa mais tempo pensando nos problemas antes de reagir. ele pensa antes de responder, produzindo umcadeia interna de ideias muito longa, e podem ser como humanosmelhore seu processo de pensamento，continue tentando novas estratégiase perceba seus erros.

como modelo de visualização inicial, openai o1 atualmentesuporta apenas conversas de texto, não possui recursos multimodais, como navegar na web para obter informações, fazer upload de arquivos e fotos, etc.

em termos de desempenho, openai o1 éfísica, química e biologiadesempenho em tarefas de benchmark eestudante de doutoradobastante e emmatemática e programaçãoexcelente desempenho.

▲ benchmarks de avaliação openai o1 em matemática e programação

no exame de qualificação da olimpíada internacional de matemática (imo), o modelo da geração anterior gpt-4o da openai teve uma taxa de precisão de 13%, enquanto o openai o1 foialcance 83%. na codificação de codeforces de competição, openai o1'sa pontuação é 89, enquanto o gpt-4o possui apenas 11. até mesmo a versão prévia do modelo o1-preview tem um desempenho várias vezes melhor que o gpt-4o.

o1 tem desempenho significativamente melhor que gpt-4o na maioria dos benchmarks, cobrindo 54 das 57 subcategorias mmlu. após habilitar a função de percepção visual, o1 pontuou 78,2% no mmlu, tornando-seo primeiro modelo a competir com especialistas humanos。

▲ comparação de desempenho entre a versão de visualização o1 e gpt-4o

aqui estão alguns exemplos da versão de visualização do openai o1:

1. resolva um quebra-cabeça lógico complexo

digite umquebra-cabeça complexo de idade: uma princesa tem a mesma idade do príncipe quando tem o dobro da idade do príncipe e quando sua idade é a metade da soma de suas idades atuais. quantos anos têm o príncipe e a princesa? dê todas as soluções para este problema.

a modelo começou a responder depois de pensar por mais de 20 segundos. a lógica de sua resposta é muito coerente. a primeira é determinar a equação da idade, converter as afirmações fornecidas em equações matemáticas e encontrar todas as soluções possíveis que satisfaçam essas equações. então comece a analisar o problema passo a passo:

o primeiro passo é definir as variáveis, usando p para representar o príncipe e q para representar a princesa o segundo passo é entender as duas condições do problema; a equação; a quinta etapa etapa 1 usa esses valores para verificar todas as condições; a etapa 6 fornece todas as soluções possíveis;

finalmente cheguei à conclusão:

2. traduza frases com erros

adicionar consoantes desnecessárias afeta a leitura coreana. não será lido naturalmente para falantes nativos, que mudarão e compreenderão automaticamente o texto ao verem tais frases. mas este é um desafio difícil para o modelo.

digite umpalavras de alerta em coreano gravemente danificadasfinalmente, o openai o1 percebeu pela primeira vez que o texto de entrada continha caracteres coreanos distorcidos ou desalinhados e perguntou ao usuário se ele gostaria de verificar se havia erros de entrada.

o modelo o1 primeiro compreenderá a estrutura subjacente e, após cerca de 10 segundos de reflexão, decodificará o texto distorcido, decifrará o texto, aprimorará a tradução, compreenderá o conceito e o converterá novamente em uma linguagem coerente.

ao contrário do gpt-4o, o modelo o1 pensa na pergunta antes de emitir a resposta, verifica o texto e depois o modifica na frase correta, como se estivesse decifrando a resposta. após cerca de 15 segundos pensando, o1 apresentou a versão final otimizada da tradução.

isso demonstra que as habilidades de raciocínio se tornam uma ferramenta poderosa para a resolução de problemas.

3. responda ao conhecido problema difícil em grandes modelos de linguagem: contar letras em palavras

este exemplo é muito simples, digite a palavra morango e deixe a modelo responderquantos r existem na palavra?。

como resultado, o gpt-4o deu a resposta errada: “2”.

por que um modelo tão avançado cometeria um erro tão simples? isso ocorre porque um modelo como o gpt-4o é construído para processar texto, não caracteres ou palavras, por isso pode cometer erros ao encontrar problemas que envolvam a compreensão do conceito de caracteres e palavras.

o novo modelo o1 baseado no raciocínio pode dar a resposta correta depois de pensar por alguns segundos:

4. programação de videogames

deixe o modelo usar pygamefaça um videogame chamado squirrel findere insira os seguintes requisitos: o usuário precisa guiar o ícone "coala" na tela pressionando as teclas de seta, evitar os morangos flutuantes e encontrar um esquilo dentro do prazo de 3 segundos para vencer.

isso foi mais difícil com os modelos anteriores, mas a versão de visualização o1 conseguiu fazer isso. o1 passou 21 segundos pensando e usou o processo de pensamento para planejar a estrutura do código, incluindo a coleta de detalhes do layout do jogo, instruções de desenho, configuração da tela, etc., e então gerar o código de programação final do jogo.

copie e cole o código no editor sublime text. após a execução, haverá algumas linhas de breves instruções.

então você pode começar a jogar o jogo "procurando esquilo".

o modelo o1 apresenta capacidades de planejamento significativamente aprimoradas em comparação aos modelos anteriores.

2. melhoria de velocidade da versão mini3~5vezes, o custo é apenas a versão padrão1/5

openai também lançoumodelo "versão xícara pequena" openai o1-mini,quemais rápido e mais barato, e tem o mesmo excelente desempenho em matemática e programação que a versão padrão.

openai o1-mini é otimizado para raciocínio stem (ciência, tecnologia, engenharia e matemática) durante o pré-treinamento. depois de ser treinado usando o mesmo pipeline de aprendizagem por reforço (rl) computacionalmente intensivo que o1, o1-mini alcança desempenho superior em muitas tarefas de inferência, ao mesmo tempo que é significativamente mais econômico.

openai o1-mini80% mais barato que a versão prévia do openai o1, adequado para aplicações que exigem raciocínio, mas não exigem amplo conhecimento mundial. em alguns testes de benchmark que exigem inteligência e raciocínio, o o1-mini tem desempenho até melhor que o o1-preview.

▲ desempenho matemático e curva de custo de raciocínio

na competição aime de matemática do ensino médio, a taxa de precisão de o1-mini foi de 70%, o que é aproximadamente equivalente aos 500 melhores alunos do ensino médio nos estados unidos. ao mesmo tempo, as taxas de precisão do o1 e do o1-preview são de 74,4% e 44,6%, respectivamente, mas o preço do o1-mini é muito mais barato que eles.

em termos de avaliação da preferência humana, a openai obteve os seguintes resultados de teste, pedindo aos avaliadores humanos que testassem o1-mini e o1-preview em palavras desafiadoras de prompt aberto em diferentes campos e os comparou com gpt-4o. semelhante ao o1-preview, o1-mini é mais popular que o gpt-4o em áreas com tarefas pesadas de inferência, mas não é preferido em áreas centradas na linguagem.

▲ resultados da avaliação de preferência humana

em termos de velocidade, gpt-4o, o1-mini e o1-preview, respectivamente, levam tempo para responder à mesma pergunta de raciocínio.3 segundos, 9 segundos, 32 segundos, mas a resposta do gpt-4o está errada e as duas últimas respostas estão corretas. pode-se observar que a velocidade do o1-mini para obter a respostacerca de 3 a 5 vezes mais rápido que o1。

▲ velocidade de resposta gpt-4o, o1-mini e o1-preview

claro, afinal, é uma “versão castrada”, e openai o1-mini também tem certas limitações. quando se trata de conhecimento factual sobre tópicos não stem, como datas, biografias e curiosidades diárias, o o1-mini é um tanto limitado, tendo desempenho equivalente a modelos menores, como o gpt-4o mini. a openai disse que irá melhorar essas limitações em versões futuras e expandir o modelo para outras especialidades e modalidades além de stem.

3. introduza marcadores de raciocínio e use cadeias de pensamento para resolver problemas

semelhante aos humanos, o1 pensa muito antes de responder perguntas difíceis e usacadeia de pensamento。

por meio do aprendizado por reforço, o1 aprendeu a melhorar a cadeia de pensamento e a usar estratégias. é a capacidade de identificar e corrigir erros, dividir etapas complicadas em etapas mais simples e tentar abordagens diferentes quando a atual não estiver funcionando. este processo melhora muito as capacidades de raciocínio do modelo.

especificamente, o modelo o1 introduzmarca de inferência(tokens de raciocínio). esses marcadores de inferência são usados para "pensar", quebrar a compreensão da palavra do prompt e considerar diversas maneiras de gerar uma resposta. após a geração dos tokens de inferência, o modelo gera respostas como tokens de conclusão visíveis e descarta os tokens de inferência de seu contexto.

abaixo está um exemplo de uma conversa em várias etapas entre um usuário e um modelo. os tokens de entrada e saída de cada etapa são retidos, enquanto os tokens de inferência são descartados.

▲ processo de inferência do modelo o1

é importante notar que quando a openai conduziu o treinamento de algoritmos de aprendizagem por reforço em larga escala, descobriu-se quecom o aumento do aprendizado intensivo e do tempo de reflexão, ou melhorà medida que o tempo de treinamento e o tempo de teste aumentam,，o desempenho de o1 continuará a melhorar. isso é muito diferente da lei de escala no pré-treinamento de modelos grandes.

▲o1 o desempenho melhora constantemente com o cálculo do tempo de treinamento e do tempo de teste

para mostrar o salto alcançado pelo o1, a openai divulgou a cadeia de pensamento gerada pela versão prévia do o1 na resolução de problemas como programação, matemática, decodificação e inglês.

por exemplo, quando você recebe umperguntas de decodificação, o gpt-4o primeiro desmontou a entrada, a saída e os exemplos e depois começou a analisar possíveis métodos de decodificação.

▲ gpt-4o desmontando entrada, saída e exemplos

ele adivinhou que a primeira frase poderia seguir a mesma estrutura do exemplo, percebendo que o texto de entrada parecia cair em grupos com base em separações ou padrões naturais, mas depois parou de funcionar, dizendo que precisava de mais informações sobre as conversões ou mudanças de letras que poderiam estar envolvido.

▲gpt-4o disse que são necessárias mais informações

por outro lado, o openai o1-preview passou por algumas reflexõesdeu a resposta com precisão。

▲o1-preview responde corretamente ao problema de decodificação

embora a resposta final apresentada tenha sido muito curta, o processo de pensamento de o1 foi muito longo e seu pensamento e palavras foram muito humanos. começa perguntando a si mesmo "o que está acontecendo aqui" e depoisrepetir o pedido, então comecedivida as tarefas e esclareça os objetivos。

▲o1 processo de pensamento

então, o1 começaobserve as informações que você obtém,eanálise passo a passo。

▲o1 processo de pensamento

depois de algum raciocínio, o1 começacrie soluções diferentes. durante esse processo, como os humanos, eles dirão de repente "espere um minuto, eu acho..." e então começarão a pensar novamente.experimente novos métodos。

▲o1 processo de pensamento

além disso, existem até palavras como “hum” e “interessante” aparecendo no processo de pensamento de o1.coloquial, emocionalexpressão.

▲o1 processo de pensamento

a cadeia completa de pensamento é muito longa, por isso não entrarei em detalhes aqui. em geral, como disse a openai, o1 pode melhorar continuamente o seu processo de pensamento como os humanos, experimentar novas estratégias, reconhecer os seus próprios erros e resolvê-los. e “como os humanos” aqui não se limita à forma de pensar, mas também se reflete no tom.

quatro,disponível para conversa toda semana30~50vezes, ilya participou de contribuições básicas

diferente do passado, desta vez a openai não listou futuros, masfique on-line diretamentedois modelos.

a partir de agora, os usuários do chatgpt plus e team podem acessar o modelo o1 no chatgpt e selecionar manualmente o1-preview ou o1-mini por meio do seletor de modelo. os usuários corporativos e educacionais poderão usá-lo a partir da próxima semana, e os usuários gratuitos também poderão; obter acesso no plano futuro.

▲ os usuários podem acessar o modelo o1 no chatgpt

mas talvez por questões de segurança ou custo, ambos os modelos limitam atualmente o número de mensagens, a versão prévia e a versão mini.o número de mensagens enviadas por semana é 30 e 50 respectivamente.. a openai disse que está trabalhando duro para aumentar a cota e permitir que o chatgpt selecione automaticamente o modelo apropriado com base nas palavras de prompt fornecidas.

a openai também lançou a api (interface de programação de aplicativos) do modelo o1. os desenvolvedores qualificados agora podem começar a prototipar usando a api para ambos os modelos com um limite de taxa de 20 rpm. atualmente, essas apis não incluem chamadas de função, streaming, suporte para mensagens do sistema e outras funções.

▲o1, o1 minimodelo api

como pode ser visto na documentação da api, esses dois modelosas janelas de contexto têm todas 128k, enquanto a janela de saída da versão mini é mais longa,é o dobro de o1, além disso, os dados de treinamento dos dois modelos são de outubro de 2023.

openai também anunciou a equipe por trás do modelo o1membros da equipe principal：

▲os principais membros da equipe por trás do modelo o1

emexistem 21 membros contribuintes básicos, incluindo o ex-cientista-chefe da openai, ilya sutskever, que saiu para iniciar um negócio.

existem 7 líderes de equipe, respectivamente jakub pachocki, jerry tworek (geral), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. os gerentes de projeto são lauren yang e mianna chen.

segundo os membros da sua equipe, o raciocínio é a capacidade de converter o tempo de reflexão em melhores resultados. eles investiram mais cálculos do que antes, treinando o modelo para produzir ideias coerentes e produzindo um desempenho completamente diferente de antes.

eles usam o aprendizado por reforço para treinar o modelo de ia para gerar e aprimorar suas próprias cadeias de pensamento ainda melhor do que as cadeias de pensamento programadas para ele por humanos. esta forma de treinar um modelo de ia para gerar seu próprio processo de pensamento melhora significativamente sua capacidade de compreender e corrigir erros, e os primeiros modelos o1 alcançaram pontuações mais altas em testes de dados.

a lista dos principais contribuidores e outros contribuidores é a seguinte:

▲ lista dos principais contribuidores o1 e outros contribuidores

os líderes administrativos incluem 8 pessoas, incluindo o ceo da openai, sam altman, o presidente greg brockman, o ceo mira murati e 8 líderes de apoio.

▲o1 liderança administrativa, liderança de apoio

o novo modelo o1 pode inferir e explorar contextualmente as regras de segurança de forma mais eficaz. a openai conduziu testes e avaliações rigorosos da visualização o1 para garantir que o modelo possa ser lançado com segurança sem aumentar os riscos que podem surgir dos recursos existentes.

conclusão: openai vira a mesa, "morango" reconstrói o grande padrão do modelo?

do misterioso modelo q* ao modelo “morango”, o novo modelo da openai está finalmente disponível. desde o início do “golpe” da openai em novembro passado, este modelo foi exposto como um dos principais fatores que levaram à expulsão de altman. naquela época, havia rumores de que uma demonstração do modelo q* estava circulando dentro do openai, e a velocidade de desenvolvimento chocou alguns pesquisadores de segurança de ia.

ao contrário do gpt-4o, a escolha do modelo o1 abre diretamente uma nova série de nomenclatura de números em vez de uma continuação do gpt, o que mostra que a openai atribui grande importância a ele.

agora que muitos grandes fabricantes de modelos estão começando a lançar aplicativos multimodais e de volume, o lançamento do modelo de texto puro o1 pela openai pode mais uma vez chamar a atenção do público para a melhoria dos recursos subjacentes do modelo. resta saber se a grande paisagem do modelo será reconstruída sob a influência de o1.

notícias

modelo de morango openai ataca tarde da noite! física e química atinge nível de doutorando, muito melhor que gpt-4o, chatgpt está disponível

introdução

minhas informações de contato