a avaliação do novo modelo o1 da openai em cinco dimensões principais: codificação, produção de jogos e outras habilidades é “incrível”, mas o conhecimento factual é “revertido”

avaliação do novo modelo o1 da openai em cinco dimensões: codificação, produção de jogos e outras habilidades são "incríveis", mas o conhecimento factual é "revertido"

2024-09-18

o lendário modelo “morango” de repente entrou online hoje sem qualquer aviso prévio!

o último modelo lançado pela openai é denominado o1, que é a primeira versão de uma série de modelos de inferência.o1-preview (versão de visualização) e o1-mini (versão mini）。

atualmente, o1-preview e o1-mini já estão disponíveis para assinantes chatgpt plus e team, enquanto usuários enterprise e edu terão acesso no início da próxima semana. a openai disse que planeja fornecer acesso o1-mini a todos os usuários gratuitos do chatgpt, mas ainda não definiu uma data de lançamento.

de acordo com a openai, o modelo o1 está mais próximo do pensamento humano do que qualquer modelo anterior em termos de capacidade de resolução de problemas e é capaz de “raciocinar” para tarefas matemáticas, de codificação e científicas.

para verificar se as capacidades do novo modelo são tão poderosas quanto afirma a openai, um repórter do "daily economic news"do clássico “teste de morango””o modelo o1-preview foi testado em cinco dimensões: escrita de código, produção de minijogos, matemática e economia e conhecimento factual.

os resultados mostraram que o o1-preview demonstrou capacidades de programação e raciocínio matemático que excederam os grandes modelos lançados anteriormente pela openai. por exemplo, o1-visualizaçãocapacidade de escrever código que funcione sem problemas e ainda raciocinar sobre soluções por conta própria em ambientes complexos. além disso, o repórter também sentiu durante o processo de teste que o o1-preview também melhorou muito em termos de humanização, mostrando o pensamento de uma pessoa real. no entanto, o novo modelo não está isento de deficiências e “derrubou” no teste de conhecimento factual.

o lendário "morango" está aqui

em 12 de setembro, horário local, a openai lançou um novo modelo chamado o1, que é a primeira versão de uma série de modelos de “inferência” que planeja usar. é também o modelo “morango” que tem sido comentado na indústria há muito tempo. muito tempo.

fonte da imagem: plataforma x

para a openai, o1 representa mais um passo em direção ao seu objetivo de ia semelhante à humana. a openai acredita que o1 representa uma capacidade completamente nova, considerada tão importante que a empresa decidiu recomeçar a partir do modelo gpt-4 atual, abandonando completamente a marca “gpt” e nomeando-a a partir de 1.

a openai diz que vai recomeçar com o modelo gpt-4 atual, “redefinindo o contador para 1”, e até abandona a marca “gpt” que até agora definiu os chatbots e toda a mania da ia generativa.o1 construiu um sistema que pode resolver problemas de forma cuidadosa e lógica por meio de uma série de etapas discretas, cada etapa baseada na etapa anterior, semelhante à forma como os humanos raciocinam.

o cientista-chefe da openai, jakub pachocki, disse que os modelos anteriores começariam imediatamente a responder às perguntas dos usuários assim que os recebessem. "e esse modelo (referindo-se a o1) leva seu tempo. ele pensa sobre o problema e tenta decompô-lo, encontrar ângulos e tentar fornecer a melhor resposta. isso é exatamente o que seus pais perguntaram à maioria das pessoas." eles eram jovens, pense antes de falar.

openai disse,o1 está classificado no 89º percentil em problemas de programação competitiva (codeforces), entre os 500 melhores alunos dos estados unidos nas eliminatórias da olimpíada americana de matemática (aime) e no teste de referência para problemas de física, biologia e química (gpqa) precisão que excede o nível de doutorado humano.。

em pesquisas e postagens de blog publicadas pela openai, o1 parece ter capacidades de "raciocínio" muito poderosas. ele pode não apenas resolver problemas avançados de matemática e codificação, mas também descriptografar senhas complexas e responder a perguntas de especialistas e estudiosos sobre genética, economia e ciência quântica. . problemas complexos em física. um grande número de gráficos mostra quenas avaliações internas, o1 superou o gpt-4o, o modelo de linguagem mais avançado da empresa, em problemas de codificação, matemática e diversas áreas científicas, podendo até ter superado os humanos.

fonte da imagem: site oficial da openai

cinco dimensões do teste real: codificação, produção de jogos e outras habilidades são "incríveis", mas "falharam" no teste de conhecimento factual

a fim de obter uma compreensão mais profunda das poderosas capacidades do modelo o1, os repórteres do "daily economic news" testaram o modelo o1-preview em cinco dimensões: teste clássico de morango, escrita de código, produção de minijogos, matemática e economia, e conhecimento factual.

1) teste de morango

em primeiro lugar, o repórter fez um teste usando uma pergunta simples que quase todos os modelos grandes já “derrubaram” antes, ou seja, “quantos r tem a palavra morango?””. a julgar pelos resultados gerados, o1-preview ainda trouxe uma pequena surpresa.

2) escrita de código

o repórter primeiro perguntou ao o1-preview sobre a questão de algoritmo simples mais famosa na plataforma de programação on-line leetcode: o problema de duas somas (soma de dois números). o1 deu um processo de raciocínio e respostas muito detalhados.

então o repórter pediu deliberadamente para otimizar a resposta. depois de pensar por 9 segundos, o1 percebeu que o que ele forneceu já era a solução ideal e também explicou "consideravelmente" uma solução abaixo do ideal. em testes anteriores de outros modelos feitos por repórteres, esses modelos apenas pediam desculpas e depois mudavam a resposta para uma solução abaixo do ideal.

3) produção de minijogos

na demonstração do modelo o1, a openai demonstrou a função de “escrever um minijogo em uma frase”. durante o processo de teste, o repórter pediu ao o1-preview para ajudar a apresentar ferramentas de codificação úteis e a escrever um jogo de pingue-pongue.

demorou apenas 19 segundos para fornecer um código que pudesse funcionar sem problemas e anexou um guia de estudo e palavras de incentivo, que são muito fáceis de usar.

para evitar que o1-preview trapaceie e use a capacidade de memória em vez da capacidade de raciocínio para responder, o repórter também solicitou que o1-preview altere o ambiente de execução do código: nota jupyter. este ambiente de execução é um ambiente python especializado para análise de dados. os desenvolvedores basicamente não usarão esse ambiente para desenvolver jogos pequenos.

depois de pensar sobre isso, o1 ainda deu um código que pode ser executado. no entanto, em comparação com o código anterior, esta resposta tem muitos bugs, mas isso também mostra que esta é realmente uma resposta bem pensada, em vez de uma resposta padrão adicionada durante o processo de treinamento.

a fim de verificar ainda mais as capacidades de raciocínio inovadoras do o1-preview, o repórter pediu ao modelo que desenvolvesse um minijogo mais complexo e interessante baseado neste minijogo.

desta vez, o desempenho do o1 é realmente um pouco surpreendente. baseado no mecanismo de colisão do jogo de pingue-pongue, este modelo repete um jogo de salto para cima. geralmente, outros modelos grandes exigem que os usuários descrevam suas necessidades claramente antes de poderem produzir uma resposta melhor. no entanto, o repórter não forneceu nenhum prompt adicional neste teste para gerar uma resposta que possa funcionar sem problemas e seja suficiente aos olhos do. repórter. joguinho divertido.

4) teste de ciências

em termos de testes de ciências, o repórter se concentrou em testar o desempenho do o1-preview em matemática e economia.

em primeiro lugar, o repórter fez uma pergunta de raciocínio matemático.o1-préviapergunte sobre possíveis maneiras de resolver a explosão em tempo finito da equação de euler (este é um artigo de discussão publicado esta semana pelo professor terence teru, o famoso matemático chinês e vencedor da medalha fields).

embora o1 não forneça uma solução clara, fornece uma ideia para resolver o problema.esta ideia é parcialmente consistente com o artigo do professor tao zhexuan (embora muito pouco)。

na direção da economia, o repórter perguntou ao o1-preview sobre uma questão complexa do sistema econômico. a partir do feedback dado,basicamente, não há grandes problemas. a lógica geral é clara e as dimensões do pensamento também são diversas. embora existam alguns pequenos erros nas fórmulas matemáticas fornecidas, isso não prejudica a situação geral.。

5) conhecimento factual e compreensão do idioma

nesta sessão, o repórter perguntou ao o1-preview sobre anedotas interessantes sobre o primeiro imperador da dinastia ming, mas o1 interpretou as anedotas como coisas que realmente aconteceram na história e narrou toda a história histórica de zhu yuanzhang.

ao mesmo tempo, o repórter também lançou esta questão ao modelo gpt-4o. como comparação, o gpt-4o entendeu bem a pergunta do repórter e contou duas histórias populares de grande circulação.

geral,a afirmação da openai de que o modelo o1 pode aproximar-se do nível humano parece ser verdadeira em alguns aspectos.。

o que mais surpreendeu o repórter foi que o openai mostrou ao usuário o processo de pensamento do modelo no texto. durante o processo de pensamento do texto, o modelo grande usou muito "estou fazendo isso".”palavras como “eu penso” e “eu planejo” parecem mais antropomórficas, assim como uma pessoa real explicando sua lógica de pensamento na frente do usuário.

mas isso não significa que o modelo o1 seja perfeito.a openai também admitiu que o1 é muito inferior ao gpt-4o em termos de design, redação e edição de texto.o o1 também não tem a capacidade de navegar na web ou processar arquivos e imagens.

o mais problemático para os repórteres é que mesmo para uma solicitação muito simples, como converter os resultados de saída para chinês, o1 gastará mais de dez segundos pensando nisso, enquanto o gpt4o atenderá rapidamente à solicitação.

mesmo nas áreas vantajosas do openai, o modelo o1 sofrerá repentinamente degradação de desempenho e a saída do modelo será preguiçosa.karpathy, o fundador da openai que renunciou, reclamou: "ele se recusou a resolver a hipótese de riemann para mim. a preguiça do modelo ainda é um grande problema."

a openai disse que a empresa abordará esses problemas nas atualizações subsequentes, afinal, esta é apenas uma prévia do modelo de inferência.

notícias econômicas diárias

relatório/comentários

notícias

avaliação do novo modelo o1 da openai em cinco dimensões: codificação, produção de jogos e outras habilidades são "incríveis", mas o conhecimento factual é "revertido"

o lendário "morango" está aqui

cinco dimensões do teste real: codificação, produção de jogos e outras habilidades são "incríveis", mas "falharam" no teste de conhecimento factual

introdução

minhas informações de contato