notícias

“a programação como profissão termina hoje”, o que é assustador no novo modelo o1 da openai

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor: fanfan, editor: odette, imagem do título de: geração ai

você ainda se lembra do terremoto do openai antes?

o que desencadeou a demissão de sam altman, a saída do cofundador greg brockman e a intensificação dos conflitos internos dentro da openai foi um projeto chamado q* (pronuncia-se q-star).

segundo pessoas familiarizadas com o assunto, o projeto q* havia feito progressos significativos naquela época e já conseguia resolver problemas matemáticos básicos. ao contrário das calculadoras, que só podem resolver um número limitado de operações, e do gpt-4, que sempre dá respostas diferentes para a mesma pergunta,q* já pode ter a capacidade de generalizar, aprender e compreender, o que é um passo fundamental para a agi.os pesquisadores da openai enviaram uma carta ao conselho de administração alertando que a grande descoberta de q* poderia ameaçar toda a humanidade, mas sam altman escondeu isso.

a openai passou por mudanças internas tremendas e a própria openai nunca respondeu diretamente à existência do q*.

hoje, a openai lançou repentinamente um novo modelo, que ainda é uma versão prévia. é o lendário q*, mais tarde codinome "strawberry", e agora openai o1-preview.

um novo modelo de raciocínio para resolver problemas complexos, que não é mais a mesma série do chatgpt|openai

o, ainda "omini", abrangente o, mas de acordo com openai, este modelo "representa um novo patamar de inteligência artificial" e é muito diferente do grande modelo anterior em métodos de trabalho, portanto, um novo modelo pode ser estabelecido separadamente série , contando a partir de 1 (gpt5: estou velho!).

quanto a saber se este modelo irá "ameaçar a humanidade", conforme julgado por ilya sutskever e outros ex-cientistas rebeldes da openai, empurrando a humanidade para a era agi (inteligência geral artificial) sem restrições morais perfeitas, você pode ler o artigo então julgue por si mesmo.

o1, supera tudo

o primeiro é o familiar link de pontuação.

cada geração de modelos grandes surge e atinge novos patamares sem precedentes, mas desta vez o o1 é fundamentalmente diferente.

a maioria dos grandes modelos atualmente populares estão na forma de chatbots, cujos caminhos de pensamento são difíceis de explicar, e sua direção de desenvolvimento é multimodal (pode falar, ver e ouvir), e estão se tornando cada vez mais humanos em termos de tom e reações. o1 é diferente deles.

em primeiro lugar, o seu objetivo não é ficar cada vez mais rápido, ou mesmo ficar cada vez mais lento.

o cientista da openai, noam brown, disse que atualmente o1 pode dar respostas em poucos segundos, mas no futuro precisará ser capaz de pensar por horas, dias ou até semanas. em seguida, uma foto foi anexada. o1 diagnosticou um caso depois de mais de dez segundos de reflexão. o que noam brown quis dizer,um longo tempo de inferência significa que o modelo pode construir cadeias de pensamento mais longas e conduzir um pensamento mais profundo.

em segundo lugar, o1 rompe o calcanhar de aquiles dos grandes modelos de linguagem anteriores, a matemática.

aime, o american mathematics invitational examination, é mais simples que a olimpíada e muito mais difícil que o sat. geralmente é usado para selecionar os melhores alunos do ensino médio em matemática nos estados unidos. quando gpt4-o foi solicitado a escrever as perguntas para a competição por convite, ele marcou apenas 12 pontos, mas o1 respondeu às perguntas de uma só vez e marcou 74 pontos. se você amostrar 1.000 vezes e depois reordenar as 1.000 amostras com a função de pontuação (isso refletirá melhor o nível esperado do modelo), o1 marcou 93 pontos e pode estar entre os 500 melhores nos estados unidos e pode ser selecionado para o american olimpíada de matemática.

comparando o desempenho de o1 e gpt-4o, o progresso matemático é muito grande|openai

deixe o1 escrever perguntas para a olimpíada internacional de informática (ioi) de 2024. ele marcou 213 pontos em 10 horas, sendo possível enviar cada pergunta até 50 vezes, classificando-se entre os 49% melhores jogadores humanos.se o número de inscrições aumentar para 10.000, o1 poderá marcar 362,14 pontos, obter a medalha de ouro do ioi e ser recomendado à universidade de tsinghua.

no teste real, foi usada uma versão ajustada do o1, não a versão prospectiva que podemos usar do openai |

além disso, existem muitos testes que não estão disponíveis. por exemplo, no gpqa (um teste de inteligência que combina física, química e biologia), o1 superou doutores em áreas afins em algumas questões.

resumidamente,a involução em um campo já forte não é mais o objetivo do o1. é alcançar avanços em lógicas complexas nas quais os grandes modelos de linguagem não são bons.

um passo para trás, dois passos para frente

como mencionado acima, a velocidade de reação do o1 diminuiu.

leva mais tempo para pensar antes de reagir, depois refina o processo de pensamento, tenta estratégias diferentes e aprende com seus erros. isso é assustador.

além disso, o1 não é um modelo multimodal agora, a openai passou dois anos tornando o modelo grande capaz de ver e ouvir. agora ele voltou à sua natureza original e o1 só pode aceitar entrada de caracteres.

mais lento e monótono, para o1,é um passo para trás e dois passos para frente. pessoas que já usaram o1 dizem que o1 é o modelo mais inteligente que já usaram, e as conversas com ele foram além das brigas mesquinhas anteriores.

em um teste, o usuário fez uma pergunta de paradoxo lógico: "quantas palavras existem na resposta a esta pergunta?"

o1 pensou por dez segundos e mostrou seu processo de pensamento. em primeiro lugar, pensou que se tratava de um paradoxo auto-referencial, ou de uma questão recursiva. quando a resposta não é determinada, o número de palavras na resposta não pode ser determinado.“evitar expressões desnecessárias é importante para respostas claras e concisas”. o próximo passo é contar as palavras, onde os números que aparecem na frase precisam corresponder ao número de palavras da frase. em seguida, listou muitas frases e encontrou a opção de correspondência mais adequada. descobriu que "isto tem cinco palavras" tem cinco palavras, portanto, depois de alterar a estrutura da frase para uma resposta completa, cinco devem ser substituídos por sete.

então respondeu: “há sete palavras na resposta”.

este processo de raciocínio não é muito diferente do meu processo de raciocínio|x

em outro exemplo, o1 levou 5,6 segundos e 631 tokens para responder à pergunta simples “quantos r’s existem em straberry?”

pelo exemplo acima, pode-se ver queo método de trabalho do o1 é fundamentalmente diferente do chatgpt.agora o1 adicionou tokens de raciocínio, que dividirão uma pergunta em várias etapas, pensarão nelas separadamente e, em seguida, removerão os tokens de raciocínio para gerar respostas.

a figura abaixo mostra como funciona a cadeia de ideias, o que também explica por que a velocidade de resposta do o1 ficou mais lenta.

ao usar o1, você também pode usar alguns problemas lógicos clássicos e problemas matemáticos para testar sua capacidade.

talvez, ao responder perguntas simples, a diferença entre realizar múltiplas rodadas de raciocínio não seja óbvia, mas se for usado para resolver problemas complexos na escrita de código, na resolução de problemas matemáticos e nas ciências, esse tipo de capacidade de raciocínio é essencial.

a openai disse no artigo que agora a equipe médica pode usar o1 para anotar dados de sequenciamento celular, os físicos podem usar o1 para gerar as fórmulas matemáticas complexas necessárias para a óptica quântica e os desenvolvedores em vários campos podem usar o1 para construir e realizar trabalhos em várias etapas. . processo.

além do mais,este é o protótipo de um modo de pensar e a forma inicial de sabedoria.

novos modelos, novos hábitos

como a forma como o1 funciona é diferente do chatgpt, os tutoriais que vi antes que ensinam como escrever prompts não são mais aplicáveis ​​- na situação atual, muitas descrições consumirão apenas uma grande quantidade de tokens, mas não necessariamente os obterão . melhores resultados.

para deixar isso claro para todos os usuários, a openai escreveu novas diretrizes de tokens. no guia, openai explica que os melhores prompts em o1 são diretos e concisos. instruir o modelo para fazer isso passo a passo ou fornecer vários prompts dispersos pode ser contraproducente. aqui estão algumas recomendações oficiais:

as solicitações devem ser simples e diretas. os modelos respondem melhor a instruções breves e claras que não exigem muita orientação.

evite cadeias de pensamentos nas instruções. o1 faz seu próprio raciocínio interno, portanto, guiá-lo passo a passo e explicar seu caminho de pensamento é inútil.

é melhor usar delimitadores para melhorar a clareza. use delimitadores como "", <> e § para distinguir claramente diferentes partes dos prompts para ajudar o modelo a processar problemas em lotes.

limite a recuperação de contexto adicional na geração aprimorada. forneça apenas as informações mais relevantes para evitar pensar demais no modelo.

quando vi o terceiro artigo, me senti um pouco familiarizado com esse formato. é provável que os futuros programadores utilizem a programação em linguagem natural. as instruções básicas ainda são as mesmas, mas tornaram-se vernáculas. seguindo as diretrizes mais recentes, um bom prompt seria assim:

ou algo assim:

§ anfitrião § escritor § dono de bar § pintor de óleo § marroquino § ourives § cantor § pandeiro § mochileiro § bochecha esquerda dourada § cavaleiro francês § discípulo zen §

deixe o modelo fazer o resto.

dê-me um minuto para fazer uma cobra 3d

há uma razão para usar a cobra como exemplo. menos de um dia após o lançamento do o1, as pessoas fizeram muitas tentativas com ele, incluindo o 3d snake.

@ammaar reshi no x usou instruções extremamente simples para escrever uma cobra 3d em apenas um minuto, e o1 também o ensinou como usar o código.

você aprendeu a escrever prompts? |@ammaar reshi

embora o efeito seja um pouco grosseiro, ninguém pode dizer que não é uma cobra gananciosa.

e é muito divertido|@ammaar reshi

o internauta @james wade usou o1 para fazer um aplicativo de análise de dados que pode exibir uma breve descrição e um exemplo de cada distribuição. demorou apenas 15 minutos, incluindo o tempo de implantação. ele disse: nunca pensei em fazer algo assim antes. foi muito problemático antes.

o efeito é mostrado na imagem|@james wade

outro engenheiro full-stack @dallas lones, que trabalha há 16 anos, disse emocionado depois de fazer um aplicativo de desenvolvimento full-stack react native em poucos minutos,não comecei um negócio o mais rápido possível, mas agora esse ofício se tornou a lágrima dos tempos.ele disse:"a programação como profissão termina oficialmente hoje."

tem mais gente desafiando os limites do o1, e algumas pessoas já estão jogando“vamos ver qual pergunta é mais difícil e pode fazer o o1 pensar por mais tempo.”jogo.

atualmente, o1 está aberto primeiro para usuários chatgpt plus e team, enquanto o acesso à api será aberto primeiro para usuários de nível 5 que gastam mais de us$ 1.000 na api openai. na próxima etapa, a openai abrirá gradualmente a versão discreta do o1-mini para usuários gratuitos.

será este o pôr do sol da humanidade?