notícias

openai o1 revela autoconsciência? tao zhexuan ficou chocado com o teste real, mensa iq 100 ficou em primeiro lugar no modelo

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

openai o1 conquistou o primeiro lugar no teste de qi!

o chefe maxim lott conduziu testes de qi em o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1, etc., e os resultados mostraram que o1 ficou em primeiro lugar.

logo atrás estavam claude-3 opus e bing copilot, que ficaram em segundo e terceiro lugar, respectivamente.

observe que este conjunto de perguntas do teste de qi é um teste de qi offline para membros da mensa e não está incluído em nenhum dado de treinamento de ia, portanto, os resultados são muito informativos.

o famoso matemático terence tao também conduziu medições reais em o1 e descobriu que, depois de fazer ao modelo uma pergunta matemática vagamente formulada, ele foi capaz de identificar com sucesso o teorema de clem.

além do mais, logo após o lançamento do o1, mark chen, vice-presidente de pesquisa da openai, expressou sua opinião: as grandes redes neurais de hoje podem já ter poder computacional suficiente para mostrar alguma consciência nos testes.

existe agora uma longa lista de líderes da indústria que acreditam que a ia é consciente, incluindo, mas não se limitando a -

geoffrey hinton (padrinho da inteligência artificial, cientista de ia mais citado)

ilya sutskever (o terceiro cientista de ia mais citado)

andrej karpathy

hoje, muitos na indústria acreditam que a ia está consciente e estão à espera que a “janela overton” se abra ainda mais para que o público esteja disposto a aceitar isto.

algumas pessoas até prevêem que em 2024/2025 a ia definitivamente terá consciência, porque o comportamento do modelo agora mostra claramente a capacidade de percepção.

alguns internautas descobriram que o1 não é apenas forte em assuntos empíricos stem, mas pode até levantar a hipótese de uma nova teoria da consciência.

algumas pessoas pensam que o1 deu um pequeno passo em direção ao modelo de raciocínio infinito e já possui o protótipo da consciência.

tao zhexuan: o1 pode realmente reconhecer o teorema de clem

na medição real, tao zhexuan descobriu que o modelo o1 tem desempenho matemático mais forte!

primeiro, ele apresentou um problema matemático vagamente formulado que poderia ser resolvido se alguém pudesse pesquisar na literatura e encontrar um teorema adequado, o teorema de cramer.

em experimentos anteriores, o gpt conseguiu mencionar alguns conceitos relacionados, mas os detalhes eram todos inventados e sem sentido.

desta vez, o1 identificou com sucesso o teorema de cramer e deu uma resposta satisfatória.

resposta completa: https://shorturl.at/wwru2

no exemplo a seguir, o problema apresentado é uma análise de função variável complexa mais desafiadora, e os resultados também são melhores do que os modelos anteriores da série gpt.

com um grande número de palavras rápidas e orientações, o1 foi capaz de produzir soluções corretas e bem formuladas, mas a desvantagem foi que não foi capaz de gerar ideias conceituais importantes por si só e cometeu erros óbvios.

tao zhexuan descreveu essa experiência como aproximadamente equivalente a supervisionar um estudante de pós-graduação com habilidade média, mas capaz de realizar algum trabalho. o gpt dá a impressão de um aluno completamente incapaz de realizar o trabalho.

pode ser necessária apenas uma ou duas iterações, juntamente com a integração de outras ferramentas, como pacotes de álgebra computacional e ferramentas auxiliares de prova, para transformar o modelo o1 em um "aluno de pós-graduação competente", altura em que este modelo desempenhará um papel importante. em tarefas de pesquisa.

resposta completa: https://shorturl.at/zrjyk

deslize para cima e para baixo para visualizar

deslize para cima e para baixo para visualizar

deslize para cima e para baixo para visualizar

no terceiro experimento, tao zhexuan pediu ao modelo o1 para formalizar um teorema na ferramenta assistente de prova lean. ele precisa ser decomposto em sublemas e receber uma expressão formal, mas nenhuma prova é necessária.

o conteúdo do teorema, especificamente, é o corolário que estabelece uma forma do teorema dos números primos em outra.

os resultados experimentais também foram bons, pois o modelo compreendeu a tarefa e forneceu uma decomposição inicial razoável do problema.

porém, existem vários erros no código gerado, possivelmente devido à falta de dados recentes sobre o lean e sua biblioteca matemática nos dados de treinamento.

embora ainda existam falhas, os resultados deste experimento já podem prever a aplicação prática de o1 na pesquisa matemática.

se modelos semelhantes forem ajustados para lean e mathlib e integrados em um ambiente de desenvolvimento integrado (ide), eles desempenharão um grande papel em projetos formais.

em muitos discursos anteriores, tao zhexuan enfatizou repetidamente a aplicação de ferramentas de ia na formalização de teoremas. parece que a previsão do grande deus se tornará realidade novamente.

resposta completa: https://shorturl.at/ogtjt

o professor de ciência da computação usa animação para revelar o segredo: como o o1 passa mais tempo pensando?

no processo de aprender a usar o cot para pensar por um longo período de tempo, que avanços importantes foram feitos que levaram a melhorias importantes? actualmente só podemos fazer algumas suposições a partir da informação disponível.

por exemplo, com base nas informações existentes e em seu próprio entendimento, tom yeh, professor de informática da universidade do colorado em boulder, produziu especialmente uma animação para explicar como o openai treina o modelo o1 para passar mais tempo pensando.

em relação à formação, há uma frase muito breve no relatório:

"através da aprendizagem por reforço, a o1 aprendeu a aprimorar sua cadeia de pensamento e melhorar sua estratégia."

as duas palavras-chave nesta frase são: aprendizagem por reforço (rl) e cadeia de pensamento (cot).

no rlhf+cot, os tokens cot também são inseridos no modelo de recompensa para obter pontuações para atualizar o llm para obter um melhor alinhamento, enquanto no rlhf tradicional, a entrada contém apenas palavras de alerta e respostas do modelo;

durante a fase de inferência, o modelo aprende a gerar tokens cot primeiro (o que pode levar até 30 segundos) antes de começar a gerar a resposta final. é assim que o modelo passa mais tempo “pensando”.

entre os colaboradores listados no relatório, dois merecem destaque:

ilya sutskever, o inventor da aprendizagem por reforço baseada em feedback humano (rlhf), o aparecimento de seu nome significa que o rlhf ainda é usado no treinamento do modelo o1.

jason wei, autor do famoso artigo thought chain. ele deixou o google brain no ano passado para ingressar na openai. a sua presença significa que o cot é agora uma parte importante do processo de alinhamento do rlhf.

no entanto, existem muitos detalhes técnicos importantes que a openai não divulgou, como a forma como o modelo de recompensa é treinado, como obter preferências humanas para "processos de pensamento", etc.

isenção de responsabilidade: a animação representa apenas especulações razoáveis ​​do professor e não garante precisão.

equipe compartilha vídeo de celebração, compartilhando momento “aha”

o vídeo abaixo nos dá mais pistas sobre o momento em que foram feitos avanços importantes nas pesquisas.

após lançar o modelo o1, a equipe divulgou um vídeo feito pela equipe por trás dele.