notícias

a equipe o1 medalha de ouro revela o momento incrível em que a ia supera os humanos! a versão completa do vídeo de 22 minutos já está aberta ao público

2024-09-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

novo relatório de sabedoria

editor: tao zi qiao yang

[introdução à nova sabedoria】o nascimento do o1 é o momento mais revolucionário para a equipe openai. no vídeo completo da entrevista de 22 minutos, eles compartilharam suas idéias sobre o novo modelo e a história de desenvolvimento por trás dele.

o vídeo completo da entrevista com a equipe openai o1 está finalmente online!

durante 22 minutos, a equipe de p&d da o1, organizada pelo projeto bob mcgrew, compartilhou um momento “aha” juntos.

algumas pessoas mencionaram que o novo modelo o1 equivale à “fusão” de vários médicos e muitas vezes tem desempenho melhor que o humano. algumas pessoas disseram que após o lançamento do o1 sentiram claramente a chegada do agi.

“quando os modelos superam os humanos em áreas como matemática, codificação, go e xadrez, o futuro da agi se torna mais claro.”

nathan lambert, cientista do instituto allen, fez um resumo dos destaques deste vídeo.

são 8 pontos no total:

1 o1 com aprendizagem por reforço é melhor do que humanos na descoberta de novas etapas de raciocínio cot

2 o surgimento da autocrítica é o momento mais poderoso de o1

3 deixe o1 terminar a resposta antes do "tempo limite" e, de repente, tenha o momento "aha"

4. o desafio de dimensionar tamanhos de parâmetros e continuar no caminho do avanço dos algoritmos de aprendizagem por reforço

5 muitas pessoas mencionaram a importância da infraestrutura em comparação aos algoritmos

6 através do planejamento e correção de erros, o1 pode resolver novos problemas no mundo

7 o novo paradigma de treinamento é uma abordagem completamente nova que coloca mais poder computacional no modelo

8 o1ao escrever código, quando ele gera o código a ser usado, ele precisa passar no teste de unidade

a seguir, vamos dar uma olhada mais de perto na história por trás do modelo o1.

aprendizagem por reforço + pensamento, o1 abre um novo paradigma

como uma nova série de openai, a maior diferença entre o modelo o1 e gpt está na inferência.

em essência, é um modelo de raciocínio, o que significa que “pensará” mais do que antes.

segundo os pesquisadores da openai, “pensar” é a forma mais intuitiva de raciocinar.

às vezes, quando nos perguntam qual é a capital da itália, podemos encontrar a resposta quase imediatamente, sem sequer pensar. mas às vezes, quando se trata de planos de negócios, escrita de romances, etc., é necessário um longo processo de reflexão.

escusado será dizer que quanto mais você pensar sobre isso, melhores serão os resultados.

portanto, o raciocínio é a capacidade de converter o tempo de reflexão em resultados ótimos.

nas palavras de mark chen, o raciocínio é “primitivo” e a única maneira de alcançar qualquer processo de pensamento confiável.

em relação à pesquisa de inferência, a openai começou muito cedo. nos primeiros dias de sua criação, eles viram o potencial do alphago para derrotar humanos por meio de algoritmos rl e conduziram muitas pesquisas.

por exemplo, eles abriram a plataforma de testes de jogos "universe" em 2016, que é uma plataforma de código aberto para treinar o nível geral de inteligência da ia.

em 2018, foi criado um jogo ai chamado openai five, que derrotou com sucesso a equipe og campeã mundial no duas vezes dota2 international invitational tournament.

ao mesmo tempo, foram feitos progressos significativos nas áreas de dados e robótica.

a equipe openai começou a pensar: como implementar o aprendizado por reforço em campos gerais e alcançar uma ia muito poderosa?

ou seja, o novo paradigma inaugurado pela série gpt. ele alcançou resultados surpreendentes no dimensionamento da aprendizagem não supervisionada.

e, desde então, os investigadores começaram a explorar como combinar estes dois paradigmas – aprendizagem por reforço e aprendizagem não supervisionada.

é difícil dizer exatamente quando o esforço começou, mas já está em andamento há muito tempo, disseram os pesquisadores.

momento "ah"

no vídeo, alguém disse que achou o mais legal da pesquisa foi o momento “aha”.

a certa altura, ocorreu um avanço inesperado na pesquisa e tudo de repente ficou claro, como uma epifania.

então, que tipo de momentos “aha” os membros da equipe vivenciaram?

alguém disse que sentiu que houve um momento crítico no processo de treinamento do modelo, que foi quando eles investiram mais poder computacional do que antes e geraram um cot muito coerente pela primeira vez.

neste momento todos ficaram agradavelmente surpreendidos: era óbvio que este modelo era significativamente diferente do anterior.

outros disseram que, ao considerar o treinamento de um modelo com capacidade de raciocínio, a primeira coisa que vem à mente é permitir que os humanos registrem seus processos de pensamento e treinem de acordo.

para ele, o momento decisivo foi quando descobriu que treinar um modelo por meio de aprendizagem por reforço para gerar e otimizar o cot era ainda melhor do que o cot escrito por humanos.

este momento mostra que podemos ampliar e explorar as capacidades de raciocínio do modelo desta forma.

este pesquisador disse que tem trabalhado muito para melhorar a capacidade do modelo de resolver problemas matemáticos.

para sua frustração, o modelo nunca parecia questionar o que havia feito de errado sempre que gerava um resultado.

no entanto, ao treinar um dos primeiros modelos o1, eles ficaram surpresos ao descobrir que a pontuação do modelo no teste de matemática melhorou repentinamente de forma significativa.

além disso, os pesquisadores podem ver o processo de pesquisa do modelo – ele começa a refletir sobre si mesmo e a se questionar.

ele exclamou: finalmente fizemos algo diferente!

esse sentimento era extremamente forte e, naquele momento, tudo parecia se encaixar.

outro pesquisador disse que quando você pede ao modelo para completar seu pensamento antes do “tempo limite”, o processo é muito interessante.

é como participar de uma competição de matemática. qualquer pensamento é limitado no tempo.

ele disse que esse também foi o principal motivo pelo qual entrou no campo da ia, e agora, para ele, pode ser considerado um momento de “ciclo fechado”.

além disso, o que é surpreendente no modelo o1 é que ele é de grande ajuda na promoção da descoberta científica e do progresso da engenharia.

para muitas pessoas, a agi parece ser um conceito muito abstrato e rebuscado. até que vejam a ia fazendo coisas nas quais os humanos são bons, elas não conseguem acreditar na chegada da agi.

para jogadores profissionais de xadrez e go, o deep blue da ibm, assim como o deepmind alphago e alphazero, os fizeram perceber isso há alguns anos.

para o grupo de cientistas da openai que são bons em matemática e codificação, o modelo o1 tem um significado semelhante. o que é ainda mais interessante é que o trabalho deles equivale à criação de uma ia que pode sobrecarregar suas próprias habilidades.

que dificuldades você encontrou durante o projeto?

em relação aos obstáculos encontrados no processo, os pesquisadores afirmaram diretamente que a formação de llm é fundamentalmente muito difícil.

semelhante ao lançamento de um foguete da terra à lua, existe apenas um caminho estreito para o sucesso, mas existem inúmeros caminhos para o fracasso. se você se desviar, mesmo que ligeiramente, de um ângulo, não será capaz de alcançar a meta.

existem milhares de maneiras pelas quais o processo de treinamento pode dar errado e, mesmo nas mãos desse talentoso grupo de cientistas pesquisadores, centenas de problemas foram encontrados a cada rodada de treinamento.

além disso, à medida que os modelos se tornam cada vez mais inteligentes, como o o1, que equivale a humanos com vários graus de doutoramento, a avaliação torna-se cada vez mais difícil.

às vezes, eles levam muito tempo para determinar se o modelo está fazendo a coisa certa e, eventualmente, muitos benchmarks comumente usados ​​no setor ficam saturados e eles precisam reencontrar benchmarks adequados para as capacidades do o1.

além do processo de desenvolvimento do modelo, os pesquisadores também foram questionados sobre seus casos de uso favoritos para o modelo o1.

hyung won chung disse que o1 pode ser um bom assistente de codificação.

ele geralmente segue o método de desenvolvimento tdd (test-driven development) ao trabalhar. com a ajuda de o1, ele pode evitar escrever testes unitários. em vez disso, ele pode especificar diretamente os requisitos e deixar o modelo ser escrito automaticamente.

além disso, a mensagem de erro encontrada também pode ser lançada diretamente para o1. embora às vezes não consiga resolver o problema diretamente, ele pode fazer uma pergunta melhor do que o compilador e ajudá-lo a resolver o erro.

jason wei disse que costuma usar o1 como parceiro de brainstorming, e a gama de questões que podem ser discutidas é bastante ampla, desde como resolver um problema de aprendizado de máquina até como redigir um blog ou tweet.

um blog que ele escreveu em maio deste ano sobre a avaliação do llm baseou-se nas opiniões de o1, como a estrutura do artigo, as vantagens e desvantagens de vários parâmetros de avaliação e o estilo de redação.

como é trabalhar na openai?

sobre esse assunto, muita gente falou sobre a inteligência de todos e a harmonia do clima de equipe.

por exemplo, eu estava depurando um código por uma semana e um colega que passava resolveu o problema instantaneamente; passar tempo com colegas extremamente inteligentes todos os dias gradualmente me tornou humilde;

mark chen descreveu o projeto “morango” como um projeto muito “orgânico”, porque cada um tem suas próprias opiniões e opiniões sobre questões profissionais, e todos têm ideias que desejam promover com entusiasmo.

quando essas ideias se juntam, faíscas explodirão e se transformarão em bolas de neve.

porém, o outro lado de ser assertivo é que cada um insiste na sua opinião, mas não é teimoso. eles também mudarão de ideia se virem resultados objetivos que refutem suas afirmações.

o que é ainda mais louvável é que esse grupo de pessoas extremamente inteligentes também é muito gentil e disposto a ajudar os outros a resolver problemas. os colegas comem juntos e saem juntos. muitos pesquisadores na entrevista disseram sem rodeios: “trabalhar aqui é muito agradável”. experiência".

a história por trás do o1-mini

a motivação para o lançamento do o1-mini é fornecer a mais pesquisadores modelos com orçamentos mais baixos, mas que ainda tenham fortes capacidades de inferência.

ele pode ser chamado de “especialista em raciocínio” e é mais inteligente do que o melhor modelo openai do passado.

além disso, o custo e a latência são muito baixos.

talvez não conheça necessariamente uma pessoa famosa pela data de nascimento, mas ela tem a capacidade de raciocinar com eficácia e muita sabedoria.

os pesquisadores da openai disseram que irão melhorar ainda mais o algoritmo para torná-lo comparável aos melhores modelos pequenos.

além disso, pesquisadores de todo o mundo têm investido em mais computação e hardware, fazendo com que os custos dos modelos caiam exponencialmente durante um longo período de tempo.

uma falha, porém, é que não gastamos mais tempo procurando uma nova maneira de mudar as coisas.

o novo paradigma de o1 é o nosso escalonamento de inferência de descoberta, que também pode otimizar a eficiência do poder de computação.

o que o motiva a fazer pesquisa?

qual é a razão pela qual este grupo de “cérebros inteligentes” pode se unir para inspirá-los a fazer pesquisas?

um pesquisador disse que era fascinante pensar nas diferentes maneiras pelas quais ele poderia usar seu modelo para fazer inferências.

outros disseram: “todas as coisas boas surgem em tempos difíceis”.

o fato de o1 poder responder tão rapidamente é o primeiro passo em direção a um modelo que pode pensar nas questões por muito tempo. no futuro, serão necessários meses ou até anos de pesquisa para avançar para a próxima jornada.

“é muito emocionante e significativo pensar que um pequeno número de nós pode ter um impacto que mude o mundo.”

o mais fascinante é que o novo paradigma desbloqueia tarefas que o modelo não conseguia realizar antes. não se trata apenas de responder a certas dúvidas, mas de generalizar novas capacidades através do planejamento, corrigindo erros.

mais ainda, o1 pode gerar novos conhecimentos, que é a parte mais emocionante da descoberta científica.

os investigadores dizem que num curto período de tempo, o modelo se tornará um contribuidor cada vez mais poderoso para o seu próprio desenvolvimento.

finalmente, quando o responsável pelo o1 perguntou: “há alguma outra observação que valha a pena mencionar?”

jason wei compartilhou: "uma observação interessante é que cada modelo treinado é um pouco diferente e tem suas peculiaridades, como um artefato. essa singularidade adiciona um toque de personalidade a cada modelo."

a versão completa do vídeo é a seguinte: