o1 exposição repentina a informações privilegiadas? o google revelou o princípio anteriormente. não há fosso para modelos grandes apenas com software.

2024-09-17

mingmin vem do templo aofei
qubits | conta pública qbitai

menos de uma semana após seu lançamento, o fosso do modelo o1 mais forte da openai desapareceu.

alguém descobriu que um artigo publicado pelo google deepmind em agosto revelou o princípio e como o1 funciona.quase unânime。

este estudo mostra que aumentar os cálculos do tempo de teste é mais eficiente do que expandir os parâmetros do modelo.

com base na estratégia de expansão de cálculo do tempo de teste ideal para computação proposta no artigo, o modelo básico menor pode superar um em algumas tarefas.14 vezes maiormodelo.

internautas disseram:

este é quase o princípio de o1.
como todos sabemos, o ultraman gosta de estar à frente do google, então é por isso que a o1 lançou a versão prévia primeiro?

algumas pessoas lamentaram isso:

na verdade, como o próprio google disse, ninguém tem fosso e ninguém jamais terá fosso.

agora mesmo, o openai aumentou a velocidade do o1-mini em 7 vezes e pode usar 50 itens por dia, o1-preview mencionou 50 itens por semana;

economize 4 vezes o valor do cálculo

o título deste artigo do google deepmind é:ao otimizar os testes llm, o cálculo é mais eficiente do que expandir a escala dos parâmetros do modelo.。

a equipe de pesquisa se estendeu a partir dos padrões de pensamento humano. como as pessoas demoram mais para pensar e melhorar as decisões quando enfrentam problemas complexos, o mesmo pode ser verdade para o llm?

em outras palavras, quando confrontado com uma tarefa complexa, o llm pode utilizar de forma mais eficaz os cálculos adicionais durante os testes para melhorar a precisão.

alguns estudos anteriores demonstraram que esta direção é realmente viável, mas o efeito é relativamente limitado.

portanto, este estudo queria descobrir quanto o desempenho do modelo pode ser melhorado ao usar relativamente poucos cálculos de inferência adicionais.

eles projetaram um conjunto de experimentos para testar o conjunto de dados math usando palm2-s*.

dois métodos são analisados principalmente:

(1) auto-revisão iterativa: deixe o modelo tentar responder a uma pergunta várias vezes, revisando-a após cada tentativa para obter uma resposta melhor.
(2) pesquisa: nesta abordagem, o modelo gera múltiplas respostas candidatas,

pode-se observar que, ao usar o método de auto-revisão, à medida que a quantidade de cálculos durante o teste aumenta, a lacuna entre a estratégia melhor de n padrão (melhor de n) e a estratégia de expansão computacionalmente ideal aumenta gradualmente.

usar o método de busca para calcular a estratégia de expansão ideal mostra vantagens óbvias no estágio inicial. e sob certas circunstâncias, pode alcançar o mesmo efeito que a melhor estratégia n,o valor do cálculo é apenas 1/4 disso。

em uma avaliação correspondente de flops comparável aos cálculos pré-treinamento, um modelo pré-treinado 14x maior (sem inferência adicional) é comparado ao palm 2-s* (usando a estratégia computacionalmente ideal).

verificou-se que ao utilizar o método de auto-revisão, quando os tokens de inferência são muito menores que os tokens de pré-treinamento, o efeito do uso da estratégia de cálculo do tempo de teste é melhor do que o efeito do pré-treinamento. mas à medida que a proporção aumenta, ou em problemas mais difíceis, o pré-treinamento ainda funciona melhor.

ou seja, em ambos os casos, a chave para calcular se o método de extensão é válido de acordo com diferentes testes édica de dificuldade。

o estudo comparou ainda diferentes métodos de busca prm, e os resultados mostraram que a busca direta (extrema direita) requer mais cálculos.

quando a quantidade de cálculo é pequena, usar a estratégia ideal de cálculo pode economizar até 4 vezes mais recursos.

comparando o modelo o1 da openai, este estudo chega quase à mesma conclusão.

o modelo o1 aprende a refinar seu processo de pensamento, experimentar diferentes estratégias e reconhecer seus erros. e com mais aprendizado por reforço (calculado durante o treinamento) e mais tempo de reflexão (calculado durante o teste), o desempenho do o1 continua a melhorar.

no entanto, a openai lançou o modelo mais rapidamente, enquanto o google usa palm2 e não lançou uma atualização para o gemini2.

internauta: o fosso é apenas sobre hardware?

essas novas descobertas inevitavelmente lembram as pessoas dos pontos de vista apresentados nos documentos internos do google no ano passado:

não temos fosso, nem o openai. o modelo de código aberto pode vencer o chatgpt.

hoje em dia a velocidade de cada pesquisa é muito rápida e ninguém pode garantir que estão sempre à frente.

o único fosso pode ser o hardware.

(então musk vai construir um centro de computação?)

algumas pessoas dizem que a nvidia agora controla diretamente quem tem mais poder computacional. então, o que acontecerá se o google/microsoft desenvolver um chip personalizado que funcione melhor?

vale ressaltar que o primeiro chip da openai foi exposto há algum tempo e usará o processo de nível angstrom a16 mais avançado da tsmc e foi desenvolvido especialmente para aplicações de vídeo sora.

obviamente, para grandes modelos de campos de batalha, apenas rolar o modelo em si não é mais suficiente.

links de referência:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

notícias

o1 exposição repentina a informações privilegiadas? o google revelou o princípio anteriormente. não há fosso para modelos grandes apenas com software.

economize 4 vezes o valor do cálculo

internauta: o fosso é apenas sobre hardware?

introdução

minhas informações de contato