minhas informações de contato
correspondênciaadmin@informação.bz
2024-09-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
mingmin vem do templo aofei
qubits | conta pública qbitai
menos de uma semana após seu lançamento, o fosso do modelo o1 mais forte da openai desapareceu.
alguém descobriu que um artigo publicado pelo google deepmind em agosto revelou o princípio e como o1 funciona.quase unânime。
este estudo mostra que aumentar os cálculos do tempo de teste é mais eficiente do que expandir os parâmetros do modelo.
com base na estratégia de expansão de cálculo do tempo de teste ideal para computação proposta no artigo, o modelo básico menor pode superar um em algumas tarefas.14 vezes maiormodelo.
internautas disseram:
este é quase o princípio de o1.
como todos sabemos, o ultraman gosta de estar à frente do google, então é por isso que a o1 lançou a versão prévia primeiro?
algumas pessoas lamentaram isso:
na verdade, como o próprio google disse, ninguém tem fosso e ninguém jamais terá fosso.
agora mesmo, o openai aumentou a velocidade do o1-mini em 7 vezes e pode usar 50 itens por dia, o1-preview mencionou 50 itens por semana;
o título deste artigo do google deepmind é:ao otimizar os testes llm, o cálculo é mais eficiente do que expandir a escala dos parâmetros do modelo.。
a equipe de pesquisa se estendeu a partir dos padrões de pensamento humano. como as pessoas demoram mais para pensar e melhorar as decisões quando enfrentam problemas complexos, o mesmo pode ser verdade para o llm?
em outras palavras, quando confrontado com uma tarefa complexa, o llm pode utilizar de forma mais eficaz os cálculos adicionais durante os testes para melhorar a precisão.
alguns estudos anteriores demonstraram que esta direção é realmente viável, mas o efeito é relativamente limitado.
portanto, este estudo queria descobrir quanto o desempenho do modelo pode ser melhorado ao usar relativamente poucos cálculos de inferência adicionais.
eles projetaram um conjunto de experimentos para testar o conjunto de dados math usando palm2-s*.
dois métodos são analisados principalmente:
(1) auto-revisão iterativa: deixe o modelo tentar responder a uma pergunta várias vezes, revisando-a após cada tentativa para obter uma resposta melhor.
(2) pesquisa: nesta abordagem, o modelo gera múltiplas respostas candidatas,
pode-se observar que, ao usar o método de auto-revisão, à medida que a quantidade de cálculos durante o teste aumenta, a lacuna entre a estratégia melhor de n padrão (melhor de n) e a estratégia de expansão computacionalmente ideal aumenta gradualmente.
usar o método de busca para calcular a estratégia de expansão ideal mostra vantagens óbvias no estágio inicial. e sob certas circunstâncias, pode alcançar o mesmo efeito que a melhor estratégia n,o valor do cálculo é apenas 1/4 disso。
em uma avaliação correspondente de flops comparável aos cálculos pré-treinamento, um modelo pré-treinado 14x maior (sem inferência adicional) é comparado ao palm 2-s* (usando a estratégia computacionalmente ideal).
verificou-se que ao utilizar o método de auto-revisão, quando os tokens de inferência são muito menores que os tokens de pré-treinamento, o efeito do uso da estratégia de cálculo do tempo de teste é melhor do que o efeito do pré-treinamento. mas à medida que a proporção aumenta, ou em problemas mais difíceis, o pré-treinamento ainda funciona melhor.
ou seja, em ambos os casos, a chave para calcular se o método de extensão é válido de acordo com diferentes testes édica de dificuldade。
o estudo comparou ainda diferentes métodos de busca prm, e os resultados mostraram que a busca direta (extrema direita) requer mais cálculos.
quando a quantidade de cálculo é pequena, usar a estratégia ideal de cálculo pode economizar até 4 vezes mais recursos.
comparando o modelo o1 da openai, este estudo chega quase à mesma conclusão.
o modelo o1 aprende a refinar seu processo de pensamento, experimentar diferentes estratégias e reconhecer seus erros. e com mais aprendizado por reforço (calculado durante o treinamento) e mais tempo de reflexão (calculado durante o teste), o desempenho do o1 continua a melhorar.
no entanto, a openai lançou o modelo mais rapidamente, enquanto o google usa palm2 e não lançou uma atualização para o gemini2.
essas novas descobertas inevitavelmente lembram as pessoas dos pontos de vista apresentados nos documentos internos do google no ano passado:
não temos fosso, nem o openai. o modelo de código aberto pode vencer o chatgpt.
hoje em dia a velocidade de cada pesquisa é muito rápida e ninguém pode garantir que estão sempre à frente.
o único fosso pode ser o hardware.
(então musk vai construir um centro de computação?)
algumas pessoas dizem que a nvidia agora controla diretamente quem tem mais poder computacional. então, o que acontecerá se o google/microsoft desenvolver um chip personalizado que funcione melhor?
vale ressaltar que o primeiro chip da openai foi exposto há algum tempo e usará o processo de nível angstrom a16 mais avançado da tsmc e foi desenvolvido especialmente para aplicações de vídeo sora.
obviamente, para grandes modelos de campos de batalha, apenas rolar o modelo em si não é mais suficiente.
links de referência:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/