Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
O vento oeste de Jin Lei se origina do Templo Aofei
Qubits | Conta pública QbitAI
Depois de Devin, outroEngenheiro de software de IAA tela foi deslizada——
é chamadoGênio, conhecida como correnteO mais forte na superfície, já consegue pensar e agir como humanos!
Então, quão forte é esse “mais forte na superfície”?
Vamos dar uma olhada primeiroPontuação da revisão。
Na lista oficial SWE-Bench, Genie resolveu30.07%A pontuação da pergunta liderou a lista.
(SWE-Bench é um benchmark usado para avaliar grandes modelos para resolver problemas de software do mundo real.)
Pode-se dizer que esse resultado está muito à frente do segundo colocado em 19,27%, desbloqueandoO maior aumento na melhoria do SOTA - 57%!
Quanto ao GenieEfeito real, nas palavras da equipe:
Ele pode resolver problemas de software da vida real, assim como os engenheiros humanos.
Em primeiro lugar, você pode usar 4 maneiras de iniciar o Genie, ou seja, palavras de prompt, problema do GitHub, ticket linear ou API.
Tomando como exemplo a solução de problemas do GitHub, primeiro forneça ao Genie um link para o repositório e ele começaráResolver problemas automaticamentePegou:
Clube dos GêniosPensamento iterativo automáticoSe quiser resolver este problema, de quais arquivos ele precisa até sentir que encontrou um com o qual está satisfeito:
Imediatamente depois, ele fará umAnálise iterativa automáticaO processo:
Então Genie começou a "swish, swish, swish"Escrever + executar código automaticamentePegou:
Se ocorrer um bug durante a execução do código, o Genie se concentrará apenas na área do problema e repetirá o processo de análise, gravação do código e execução até que ele seja concluído.
Todo o processo leva apenas tempo84 segundos!
Nas palavras da equipe:
Genie observou e aprendeu milhões de vezes como programadores humanos resolvem problemas de software.
Este é um número que nenhum programador humano pode alcançar durante a vida.
Mas o que é ainda mais inesperado é a equipe por trás do Genie——Cosseno, apenas 5 pessoas。
E o CEO Alistair também postou uma mensagem agradecendo à OpenAI:
Não poderíamos fazer Genie sem você.
Então, como a equipe Cosine construiu o Genie?
A principal característica do Genie é a capacidade de imitar os processos cognitivos, a lógica e o fluxo de trabalho dos engenheiros humanos.
Para fazer isso, a equipe do Genie revelou que coletou um conjunto de dados contendo as atividades de desenvolvimento de programadores humanos reais durante o ano passado.
Ele não usa apenas análise de resultados, análise estática, reprodução automática, verificação passo a passo e outros métodos, mas também usa modelos de IA treinados com base em uma grande quantidade de dados rotulados. A vantagem é que, à medida que as capacidades dos modelos subjacentes melhoram, também melhora a qualidade dos dados que eles podem extrair.
Finalmente GênioUse esses dados proprietários para treinamento。
O processo completo de raciocínio humano está codificado no conjunto de dados, incluindo rastreamento perfeito de informações, descoberta incremental de conhecimento e processo de tomada de decisão passo a passo com base em casos reais de trabalho de engenheiros de software.
O processo de raciocínio do Genie incluiPlanejamento, recuperação, escrita e execução de códigoAs quatro etapas principais rompem as limitações de outros engenheiros de IA que dependem da adição de ferramentas adicionais, como navegadores da web e interpretadores de código, além do modelo básico, e podem lidar com problemas diversos, altamente situacionais e sem precedentes, como os humanos.
Este método de treinamento fez com que os internautas pensassem imediatamente em ideias semelhantes que Karpathy havia apresentado antes:
Para o LLM, os dados de treinamento ideais não são o conteúdo que você escreve, mas todo o seu processo de pensamento e cada ação de edição durante o processo de escrita. No entanto, só podemos fazer o melhor que podemos com os recursos que temos.
Além disso, o treinamento Genie também apresentamecanismo de autoaperfeiçoamento。
Os dados de treinamento inicial são, em sua maioria, código livre de erros que pode ser executado normalmente, tornando difícil para o Genie lidar com situações de erro. Para resolver esse problema, a equipe usou a primeira versão do Genie para gerar dados sintéticos contendo erros e, em seguida, usou esses dados para treinar a próxima versão do modelo.
Especificamente, a versão antiga do Genie é usada para propor uma solução e, se a solução estiver errada, o estado final dominado da tarefa é usado para ensiná-la a atingir o estado correto a partir do estado atual.
Ao repetir esse processo, a solução inicial proposta pelo Genie torna-se gradativamente mais precisa, dando diretamente a resposta correta na maioria dos casos e, mesmo que cometa um erro, requer apenas menos correções no conjunto de dados.
Outra chave para melhorar as capacidades do Genie está no grande suporte ao modelo fornecido pelo OpenAI.
A equipe afirmou que quando desenvolveu o Genie pela primeira vez, eles só puderam acessar modelos de contexto curtos na faixa de 16 a 32k para ajuste fino. Eles usaram esses modelos para muitos desenvolvimentos iniciais e usaram mais de 100 milhões de dados de token para treinar o. modelos. Embora tenham descoberto que a arquitetura projetada tinha certas vantagens, eles são fundamentalmente limitados pela quantidade de informações que o modelo pode processar em um determinado período de tempo.
Depois de tentar vários métodos de compressão/chunking, a única solução foi usar um modelo com um contexto maior.
OpenAI fornece suporte a modelos de contexto longo, e a versão mais recente do Genie foi treinada em bilhões de tokens.
A equipe acredita que, em comparação com o ajuste de hiperparâmetros e o volume de dados, a qualidade dos dados é a chave. Portanto, eles também realizaram muitos experimentos de mistura de dados, incluindo múltiplas dimensões, como linguagem, tipo de tarefa, duração da tarefa, etc. A seguir está a proporção de diferentes dados de linguagem de programação usados para treinar o Genie:
Existem também proporções de dados de diferentes tipos de instâncias:
Como mencionamos acima, a equipe inicial da Cosine conta atualmente com apenas 5 pessoas.
Na introdução do site oficial, eles também se descrevem diretamente como:
Pequeno, mas poderoso.
Pequeno, mas poderoso.
A julgar pela introdução, alguns dos membros são de empresas unicórnios, alguns têm experiência em gestão de equipes globais e alguns até começaram a programar desde os 8 anos de idade.
Mas quando a Cosine foi criada, havia apenas três pessoas.Entenda o raciocínio humano。
Vale ressaltar que um dos integrantes da equipe é chinês.Yang Li, é cofundador da Cosine e foi listado na Forbes 30 under 30 em 2021.
Além disso, sobre a própria Genie, o CEO Alistair também disse:
Começamos a imaginar o Genie já em 2022, mas não era tecnicamente viável na época.
Somente nos últimos seis meses é que o Genie se tornou uma realidade, à medida que o grande modelo amadurecia gradualmente.
Bem, devo dizer que o grande modelo voltou a dar uma grande contribuição.
Atualmente, o Genie pode se inscrever na lista de espera. Amigos interessados podem clicar no link no final do artigo ~.
Endereço da lista de espera:
https://cosine.sh/register
Links de referência:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/state-of-the-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_