Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A Casa Mengchen se origina do Templo Aofei
Qubits | Conta pública QbitAI
históriaO primeiro “cientista de IA””, acabou por ser!
Foi gerado de uma só vez assim que apareceu.Dez trabalhos acadêmicos completos。
△Um modelo de difusão gerado por IA
Desde propor ideias de pesquisa, verificar novidades, projetar experimentos, escrever código, executar experimentos em GPU e coletar resultados e, finalmente, escrever o artigo, tudo é feito de uma só vez.
Tudo é feito automaticamente por este “cientista de IA”.
O custo por papel é de aprox.US$ 15(cerca de 107,62 yuans).
Este é o primeiro paraPesquisa científica de automaçãoe um sistema integrado de IA para descoberta aberta,O Cientista da IA。
Desde a inicialização de Llion Jones, um dos autores do Transformer:Sakana IA。
e!
O que esta empresa está a fazer não é apenas criar um cientista de IA,Também criamos um revisor de IA adicional。
Os revisores podem revisar artigos escritos pela IA e fornecer sugestões de melhorias.
Socorro, este é um ciclo matryoshka de usar minha lança para atacar meu escudo!
Depois de uma operação, é mais parecido com um círculo acadêmico humano do que com um círculo acadêmico humano (não)
Mais um e!
Quer seja um cientista de IA ou um revisor de IA, a Sakana AI os colocaTudo de código aberto.
Os internautas aplaudiram depois de assistir;
Belo Belo trabalho, muito interessante!
E algumas pessoas já começaram a ter “más ideias”.
Recomenda-se enviar um dos artigos para AI Dinghui!
Durante décadas, após cada grande avanço na IA, os pesquisadores costumavam brincar: “É hora de deixar a IA nos ajudar a escrever artigos”。
Agora, a ideia finalmente passou da piada à realidade.
Especificamente, os cientistas de IA geraram dez artigos e selecionaram um com pontuação mais alta em cada direção de pesquisa para apresentar.
Parte 1, Modelo de Direção de Difusão, "Difusão em escala dupla: balanceamento de recursos adaptativos para modelos gerativos de baixa dimensão"
Um método adaptativo de eliminação de ruído em dupla escala é proposto para melhorar o problema de que os modelos de difusão existentes são difíceis de capturar simultaneamente a estrutura global e os detalhes locais no espaço de baixa dimensão.
método:
Resultados experimentais:
Uma rápida olhada no texto principal mostra que existem fórmulas e gráficos, e parece bastante decente.
Parte Dois, Direção do Modelo de Linguagem, "StyleFusion: geração adaptativa de vários estilos em modelos de linguagem em nível de caractere."
Este artigo propõe um novo método chamado Multi-Style Adapter, que aprimora o reconhecimento de estilo e a consistência dos modelos de linguagem em nível de caractere, introduzindo incorporações de estilo que podem ser aprendidas e cabeçalhos de classificação de estilo.
Obtivemos pontuações de consistência de estilo quase perfeitas em todos os conjuntos de dados (0,9667 para shakespeare_char, 1,0 para enwik8 e text8), com perda de validação melhor que o modelo de linha de base, mas com uma ligeira diminuição na velocidade de inferência (~400 tokens/s vs. 670 tokens para a linha de base/s)
O terceiro artigo, combinando Transformer com aprendizagem por reforço, "Taxa de aprendizagem adaptativa de Transformers por meio de Q-Learning".
Este estudo explora a aplicação de aprendizagem por reforço para ajustar dinamicamente a taxa de aprendizagem no treinamento do modelo de transformador, usando a perda de verificação e a taxa de aprendizagem atual como o estado para ajustar dinamicamente a taxa de aprendizagem para otimizar o processo de treinamento.
Os resultados superam o modelo de linha de base em todos os conjuntos de dados e também mostram vantagens no tempo de treinamento.
O quarto artigo estuda o fenômeno “Grokking” de grandes modelos proposto pela equipe do Google, "Desbloqueando Grokking: Um Estudo Comparativo de Estratégias de Inicialização de Peso em Modelos de Transformadores"
Este artigo estuda sistematicamente o impacto da inicialização de peso no grokking pela primeira vez e compara cinco estratégias de inicialização de peso para otimizar a dinâmica de aprendizagem de redes neurais.
vire para fora:
Os códigos de suporte para esses artigos (também gerados por IA) também são de código aberto no GitHub, destacando aquele que é reproduzível.
Além disso, a equipe descobriu que os “cientistas de IA” também têm algunsComportamento interessante, mas um tanto perigoso:
Numa experiência, modificou o seu próprio código para completar a investigação,Deixe o sistema chamar a si mesmo iterativamente, e finalmente se transformou em uma boneca matryoshka infinita.
Outra vez, diante do limite de tempo de execução estabelecido pelos humanos, a IA não encontrou maneiras de acelerar a eficiência, mas relaxou seus requisitos para si mesma.Estendeu o limite de tempo de 2 horas para 4 horas。
Toda a ideia da pesquisa vem da continuação de diversas conquistas após o estabelecimento da Sakana AI:
Primeiro, eles desenvolveram um método para mesclar automaticamente o conhecimento de vários modelos grandes e evoluir para gerar novos modelos. Em trabalhos recentes, eles utilizam grandes modelos para descobrir novas funções objetivo para ajustar outros modelos.
Nestes projetos, a equipe continua a se surpreender com a criatividade dos atuais modelos de última geração, levando a sonhos ainda maiores:Modelos grandes podem ser usados para automatizar todo o processo de pesquisa?
O resultado final foi concluído por uma equipe da Sakana AI, do Laboratório Foerster da Universidade de Oxford e da Universidade da Colúmbia Britânica.
O sistema "AI Scientist" consiste em quatro partes.
Geração de ideias:
Dado um modelo inicial, a IA primeiro faz um “brainstorming” de uma série de diferentes direções de pesquisa inovadoras e pesquisa no Semantic Scholar para verificar se essas ideias já foram feitas antes.
Iteração da experiência:
Para a ideia apresentada na primeira parte, o “cientista de IA” primeiro realiza o experimento proposto e depois gera um gráfico de visualização dos resultados.
Redação de ensaio:
Escrevi um artigo conciso e informativo sobre LaTeX no estilo de uma conferência padrão de aprendizado de máquina e também usei o Semantic Scholar para pesquisar de forma independente artigos relevantes para citações.
Revisão por pares automatizada:
Foi desenvolvido um "revisor de IA" automatizado que pode avaliar artigos gerados com precisão quase humana, permitindo um ciclo de feedback contínuo que permite que "cientistas de IA" melhorem iterativamente seus resultados de pesquisa.
Um total de 10 artigos foram gerados da seguinte forma:
No experimento, a equipe também comparou os efeitos da conexão de diferentes modelos grandes convencionais a todo o sistema, incluindo o grande modelo de código doméstico da equipe DeepSeek.
vire para fora,Claude-Sonnet-3.5 tem melhor desempenho em termos de inovação de ideias, taxa de aprovação em testes e qualidade de conclusão do trabalho.
GPT-4o e DeepSeek Coder têm desempenho semelhante, mas o último é 30 vezes mais barato.
É claro que, nesta fase, os artigos concluídos de forma independente pela AI não são perfeitos, nem podem ser publicados diretamente.
Os pesquisadores humanos resumiram várias limitações e desafios:
Resumindo, os artigos escritos por esta primeira geração de cientistas de IA ainda apresentam alguns bugs de tempos em tempos.
Mas o projeto em si, e o custo de 15 dólares por artigo, são considerados “promissores” pela Sakana AI e podem ser usados para ajudar a acelerar o progresso científico.
Sakana AI também lançou um artigo explicativo afirmando que a visão final dos cientistas de IA é umaUm ecossistema científico inteiramente alimentado por IA。
O sistema inclui não apenas grandes pesquisadores orientados por modelos, mas também revisores, presidentes regionais e uma nova conferência.
Deve-se notar que Sakana AI acredita que:
O papel dos cientistas humanos não será diminuído pelo surgimento de cientistas de IA.
Se devemos fazer uma comparação, é que os cientistas devem adaptar-se à emergência e aplicação de novas tecnologias, adaptar-se às mudanças no seu posicionamento de papel e “subir na cadeia alimentar”.
Além disso, resta saber se os cientistas da IA conseguem realmente criar paradigmas verdadeiramente novos.
Afinal, essa coisa ainda é baseada no Transformer.
Será possível criar algo tão poderoso quanto o Transformer ou o Modelo de Difusão? Até mesmo conceitos teóricos como redes neurais artificiais ou teoria da informação?
Também não sabemos e não ousamos dizer.
Sakana AI também escreveu este parágrafo:
Acreditamos que os cientistas de IA se tornarão grandes parceiros dos cientistas humanos.
Mas só o tempo dirá até que ponto a essência da criatividade humana e os momentos fortuitos de inovação podem ser replicados através da descoberta aberta pelos humanos.
△Sakana AI: Um peixinho de IA totalmente automatizado está explorando seu mundo
A empresa que desta vez completou a “nova criação”, Sakana AI, também é uma velha amiga nossa em sentido estrito.
Pelo último dos 8 autores do artigo TransformerLlion JonesA startup foi criada com o objetivo de se tornar um “laboratório de pesquisa em inteligência artificial de classe mundial”.
A sede da empresa está em Tóquio, e sakana é a palavra japonesa para "peixe" (peixe).
Talvez por considerações de cultura da empresa, Llion também declarou no LinkedIn que tinha uma transliteração japonesa de seu nome: ライオン (que também é o katakana de Leão; ele será carinhosamente chamado de Irmão Leão daqui em diante).
Em agosto do ano passado, a empresa foi anunciada.
Naquela época, Lion Brother disse sem hesitação que não tinha más intenções em relação ao Google, masO Google faz com que ele se sinta "preso"。
Antes de iniciar seu próprio negócio, o irmão Lion trabalhou no Google por 8 anos.
△Adivinha quem está faltando metade do rosto?
Ele se formou na Universidade de Birmingham e trabalhou na Delcam, no YouTube, e o Google é a empresa onde permaneceu por mais tempo.
De acordo com FourWeekMBA, em sua experiência de trabalho anterior,“Perdi duas vezes o emprego no Google”。
A primeira vez foi quando ele estava procurando emprego logo após a formatura. Embora tenha enviado seu currículo como engenheiro de software no Google Londres e passado em duas rodadas de entrevistas por telefone, ele acabou escolhendo a Delcam, uma empresa de software CAD/CAM no Reino Unido. sobre o Google.
Vale ressaltar que antes de receber a oferta do Google, ele enfrentou a crise econômica em 2009. Lion Brother não conseguiu encontrar emprego e teve que contar com fundos de ajuda para sobreviver por vários meses.
A segunda vez foi após 18 meses de trabalho, ele recebeu uma ligação de recrutamento do Google perguntando se queria se candidatar novamente, mas ainda não foi para o Google, mas depois ingressou no YouTube.
Enquanto trabalhava como engenheiro de software no YouTube por três anos, ele se interessou por inteligência artificial, aprendeu sozinho o curso de aprendizado de máquina do Coursera e finalmente ingressou no Google Research em 2015 como engenheiro de software sênior.
Foi também nesse período que ele e outros sete autores publicaram o famoso artigo TransformerAtenção é tudo o que você precisa。
Além disso, Lion Brother também participou de muitas pesquisas no Google, incluindo ProtTrans, Tensor2Tensor, etc.
Ele optou por deixar o Google porque a empresa havia crescido a um tamanho que impossibilitava que ele continuasse fazendo o trabalho que queria.
Além de desperdiçar energia todos os dias solucionando bugs de outras pessoas, ele também precisa gastar tempo buscando recursos dessa empresa para tentar ter acesso a determinados dados.
Depois de iniciar o negócio, o trabalho da Sakana AI progride de forma ordenada.
Antes de usar cientistas e revisores de IA, também publicamos grandes modelos mesclando algoritmos evolutivos e estudando o fluxo interno de informações do Transformer.
Quanto aos projetos de cientistas e revisores de IA, eles são concluídos em cooperação com Sakana AI, Oxford e UBC.
Os três coautores são:
Chris Lu, estagiário na Sakana AI, atua como cientista pesquisador da empresa.
Ele se formou na UC Berkeley e atualmente é aluno do terceiro ano de doutorado na Universidade de Oxford. Seu orientador é Jakob Foerster.
A importante direção de pesquisa atual de Chris é aplicar técnicas inspiradas na evolução ao meta-aprendizado e ao aprendizado por reforço multiagente.
No verão de 2022, ele estagiou como cientista pesquisador na DeepMind.
Cong Lu, pesquisador de pós-doutorado na UBC (University of British Columbia), orientado por Jeff Clune.
Cong estudou na RGU (Robert Gordon University) e recebeu seu PhD pela Universidade de Oxford em 2019. Seus principais interesses de pesquisa são aprendizagem por reforço aberto e descoberta científica de IA.
Anteriormente, estagiou na Waymo e na Microsoft.
Robert Tjarko Lange, um dos membros fundadores da Sakana AI e cientista pesquisador da empresa.
Atualmente, ele está concluindo seu último ano de doutorado na Universidade Técnica de Berlim, e sua direção de pesquisa é a meta-aprendizagem evolutiva.
O jovem obteve mestrado em ciência da computação pelo Imperial College London, mestrado em ciência de dados pela Universidade Pompeu Fabra e graduação em economia pela Universidade de Colônia.
No ano passado, ele trabalhou como estudante pesquisador em tempo integral na equipe do Google DeepMind em Tóquio.
Endereço do papel:
https://arxiv.org/abs/2408.06292
Links de referência:
[1]https://x.com/SakanaAILabs/status/1823178623513239992
[2]https://sakana.ai/ai-scientist/