notícias

Jia Yangqing ganhou o Time Test Award por um de seus artigos, mas não se qualificou para os 10 melhores artigos da China e para o Prêmio ICML 2024

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

O nome completo do ICML é Conferência Internacional sobre Aprendizado de Máquina. É organizada pela Sociedade Internacional de Aprendizado de Máquina (IMLS) e é a principal conferência na área de inteligência artificial de computadores.

A conferência do ICML deste ano é a 41ª e está sendo realizada atualmente em Viena, Áustria. Na cerimônia de abertura recém-realizada, o ICML, que está se tornando cada vez mais popular a cada ano, anunciou os dados da conferência deste ano e informações sobre os prêmios.



Esta conferência principal recebeu um total de 9.473 submissões de artigos válidos, dos quais 2.610 artigos foram aceitos, com uma taxa de aceitação de 27,5%, incluindo 144 artigos orais e 191 artigos em destaque.



As palavras-chave dos artigos aceitos são: modelo de linguagem grande, aprendizagem por reforço, aprendizagem profunda, rede neural gráfica, aprendizado de máquina, aprendizagem federada, modelo de difusão, Transformer, LLM, aprendizagem de representação, modelo generativo... Essas palavras-chave também representam o atual A direção de pesquisa mais popular no campo da IA.

Além desses dados, os prêmios Time Test Awards e Best Papers deste ano também foram anunciados na conferência. DeCAF, um artigo que Jia Yangqing co-concluiu enquanto estava em Berkeley há dez anos, ganhou o prêmio Time Test deste ano. Em comparação com 6 no ano passado, 10 estudos ganharam o melhor artigo este ano, incluindo o modelo mundial Genie do Google DeepMind, o modelo de vídeo VideoPoet, etc., que se tornou popular há algum tempo.

Prêmio Testado pelo Tempo

Sobre a conquista do prêmio pelo DeCAF, Jia Yangqing disse no círculo de amigos: "Pela terminologia de hoje, o DeCAF deveria ser os recursos básicos e profundamente incorporados no campo de visão, e também deu ao campo da visão computacional um recurso generalizável. O trabalho do DeCAF mais tarde deu origem ao General A estrutura de detecção de objetos R-CNN, a estrutura de computação heterogênea de alto desempenho Caffe, contribuiu indiretamente para a cooperação de Berkeley e NVidia na escrita da estrutura de aceleração de primeira geração CuDNN, o treinamento distribuído em grande escala CaffeOnSpark criado pelo Yahoo Labs , e uma série de outros trabalhos, estabelecendo a posição de liderança de Berkeley na onda de aprendizagem profunda.”



Tag: DeCAF: Um recurso de ativação convolucional profunda para reconhecimento visual genérico

Nomes: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Instituição: UC Berkeley & ICSI, Berkeley, CA, EUA

Link do artigo: https://arxiv.org/pdf/1310.1531

A equipe de pesquisa avaliou se os recursos extraídos de ativações de redes convolucionais profundas treinadas de maneira totalmente supervisionada em um conjunto fixo de tarefas de reconhecimento de objetos em grande escala podem ser reaproveitados para novas tarefas de uso geral. Essas tarefas gerais podem ser significativamente diferentes daquelas para as quais foram originalmente treinados, e pode não haver dados rotulados ou não rotulados suficientes para treinar ou adaptar rotineiramente arquiteturas profundas a novas tarefas. Eles estudam e visualizam agrupamento semântico de recursos convolucionais profundos em uma variedade de tarefas, incluindo reconhecimento de cena, adaptação de domínio e desafios de reconhecimento refinados. Os pesquisadores compararam os efeitos de depender de diferentes camadas da rede para definir recursos fixos e relataram novos resultados que superam significativamente as técnicas existentes em vários desafios visuais importantes. Eles lançaram o DeCAF, uma implementação de código aberto de recursos de ativação convolucional profunda que contém todos os parâmetros de rede relevantes para permitir que pesquisadores de visão experimentem representações profundas em uma variedade de paradigmas de aprendizagem de conceitos visuais.

melhor papel

Artigo 1: Dimensionamento de transformadores de fluxo retificado para síntese de imagens de alta resolução

Elenco: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organização: Estabilidade AI

Endereço do artigo: https://proceedings.mlr.press/v235/esser24a.html

Relatório Machine Heart: O artigo Stable Diffusion 3 foi finalmente lançado e os detalhes da arquitetura serão revelados.

Este artigo é exatamente o artigo Stable Diffusion 3. Em comparação com a versão anterior, a qualidade das imagens geradas pelo Stable Diffusion 3 foi bastante melhorada, suporta prompts multitemáticos e o efeito de escrita de texto também é melhor.



Arquitetura estável do modelo Diffusion 3.

Os modelos de difusão, que criam dados a partir do ruído, invertendo seu caminho direto em ruído, surgiram como uma poderosa técnica de modelagem generativa para dados sensoriais de alta dimensão, como imagens e vídeos. Fluxo Retificado (RF) é uma formulação recente de modelo generativo que conecta dados e ruído em linha reta. Apesar de suas melhores propriedades teóricas e simplicidade conceitual, ainda não foi claramente estabelecido como prática padrão.

Esta pesquisa melhora as técnicas existentes de amostragem de ruído, treinando modelos de RF, direcionando-os para escalas perceptualmente relevantes. Através de um estudo em larga escala, este estudo demonstra o desempenho superior desta abordagem em comparação com as formulações de difusão existentes para síntese de texto em imagem de alta resolução.

Além disso, a pesquisa também propõe uma nova arquitetura baseada em Transformer para geração de texto para imagem, que usa pesos separados para os dois modos e permite o fluxo bidirecional de informações entre tokens de imagem e texto, melhorando assim a compreensão do texto, as classificações de preferência humana, etc. . O estudo demonstra que a arquitetura segue uma tendência de escalabilidade previsível e observa que a perda de validação diminui suavemente com o aumento do tamanho do modelo e das etapas de treinamento.



Transformador de difusão multimodal aprimorado: bloco MMDiT.

Artigo 2: Genie: Ambientes Interativos Gerativos

Elenco: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes

Instituição: Google DeepMind, Universidade da Colúmbia Britânica

Endereço do artigo: https://arxiv.org/pdf/2402.15391.pdf

Este artigo define um novo paradigma de IA generativa - Generative Interactive Environments - Genie (Generative Interactive Environments). Genie é um modelo mundial básico de 11 bilhões de parâmetros que pode gerar ambientes interativos jogáveis ​​a partir de um único prompt de imagem.

Relatório Machine Heart: Agora mesmo, o Google lançou um modelo de mundo básico: parâmetros 11B, que podem gerar um mundo virtual interativo

Vários componentes da arquitetura Genie são construídos no Vision Transformer (ViT). Vale ressaltar que devido ao custo de memória secundária do Transformer, que traz desafios para a área de vídeo, os vídeos podem conter até (10^4) tokens. Portanto, o Google usa a arquitetura do transformador ST com uso eficiente de memória em todos os componentes do modelo para equilibrar a capacidade do modelo e as restrições computacionais.



O Genie consiste em três componentes principais (conforme mostrado na figura abaixo):

1) Modelo de Ação Latente (LAM), usado para raciocinar sobre ações potenciais entre cada par de quadros;

2) Tokenizer de vídeo (Tokenizer), usado para converter quadros de vídeo originais em tokens discretos;

3) O modelo dinâmico, dadas as ações potenciais e tokens de quadros anteriores, é usado para prever o próximo quadro do vídeo.



Para conseguir uma geração de vídeo controlável, o Google usa as ações realizadas no quadro anterior como condições para a previsão de quadros futuros. No entanto, esses rótulos de ações raramente estão disponíveis em vídeos na Internet e o custo para obter anotações de ações pode ser alto. Em vez disso, o Google aprende ações potenciais de uma forma totalmente não supervisionada.



Artigo 3: Considerações para aprendizagem diferencialmente privada com pré-treinamento público em larga escala

Autores: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Instituições: ETH Zurique, Universidade de Waterloo, Google DeepMind

Endereço do artigo: https://arxiv.org/abs/2212.06470

O desempenho do aprendizado de máquina diferencialmente privado pode ser significativamente melhorado aproveitando os recursos de aprendizagem por transferência de modelos não privados pré-treinados em grandes conjuntos de dados públicos. O artigo questiona se o uso de grandes conjuntos de dados extraídos da web deve ser considerado diferencialmente privado.

O estudo acredita que definir estes modelos pré-treinados em dados de rede como modelos “privados” pode prejudicar e enfraquecer a confiança do público na privacidade diferencial. Além das considerações de privacidade no uso de dados públicos, o estudo questiona ainda a utilidade deste paradigma. O estudo examina se os benchmarks de aprendizado de máquina existentes são adequados para medir a capacidade de modelos pré-treinados de generalizar para domínios sensíveis que podem ser difíceis de representar em dados de redes públicas.

Além disso, o estudo observa que a implantação de modelos grandes pode resultar numa perda líquida de privacidade devido à necessidade de terceirizar dados privados para terceiros com maior poder computacional.

Artigo 4: Modelagem de Difusão Discreta Estimando as Razões da Distribuição de Dados

Autor: Aaron Lou, Chenlin Meng, Stefano Ermon

Instituição: Universidade de Stanford, Pika Labs

Endereço do artigo: https://proceedings.mlr.press/v235/lou24a.html

Embora os modelos de difusão tenham um bom desempenho em muitas tarefas de modelagem generativa, eles não apresentam o desempenho esperado em domínios de dados discretos, como a linguagem natural. Os modelos de difusão padrão baseiam-se na teoria bem estabelecida de correspondência de pontuações, mas as tentativas de generalizar isto para estruturas discretas não levaram aos mesmos ganhos empíricos.

Neste trabalho, a equipe de pesquisa preenche essa lacuna propondo uma nova perda chamada entropia pontuada. A entropia pontuada estende naturalmente a correspondência de pontuação ao espaço discreto, integra-se perfeitamente para construir modelos de difusão discretos e melhora significativamente o desempenho.

Em seus experimentos, eles testaram o modelo de difusão discreta de entropia pontuada (SEDD) em uma tarefa de modelagem de linguagem padrão. Em tamanhos de modelo comparáveis, o SEDD supera os paradigmas de difusão de linguagem existentes (25-75% de redução na perplexidade) e compete com modelos autorregressivos, superando especialmente o GPT-2. Além disso, em comparação com modelos autoregressivos, o SEDD é capaz de gerar texto real (gerando perplexidade cerca de 6 a 8 vezes maior que o GPT-2 não recozido) sem a necessidade de técnicas de recozimento distribuído (como escala de temperatura) e pode ser usado em Tradeoffs entre esforço computacional e qualidade (alcançar qualidade semelhante com 32x menos avaliações de rede) e suporta preenchimento controlável (correspondendo à qualidade da amostragem do kernel enquanto permite outras estratégias além de dicas da esquerda para a direita).

Artigo 5: Inferência Probabilística em Modelos de Linguagem via Twisted Sequential Monte Carlo

Elenco: Stephen Zhao, Rob Brekelmans, Alireza Makhzani e Roger Grosse

Instituição: Universidade de Toronto, Vector Institute

Endereço do artigo: https://proceedings.mlr.press/v235/zhao24c.html

As inúmeras capacidades e técnicas de segurança de grandes modelos de linguagem (LLMs), incluindo RLHF, testes automatizados de equipe vermelha, engenharia de dicas e preenchimento, podem ser vistas como uma amostragem de uma distribuição alvo desnormalizada definida por uma determinada recompensa ou função latente. Neste trabalho, os autores exploram a rica caixa de ferramentas do Monte Carlo Sequencial (SMC) para lidar com esses problemas de inferência probabilística. Em particular, eles usam uma função de distorção aprendida para estimar valores futuros potenciais esperados em cada intervalo de tempo, permitindo que o cálculo no momento da inferência se concentre em partes promissoras da sequência.

Propomos uma nova abordagem contrastiva para aprender funções de distorção e fazemos conexões com a rica literatura sobre aprendizagem por reforço suave. Como uma aplicação complementar da estrutura SMC distorcida, eles propõem um método para avaliar a precisão das técnicas de inferência de modelos de linguagem em funções de partição de log usando um novo limite SMC bidirecional. Esses limites podem ser usados ​​para estimar a divergência KL bidirecional entre a distribuição de inferência e a distribuição alvo. Aplicando técnicas de avaliação de inferência, eles demonstram que Twisted SMC é eficaz na amostragem de resultados indesejáveis ​​de modelos pré-treinados (útil para treinamento inócuo e testes automatizados de equipe vermelha), gerando avaliações com sentimentos variados e executando tarefas de preenchimento.

Artigo 6: Debater com LLMs mais persuasivos leva a respostas mais verdadeiras

Elenco: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

Instituições: University College London, Speechmatics, MATS, Anthropic, FAR AI

Endereço do artigo: https://proceedings.mlr.press/v235/khan24a.html

Abordagens comuns para alinhar grandes modelos de linguagem (LLMs) com comportamentos desejados dependem fortemente de dados rotulados por humanos. Contudo, à medida que os modelos se tornam mais complexos, excederão a experiência humana e o papel dos avaliadores humanos evoluirá para o de não-especialistas supervisionando especialistas. Com base nesta expectativa, os investigadores fizeram uma pergunta: um modelo mais fraco pode avaliar a correcção de um modelo mais forte? Estudaram este problema estabelecendo um cenário semelhante: um cenário em que o modelo mais forte (o especialista) tinha a informação de base necessária para responder à questão, enquanto o modelo mais fraco (o não especialista) não tinha esta informação. Os pesquisadores escolheram o debate como método de teste – ou seja, deixar dois especialistas do LLM defenderem respostas diferentes, e os não especialistas escolherem a resposta final.

A equipe de pesquisa descobriu que o debate ajudou efetivamente modelos não especialistas e humanos a responder perguntas, alcançando 76% e 88% de precisão, respectivamente (a linha de base original era de 48% e 60%, respectivamente).



Além disso, optimizar a capacidade de persuasão dos debatedores especializados de uma forma não supervisionada melhora a capacidade dos não especialistas para identificar a verdade nos debates. Este resultado fornece uma referência ao debater a viabilidade de modelos alinhados na ausência de rótulos de verdade.

论文 7:Complexidade da informação da otimização convexa estocástica: aplicações para generalização, memorização e rastreamento

Elenco: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Instituições: Universidade Ben-Gurion, Universidade de Toronto, DeepMind, etc.

Endereço do artigo: https://proceedings.mlr.press/v235/attias24a.html

Neste trabalho, os autores estudam a interação entre memória e aprendizagem no contexto da otimização estocástica convexa (SCO). Eles definem a memória aprendendo as informações que o algoritmo revela sobre seus pontos de dados de treinamento e quantificam essas informações usando a estrutura de informação mútua condicional (CMI) proposta por Steinke e Zakynthinou (2020).

O principal resultado deste estudo é caracterizar com precisão o trade-off entre a precisão de um algoritmo de aprendizagem e seu CMI, respondendo a uma questão aberta colocada por Livni (2023). Este artigo mostra que sob a configuração L² limitada por Lipschitz e condições de forte convexidade, o CMI de cada aluno com erro excessivo ϵ é limitado inferiormente por Ω(1/ϵ²) e Ω(1/) respectivamente. Os autores demonstram ainda o papel indispensável da memória no problema SCO ao projetar um adversário que pode identificar com precisão um grande número de amostras de treinamento em um problema SCO específico. Por fim, citam diversas implicações dos resultados, como as limitações dos limites de generalização baseados no CMI e a incompressibilidade das amostras no problema SCO.

Documento 8: Meça a diversidade do conjunto de dados, não apenas reivindique-a

Elenco: Dora Zhao, Jerone Andrews, Orestis Papakyriakopoulos e Alice Xiang

Instituições: Universidade de Stanford, Sony AI (Londres, Reino Unido), Universidade Técnica de Munique, Sony AI (Seattle, EUA)

Endereço do artigo: https://arxiv.org/html/2407.08188v1

Os conjuntos de dados de aprendizado de máquina (ML) são frequentemente considerados neutros, mas contêm inerentemente construções sociais abstratas e contestadas. Os curadores de conjuntos de dados costumam usar termos carregados de valor, como diversidade, preconceito e qualidade, para descrever conjuntos de dados. Embora estes termos sejam amplamente utilizados, carecem de definição e validação claras. O estudo da equipe de pesquisa explorou o impacto desta questão analisando a “diversidade” em 135 conjuntos de dados de imagens e texto. Com base nas ciências sociais, os princípios da teoria da medição são aplicados para identificar considerações e fornecer recomendações para conceituar, operacionalizar e avaliar a diversidade em conjuntos de dados. Suas descobertas têm amplas implicações para a pesquisa de ML, defendendo uma abordagem mais sutil e precisa ao lidar com atributos carregados de valor na construção de conjuntos de dados.

Artigo 9: VideoPoet: um grande modelo de linguagem para geração de vídeo Zero-Shot

Elenco: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Joshua V Dillon 、 Agrim Gupta 、 Meera Hahn 、 Anja Hauth 、 David Hendon 、 Alonso Martinez 、 David Minnen 、 Mikhail Sirotenko 、 Kihyuk Sohn 、 Xuan Yang 、 Hartwig Adam 、 Ming-Hsuan Yang 、 Irfan Essa 、 Huisheng Wang 、 David Ross 、 Bryan Seybold, Lu Jiang

Organização: Google, Universidade Carnegie Mellon

Endereço do artigo: https://proceedings.mlr.press/v235/kondratyuk24a.html

Link do projeto: http://sites.research.google/videopoet/

Relatório Machine Heart: A geração de vídeo pode ser infinitamente longa?O grande modelo do Google VideoPoet está online, internautas: tecnologia revolucionária

A equipe de pesquisa lançou o VideoPoet, um modelo de linguagem capaz de sintetizar vídeos de alta qualidade a partir de múltiplos sinais condicionais. VideoPoet usa uma arquitetura Transformer somente decodificador para lidar com entradas multimodais, incluindo imagens, vídeo, texto e áudio.



O protocolo de treinamento segue o pipeline de grandes modelos de linguagem (LLMs) e consiste em duas etapas: pré-treinamento e adaptação específica da tarefa. Na fase de pré-treinamento, o VideoPoet combina alvos de geração multimodais dentro de uma estrutura Transformer autorregressiva. O LLM pré-treinado serve de base e pode ser adaptado a uma série de tarefas de geração de vídeo. Eles demonstram as capacidades de última geração do modelo na geração de vídeo de disparo zero, especificamente a capacidade de gerar movimento de alta fidelidade.

Artigo 10: Roubando parte de um modelo de linguagem de produção

Elenco: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Instituições: OpenAI, Google DeepMind, ETH Zurique, Universidade de Washington, Universidade McGill

Endereço do artigo: https://arxiv.org/pdf/2403.06634

Este artigo propõe um novo método de ataque a modelos de IA. Ele pode extrair informações com precisão do modelo de linguagem generativa de caixa preta do ChatGPT da OpenAI ou do PaLM-2 do Google. Este método pode invadir a camada de projeção incorporada do Transformer (que é uma parte fundamental da compreensão da linguagem do modelo) e requer apenas acesso à API, por meio de um site ou aplicativo, e bate-papo com o modelo para "derrotá-lo". Com base no método do artigo, os pesquisadores decifraram toda a matriz de projeção dos dois modelos básicos da série GPT, Ada e Babbage. Informações importantes, como dimensões ocultas, também foram decifradas diretamente: um era 1024 e o outro era 2048. Eles também romperam as dimensões ocultas do gpt-3.5-turbo, e se você quiser restaurar toda a matriz de projeção do modelo, o custo não ultrapassará US$ 2.000. Os pesquisadores propuseram uma série de medidas de defesa e estratégias de mitigação para prevenir a ocorrência de tais ataques.