notícias

O clássico de dez anos de Jia Yangqing ganhou o prêmio Time Test! Sorteio dos dez melhores papéis do ICML 2024, popular SD3, Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Taozi está com tanto sono

[Introdução à Nova Sabedoria] O principal prêmio anual do ICML foi finalmente anunciado! Este ano, um total de dez artigos ganharam o prêmio de melhor artigo, e três deles são nomes conhecidos - o modelo de geração de imagem SD3, o modelo de geração de vídeo VideoPoet e o modelo mundial básico Genie. Além disso, o Time Test Award foi concedido à estrutura DeCAF proposta por Jia Yangqing e sua equipe há dez anos.

Os prêmios ICML 2024 foram anunciados recentemente!

Agora há pouco, a cerimônia de abertura do ICML foi realizada oficialmente. Os 10 melhores prêmios de artigos foram anunciados na reunião, e um artigo de dez anos atrás ganhou o Prêmio Time Test.

Entre os melhores artigos, há vários trabalhos populares na área de geração de imagens e vídeos de IA, incluindo o relatório técnico SD3, o modelo de vídeo CMU Google AI VideoPoet e o modelo mundial básico do Google Genie.



Vale a pena mencionar que o artigo DeCAF publicado pelo guru da IA ​​Jia Yangqing e outros em outubro de 2013 ganhou o Time Test Award.

Agora mesmo, ele escreveu que estava profundamente honrado em receber esta homenagem.


Russ Salakhutdinov, professor da CMU e vice-presidente da Meta GenAI, fez um resumo dos resultados gerais de recrutamento do ICML 2024:

Esta conferência recebeu um total de 9.473 comunicações, das quais 2.610 foram aceites, com uma taxa de aceitação de 27,55%. 144 artigos são orais e 191 artigos são Spotlight.

Os documentos de posição foram introduzidos este ano, 286 artigos foram submetidos e 75 foram aceitos (26%). 15 artigos são orais e 11 artigos são Spotlight.

Além disso, houve 145 propostas no Workshop, das quais 30 foram aceitas. O tutorial teve 55 propostas e 12 foram aceitas.


Este ano, é a 41ª conferência anual do ICML 2024 (uma vez por ano), que será realizada em Viena, Áustria, de 21 a 27 de julho.


8.675 pessoas compareceram à reunião, uma após a outra, e não havia lugares na plateia.



Visão geral da cúpula ICML 2024

Antes de entregar os prémios, o comité organizador apresentou primeiro a situação geral da conferência deste ano:

· 9 painéis de discussão EXPO

· 12 tutoriais

· 6 palestrantes convidados

· 2.610 artigos (conferência principal)

· 30 oficinas

· 12.345 autores e palestrantes

· 39% dos participantes são estudantes

· 10 atividades sociais off-line

· 3 eventos de afinidade

· 52 voluntários

· 97 presidentes de área sênior (SAC), 492 presidentes de área (AC), 7.473 revisores

· 9.406 participantes inscritos (8.675 dos quais compareceram presencialmente)


Com base nos artigos aceitos, o ICML resumiu as palavras de alta frequência que apareceram, que também são as palavras quentes deste ano:

Modelos grandes aparecem com mais frequência, mais de 600 vezes.

Seguido por aprendizagem por reforço, aprendizagem profunda, rede neural gráfica, aprendizagem de máquina, aprendizagem federada, modelo de difusão, Transformer, LLM, aprendizagem de representação, modelo generativo, etc.


Em termos de países/regiões registados, os Estados Unidos têm 2.463 pessoas e a China ocupa o segundo lugar com mais de 1.100 pessoas.

Prêmio Testado pelo Tempo

De modo geral, o Prêmio Time Test é concedido a trabalhos acadêmicos que tiveram impacto importante e duradouro por mais de 10 anos.


Este artigo também é um trabalho clássico concluído por Jia Yangqing, pai de Caffe, que estudou na UC Berkeley e colaborou com a equipe durante seu estágio no Google.

Certa vez, ele disse em uma entrevista que bebeu muito café enquanto estagiava no Google em 2013, então nomeou-o DeCAF para se convencer a parar de beber café.


Enquanto trabalhava horas extras, ele postou: "O DeCAF deve ser um recurso básico e profundamente incorporado no campo de visão, e também dar ao campo da visão computacional um recurso generalizável..."

O impacto da pesquisa DeCAF é que ela deu origem à estrutura geral de detecção de objetos R-CNN, à estrutura de computação heterogênea de alto desempenho Caffe, e indiretamente contribuiu para a colaboração entre Berkeley e NVIDIA para escrever a estrutura de aceleração de primeira geração CuDNN, e a distribuição em larga escala da criação do Yahoo Labs Uma série de trabalhos como o treinamento CaffeOnSpark estabeleceu a posição de liderança de Berkeley na onda de aprendizagem profunda.


Artigo: DeCAF: Um recurso de ativação convolucional profunda para reconhecimento visual genérico

Nomes: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Instituição: Universidade da Califórnia, Berkeley


Endereço do artigo: https://arxiv.org/abs/1310.1531

A fim de usar uma estrutura probabilística melhor para expressar o comportamento humano, a equipe escreveu pessoalmente a primeira estrutura – DeCAF.

Neste trabalho, os autores avaliam se características extraídas de uma rede convolucional profunda treinada de maneira totalmente supervisionada em um grande conjunto de tarefas de reconhecimento de objetos fixos podem ser reaproveitadas em novas tarefas de uso geral.

Estas tarefas gerais podem ser significativamente diferentes das tarefas de treino originais e podem não ter dados anotados suficientes, ou não ter quaisquer dados anotados, de modo que os métodos convencionais não podem ser utilizados para treinar ou afinar a rede profunda para se adaptar à nova tarefa.

Além disso, o autor também visualizou o agrupamento semântico de recursos convolucionais profundos em tarefas como reconhecimento de cena, adaptação de domínio e reconhecimento refinado e, comparando os efeitos da definição de recursos fixos que dependem de diferentes níveis da rede, propôs vários importante Novo SOTA alcançado em desafios visuais.

Finalmente, os autores lançam uma implementação de código aberto desses recursos de ativação convolucional profunda - DeCA, juntamente com todos os parâmetros de rede associados. Isso ajuda os autores visuais a experimentar representações profundas em vários paradigmas de aprendizagem de conceitos visuais.


Os dez melhores artigos

Este ano, há dez melhores artigos.



As classificações acima estão todas em ordem de exibição oral.

Autor: Modelagem de difusão discreta por meio da estimativa das proporções da distribuição de dados

Autor: Aaron Lou, Chenlin Meng, Stefano Ermon

Instituição: Universidade de Stanford, Pika Labs


Endereço do artigo: https://arxiv.org/abs/2310.16834

Esta pesquisa propõe um novo modelo de aprendizado de máquina SEDD (Score Entropy Discrete Diffusion), que é direcionado principalmente para tarefas discretas de geração de dados.

Atualmente, os modelos de difusão apresentam desempenho inovador em muitas tarefas de modelagem generativa, mas apresentam desempenho insatisfatório em campos de dados discretos, como linguagem natural.

No artigo, o autor propôs o conceito de entropia de pontuação para preencher essa lacuna.

Esta é uma nova função de perda que estende naturalmente a correspondência de pontuação ao espaço discreto, integra-se perfeitamente para construir modelos de difusão discretos e melhora significativamente o desempenho.

Durante o processo de avaliação experimental, o SEDD teve um desempenho melhor do que os modelos de difusão linguística existentes (a perplexidade foi reduzida em 25-75%).

Além disso, também supera modelos autorregressivos como o GPT-2 em alguns aspectos.


Em resumo, as vantagens do SEDD são:

- Texto de alta qualidade pode ser gerado sem o uso de técnicas como escala de temperatura (gerar perplexidade é cerca de 6 a 8 vezes melhor do que GPT-2 não recozido)

- Compromisso flexível entre recursos de computação e qualidade de saída (usa 32 vezes menos avaliações de rede para obter desempenho semelhante)

- Suporta preenchimento de texto controlável, proporcionando mais flexibilidade. (correspondendo à qualidade da amostragem do núcleo, ao mesmo tempo que apoia estratégias diferentes da solicitação da esquerda para a direita).

Artigo 2: Dimensionamento de transformadores de fluxo retificado para síntese de imagens de alta resolução

Autores: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organização: Estabilidade AI


Endereço do artigo: https://arxiv.org/abs/2403.03206

Conforme mencionado no início, este artigo é um relatório técnico sobre o popular Stable Diffusion 3.

Semelhante ao Sora, o SD3 usa uma versão melhorada do modelo de difusão e uma nova arquitetura baseada no gráfico vicentino do DiT.

Especificamente, os autores utilizaram três codificadores de texto diferentes – dois modelos CLIP e um T5 – para processar informações de texto, enquanto usavam um modelo de autocodificação mais avançado para processar informações de imagem.


A recém-proposta arquitetura Multi-modal Difusion Transformer (MMDiT) usa conjuntos de pesos independentes para representação de imagem e idioma, respectivamente. Em comparação com a versão inicial do SD3, ela melhora significativamente a compreensão e a ortografia do texto.

Os resultados da avaliação mostram que o SD3 atinge ou excede o estado da arte atual da tecnologia vicentina de geração de diagramas em termos de precisão no seguimento de instruções, apresentação clara do texto e beleza visual das imagens.


Autor: Inferência probabilística em modelos de linguagem via Twisted Sequential Monte Carlo

Elenco: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Instituição: Universidade de Toronto, Vector Institute


Endereço do artigo: https://arxiv.org/abs/2404.17546

Esta pesquisa se concentra em questões de amostragem e inferência em grandes modelos.

Muitos dos recursos e tecnologias de segurança do LLM, como RLHF, testes automatizados de equipe vermelha, engenharia imediata e preenchimento, podem ser considerados:

Dada uma recompensa ou função potencial, faça uma amostra de sua distribuição alvo não normalizada definida. Esta distribuição é definida para a sequência completa.

No artigo, o autor propõe a utilização do método sequencial de Monte Carlo (SMC) para resolver esses problemas de probabilidade de amostragem.

Nesse sentido, o autor propõe funções de torção para estimar valores futuros potenciais em cada etapa de tempo para otimizar o processo de amostragem.

Além disso, eles também propuseram um método para usar novos limites SMC bidirecionais para avaliar a precisão das técnicas de inferência LLM.

Os resultados finais mostram que o Twisted SMC apresenta forte eficácia na amostragem de resultados ruins de modelos pré-treinados, gerando avaliações com sentimentos diferentes e executando tarefas de preenchimento.

Documento 4: Posição: Medir a diversidade do conjunto de dados, não apenas reivindicá-la

Elenco: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Instituições: Universidade de Stanford, Universidade Técnica de Munique, Sony AI


Endereço do artigo: https://arxiv.org/abs/2407.08188

Atualmente, muitos conjuntos de dados se autodenominam diversidade, mas na verdade incorporam conceitos sociais abstratos e controversos.

Neste trabalho, os autores exploram esta questão analisando a “diversidade” em 135 conjuntos de dados de imagens e texto.

Conforme mostrado abaixo, os autores baseiam-se na teoria da medição da teoria das ciências sociais como factores a considerar e fornecem sugestões para conceptualizar, operacionalizar e avaliar a diversidade em conjuntos de dados.

O objetivo final desta pesquisa é exigir que os estudiosos de IA adotem métodos de processamento mais detalhados e precisos para dados de atributos com julgamentos de valor na pesquisa de aprendizado de máquina, especialmente no processo de construção de conjuntos de dados.


Artigo 5: Roubando Parte de um Modelo de Linguagem de Produção

Elenco: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Instituições: ETH Zurique, Universidade de Washington, Universidade McGill, Google DeepMind, OpenAI


Endereço do artigo: https://arxiv.org/abs/2403.06634

Neste trabalho, os autores apresentam o primeiro ataque de roubo de modelo capaz de extrair informações precisas e complexas de modelos de linguagem de caixa preta, como ChatGPT da OpenAI ou PaLM-2 do Google.

Especificamente, este ataque é capaz de reconstruir a camada de projeção incorporada do modelo Transformer (sob condições de simetria) por meio de acesso regular à API.

E, por menos de US$ 20, você pode extrair toda a matriz de projeção dos modelos de linguagem Ada e Babbage da OpenAI. Isto confirmou pela primeira vez que estes dois modelos de caixa preta têm dimensões ocultas de 1024 e 2048, respectivamente.

Além disso, o autor também restaurou o tamanho exato da dimensão oculta do modelo gpt-3.5-turbo. Desta vez, o custo de extração de toda a matriz de projeção foi de apenas US$ 2.000.

Finalmente, os autores propõem potenciais medidas de defesa e mitigação e discutem implicações para trabalhos futuros.


论文六:Complexidade da informação da otimização convexa estocástica: aplicações à generalização e memorização

Elenco: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Instituições: Universidade Ben Gurion, Universidade Northeastern, Universidade de Tel Aviv, Universidade de Toronto, Vector Institute, Google DeepMind


Endereço do artigo: https://arxiv.org/abs/2402.09327

Neste trabalho, os autores estudam a interação entre memoização e aprendizagem no contexto de problemas de otimização estocástica convexa (SCO).

Primeiro, a memorização é definida por algoritmos de aprendizagem para revelar informações sobre pontos de dados de treinamento. Em seguida, a estrutura de informação mútua condicional (CMI) é usada para quantificação. Assim, é alcançada uma descrição precisa do compromisso entre a precisão de um algoritmo de aprendizagem e seu CMI.

Os resultados mostram que sob a configuração limitada de Lipschitz L ^ 2 e condições de convexidade forte, o CMI de cada aluno com excesso de erro ε tem limites inferiores em Ω (1/ε ^ 2) e Ω (1/ε), respectivamente.

Além disso, os autores demonstram o importante papel da memorização em problemas de aprendizagem SCO, projetando um adversário que pode identificar com precisão a maioria das amostras de treinamento em um problema específico de SCO.

Finalmente, os autores citam várias implicações importantes, como as limitações dos limites de generalização baseados no CMI e a incompressibilidade da amostra no problema SCO.

Autor: Posição: Considerações para aprendizagem privada diferencial com pré-treinamento público em larga escala

Autores: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Instituições: ETH Zurique, Universidade de Waterloo, Vector Institute, Google DeepMind


Endereço do artigo: https://arxiv.org/abs/2212.06470

O desempenho do aprendizado de máquina diferencialmente privado pode ser significativamente melhorado aproveitando os recursos de aprendizagem por transferência de modelos não privados pré-treinados em grandes conjuntos de dados públicos.

Neste trabalho, os autores questionam se o uso de grandes conjuntos de dados coletados na Web é consistente com a proteção diferencial da privacidade. Alertou também que chamar de “privados” esses modelos pré-treinados em dados de rede pode trazer muitos danos, como o enfraquecimento da confiança do público no conceito de privacidade diferencial.

Além das considerações de privacidade na utilização de dados públicos, os autores questionam ainda a viabilidade desta abordagem.

O impacto do pré-treinamento é particularmente perceptível em modelos que são grandes demais para serem executados pelos usuários finais em seus próprios dispositivos. Como isso exigiria a terceirização de dados privados para terceiros com maior poder computacional, a implantação de tal modelo resultaria em uma perda líquida de privacidade.

Finalmente, os autores discutem potenciais caminhos de desenvolvimento para o campo da aprendizagem sobre privacidade à medida que a pré-formação pública se torna mais popular e poderosa.

Artigo 8: Debater com LLMs mais persuasivos leva a respostas mais verdadeiras

Elenco: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Instituições: University College London, Speechmatics, MATS, Anthropic, FAR AI


Endereço do artigo: https://arxiv.org/abs/2402.06782

Os métodos de alinhamento LLM comumente usados ​​atualmente dependem fortemente de dados anotados manualmente.

No entanto, à medida que os modelos se tornam mais complexos, ultrapassarão a experiência humana e o papel dos avaliadores humanos evoluirá para o de não-especialistas supervisionando especialistas.

Com base nisso, o autor levantou a questão: um modelo mais fraco pode avaliar a correção de um modelo mais forte?

Por definição, os modelos mais fortes (especialistas) possuem as informações necessárias para responder à pergunta, enquanto os modelos mais fracos (não especialistas) carecem dessa informação.

O método de avaliação é o debate, no qual dois especialistas em LLM defendem respostas diferentes, em vez de os especialistas escolherem as respostas.


Os resultados mostraram que o debate ajudou consistentemente modelos não especialistas e humanos a responder melhor às perguntas, alcançando 76% e 88% de precisão, respectivamente (a linha de base foi de 48% e 60%, respectivamente).

Além disso, optimizar a capacidade de persuasão dos debatedores especializados através de meios não supervisionados melhora a capacidade dos não especialistas para identificar a verdade nos debates.


Artigo 9: Genie: Ambientes Interativos Gerativos

Elenco: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Instituição: Universidade de Columbia, Google DeepMind


Endereço do artigo: https://arxiv.org/pdf/2402.15391

O modelo básico do mundo lançado pela equipe do Google DeepMind - Genie "Elf".

A partir de uma imagem, uma foto, um esboço, pode gerar um mundo sem fim.


A loucura do Genie é que ele aprendeu com 200 mil horas de vídeos não rotulados na Internet e treinou sem supervisão.

Sem nenhuma anotação de ação, é possível determinar quem é o protagonista e dar ao usuário controle sobre ele no mundo gerado.

Especificamente, ele é implementado por meio de três componentes principais: modelo de ação latente, segmentador de vídeo e modelo dinâmico autorregressivo.


O espaço de ação latente aprendido resultante não apenas permite a interação do usuário, mas também ajuda a treinar agentes para imitar comportamentos em vídeos não vistos.

Resumindo, Genie abre uma nova maneira de cultivar futuros agentes generalistas e remodela o cenário de ambientes generativos interativos.

Artigo 10: VideoPoet: Um Modelo de Linguagem Ampla para Geração de Vídeo Zero-Shot

Elenco: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Instituição: Universidade Carnegie Mellon, Google


Endereço do artigo: https://arxiv.org/pdf/2312.14125

Antes do lançamento do Sora, o Google e a equipe CMU lançaram o VideoPoet, uma tecnologia de geração de vídeo semelhante ao Sora, em um roteiro técnico em dezembro de 2023.

O VideoPoet pode gerar 10 segundos de vídeo de grande ação coerente e ultralongo por vez, e nenhum dado específico é necessário para gerar o vídeo.


Especificamente, VideoPoet inclui principalmente os seguintes componentes:

- O tokenizer de vídeo MAGVIT V2 pré-treinado e o tokenizer de áudio SoundStream podem converter imagens, vídeos e clipes de áudio de diferentes comprimentos em sequências de código discretas em um vocabulário unificado. Esses códigos são compatíveis com modelos de linguagem textual e podem ser facilmente combinados com outras modalidades como o texto.

- O modelo de linguagem autoregressivo pode realizar aprendizagem cross-modal entre vídeo, imagem, áudio e texto, e prever o próximo token de vídeo ou áudio na sequência de maneira autorregressiva.

- Uma variedade de objetivos de aprendizagem de geração multimodal são introduzidos na estrutura de treinamento do grande modelo de linguagem, incluindo texto para vídeo, texto para imagem, imagem para vídeo, continuação de quadro de vídeo, reparo/expansão de vídeo, estilização de vídeo e vídeo para áudio, etc. . Além disso, essas tarefas podem ser combinadas entre si para obter capacidades adicionais de amostra zero (por exemplo, texto para áudio).


Diferente dos modelos líderes, o VideoPoet não se baseia em um modelo de difusão, mas sim em um grande modelo multimodal, que pode ter T2V, V2A e outros recursos.

Resumindo, VideoPoet tem três grandes vantagens: gerar vídeos mais longos, obter um controle mais preciso e movimentos de câmera poderosos.


Prêmio de Melhor Revisor

O melhor de tudo é que na conferência ICML 2024 também foi anunciado o Prêmio de Melhor Revisor.


Referências:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211