notícias

Anunciado o Grande Prêmio ACL 2024! Equipe totalmente chinesa usa IA para decifrar código Oracle de 3.000 anos

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]ACL, a principal conferência anual de PNL, anunciou o artigo vencedor final. Este ano, um total de 7 artigos ganharam o melhor artigo, e os prêmios de teste de tempo foram concedidos a Stanford GloVe e Cornell University Similarity Measure. Além disso, há o Prêmio de Melhor Tópico, Prêmio de Melhor Impacto Social, Prêmio de Melhor Recurso, Prêmio de Presidente de Área e Prêmio de Artigo Extraordinário.

Os prêmios ACL 2024 finalmente foram lançados!

Um total de 7 melhores artigos, 35 artigos de destaque, bem como o Prêmio Time Test, Prêmio SAC, Melhor Artigo Temático, Prêmio de Melhor Artigo de Recursos, etc.

Vale ressaltar que entre os 7 melhores artigos, Deciphering Oracle Bone Language with Diffusion Models foi concluído por uma equipe totalmente chinesa.




Este ano é a 26ª conferência anual da Conferência Internacional de Linguística Computacional (ACL), que foi inaugurada em Bangkok, Tailândia, de 11 a 16 de agosto.


O número total de artigos submetidos para o ACL 2024 é quase igual ao de 2023, cerca de 5.000 artigos, dos quais 940 trabalhos foram aceitos.


Esta ACL é a maior da história, com um total de 72 SACs, 716 ACs e 4.208 revisores.

975 artigos de descoberta, 6 JCL, 31 TACL, 3 discursos principais e 1 painel.

Toda a conferência também incluiu 18 workshops, 6 tutoriais, 38 demonstrações e 60 artigos sobre SRW.


Os detalhes específicos de submissão dos autores do artigo são os seguintes:

Mais artigos submetidos 1/2: 10.333 acadêmicos submetidos 1 e 2.130 submetidos 2

Um pequeno número de pessoas submeteram vários artigos: 3 autores submeteram 18 artigos, 6 pessoas submeteram 19 artigos e 18 pessoas submeteram mais de 20 artigos.


Vamos dar uma olhada, quais equipes ganharam os prêmios este ano?

7 melhores artigos

Artigo 1: Decifrando a linguagem Oracle Bone com modelos de difusão

Elenco: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu

Instituições: Universidade de Ciência e Tecnologia de Huazhong, Universidade de Adelaide, Universidade Normal de Anyang, Universidade de Tecnologia do Sul da China


Endereço do artigo: https://arxiv.org/pdf/2406.00684

Como o título indica, a equipe chinesa usou IA para fazer algo muito interessante e valioso – decifrar o Oracle (OBS) com a ajuda de um modelo de difusão.

As inscrições em ossos oráculos originaram-se na dinastia Shang, na China, há cerca de 3.000 anos e são uma pedra angular na história da linguagem.

Embora milhares de inscrições tenham sido descobertas, muitas das inscrições em ossos de oráculos permanecem indecifradas, lançando um véu de mistério sobre esta língua antiga.

No artigo, o autor apresenta um novo método de geração de IA a partir de imagens, principalmente o desenvolvimento do "Oracle Bone Script Decipher" (OBSD).


Usando uma estratégia baseada na difusão condicional, o OBSD gerou importantes pistas de decifração e abriu um novo caminho para a análise de línguas antigas assistida por IA.

Para verificar a sua eficácia, os investigadores realizaram um grande número de experiências no conjunto de dados Oracle, e os resultados quantitativos comprovaram a eficácia do OBSD.

论文2:Satisfabilidade da linguagem natural: explorando a distribuição do problema e avaliando modelos de linguagem baseados em transformadores

(A pré-impressão ainda não foi enviada)

Artigo 3: Estimativa Causal de Perfis de Memorização

Elenco: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel

Instituição: Universidade de Cambridge, ETH Zurique


Endereço do artigo: https://arxiv.org/pdf/2406.04327

Compreender a memória do LLM tem implicações importantes para a prática e a sociedade, como o estudo de dinâmicas de treinamento modelo ou a prevenção de violações de direitos autorais.

Pesquisas anteriores definem memória como a resposta causal à capacidade de um modelo de prever aquela instância por meio do treinamento nessa instância.

Esta definição baseia-se num contrafactual: ser capaz de observar o que teria acontecido se o modelo não tivesse visto a instância.

No entanto, os métodos existentes geralmente visam a arquitetura do modelo em vez de estimar a memória para instâncias específicas do modelo, tornando difícil fornecer estimativas contrafactuais precisas e eficientes do ponto de vista computacional.

Este estudo preenche uma lacuna importante, pois os autores propõem um novo método eficiente e com princípios para estimar a memoização com base em designs de diferenças em diferenças em econometria.

Utilizando este método, apenas observando o comportamento de um pequeno número de instâncias durante todo o processo de treinamento, é possível descrever o perfil de memória do modelo, ou seja, a tendência de memória do modelo ao longo do processo de treinamento.

Em experimentos com o conjunto de modelos Pythia, os pesquisadores descobriram:

(1) Modelos grandes possuem memórias mais fortes e duráveis;

(2) Determinado pela ordem dos dados e taxa de aprendizagem;

(3) Existem tendências estáveis ​​em modelos de diferentes tamanhos, de modo que a memória de modelos grandes é tão previsível quanto a memória de modelos pequenos.


Artigo 4: Modelo Aya: um modelo de linguagem multilíngue de acesso aberto e com instruções ajustadas

Elenco: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker

Instituições: Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT


Endereço do artigo: https://arxiv.org/pdf/2402.07827

Em fevereiro deste ano, a startup Cohere lançou um novo modelo de geração de linguagem em larga escala de código aberto chamado Aya, cobrindo mais de 101 idiomas.

Vale ressaltar que a cobertura do modelo de linguagem Aya é mais que o dobro dos modelos de código aberto existentes, superando mT0 e BLOOMZ.

A pontuação da avaliação humana chega a 75%, e a pontuação em vários testes simulados de taxa de vitória é de 80-90%.

O projeto foi lançado, reunindo mais de 3.000 pesquisadores independentes de 119 países.

Além disso, os pesquisadores também divulgaram o maior conjunto de dados de ajuste fino de orientação multilíngue até o momento, contendo 513 milhões de dados, abrangendo 114 idiomas.

Artigo 5: Missão: Modelos de Linguagem Impossíveis

Elenco: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts

Instituição: Universidade de Stanford, Universidade da Califórnia, Irvine, Universidade do Texas em Austin


Endereço do artigo: https://arxiv.org/pdf/2401.06416

Chomsky e outros afirmaram sem rodeios que o LLM tem a mesma capacidade de aprender línguas que são possíveis e impossíveis de serem aprendidas pelos humanos.

No entanto, há pouca evidência experimental publicada para apoiar esta afirmação.

Para fazer isso, os pesquisadores desenvolveram um conjunto de "línguas impossíveis" sintéticas de complexidade variável, cada uma projetada alterando sistematicamente os dados em inglês e usando ordem de palavras e regras gramaticais não naturais.

Essas línguas estão em um continuum de línguas impossíveis: em uma extremidade estão línguas completamente impossíveis, como o inglês reorganizado aleatoriamente, e na outra extremidade estão línguas que são consideradas linguisticamente impossíveis, como aquelas baseadas em regras de contagem de posição de palavras. .


Após uma série de avaliações, o GPT-2 é muito difícil de aprender linguagens impossíveis, o que desafia a ideia central.

Mais importante ainda, os investigadores esperam que esta abordagem conduza a mais pesquisas sobre a capacidade do LLM de aprender diferentes tipos de línguas, de modo a compreender melhor as aplicações potenciais do LLM na investigação de tipologia cognitiva e linguística.

Artigo 6: Reconstrução de protolinguagem neural semissupervisionada

Autor: Liang Lu, Peirong Xie, David R. Mortensen

Instituição: Universidade Carnegie Mellon, Universidade do Sul da Califórnia


Endereço do artigo: https://arxiv.org/pdf/2406.05930

O trabalho existente de comparação e reconstrução de línguas nativas geralmente requer supervisão total.

No entanto, os modelos de reconstrução histórica só têm valor prático quando treinados com dados anotados limitados.

Em resposta, os pesquisadores propuseram uma tarefa semissupervisionada de reconstrução da história.

Nesta tarefa, o modelo só precisa ser treinado em uma pequena quantidade de dados rotulados (um conjunto homólogo com protótipos) e uma grande quantidade de dados não rotulados (um conjunto homólogo sem protótipos).

O autor desenvolveu uma arquitetura neural para reconstrução comparativa - DPD-BiReconstructor, que contém um ponto importante nos métodos comparativos dos linguistas: palavras reconstruídas podem não apenas ser reconstruídas a partir de suas subpalavras, mas também podem ser transformadas deterministicamente de volta às suas subpalavras .

Mostramos que esta arquitetura é capaz de aproveitar conjuntos não rotulados de palavras cognatas e superar as linhas de base de aprendizagem semissupervisionadas existentes nesta nova tarefa.

Artigo 7: Por que as funções sensíveis são difíceis para transformadores?

Autor: Michael Hahn, Mark Rofin

Instituição: Universidade do Sarre


Endereço do artigo: https://arxiv.org/pdf/2402.09963

A pesquisa empírica descobriu uma série de vieses e limitações de aprendizagem do modelo Transformer, como a dificuldade em aprender a calcular linguagens formais simples (como PARITY) e sua tendência a trabalhar com funções de ordem inferior.

No entanto, a compreensão teórica permanece limitada e as teorias existentes sobre a capacidade expressiva superestimam ou subestimam a capacidade real de aprendizagem.

Os pesquisadores demonstraram que na arquitetura do Transformer, o cenário de perdas é limitado pela sensibilidade do espaço de entrada:

Modelos de transformadores cujas saídas são sensíveis a múltiplas partes da cadeia de entrada ocupam pontos isolados no espaço de parâmetros, resultando em viés de baixa sensibilidade na generalização.

A pesquisa demonstra teórica e empiricamente que a teoria mais recente unifica observações empíricas sobre as habilidades e preconceitos de aprendizagem do Transformer, como sua preferência por sensibilidade de solo e funções de ordem inferior, e dificuldade com problemas de paridade e comprimento.

Isto sugere que a compreensão do viés indutivo do transformador requer o estudo não apenas de sua expressividade em princípio, mas também de seu cenário de perdas.

2 prêmios de teste de tempo

Artigo 1: GloVe: Vetores globais para representação de palavras (2014)

Autor: Jeffrey Pennington, Richard Socher, Christopher Manning

Instituição: Universidade de Stanford


Endereço do artigo: https://nlp.stanford.edu/pubs/glove.pdf

A incorporação de palavras foi a base dos métodos de aprendizagem profunda para PNL entre 2013 e 2018 e continua a ter um grande impacto. Eles não apenas melhoram o desempenho das tarefas de PNL, mas também têm um impacto significativo na semântica computacional, como similaridade e analogia de palavras.

Provavelmente, os dois métodos de incorporação de palavras mais influentes são skip-gram/CBOW e GloVe. Comparado ao skip-gram, o GloVe foi proposto posteriormente. Sua vantagem relativa reside em sua simplicidade conceitual - otimizando sua similaridade no espaço vetorial diretamente com base nas características de distribuição das palavras, e não na perspectiva de simplificação da modelagem da linguagem. um conjunto de parâmetros para otimização indireta.

Artigo 2: Medidas de Similaridade Distribucional (1999)

Autor: Lilian Lee

Instituição: Universidade Cornell


Endereço do artigo: https://aclanthology.org/P99-1004.pdf

O estudo de medidas de similaridade de distribuição visa melhorar a estimativa de probabilidade de eventos de coocorrência não vistos, o que equivale a outra forma de caracterizar a similaridade entre palavras.

A contribuição do artigo é tripla: uma extensa comparação empírica de diversas medidas; uma classificação baseada nas informações contidas na função de similaridade e a introdução de uma nova função com bom desempenho na avaliação de distribuições de agentes potenciais;



1 melhor artigo temático

Tese: OLMo: Acelerando a Ciência dos Modelos de Linguagem

Elenco: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi

Instituições: Instituto Allen de Inteligência Artificial, Universidade de Washington, Universidade de Yale, Universidade de Nova York, Universidade Carnegie Mellon


Endereço do artigo: https://arxiv.org/abs/2402.00838

Este trabalho é um avanço significativo na melhoria da transparência e reprodutibilidade do treinamento de grandes modelos linguísticos, algo que a comunidade está ansiosa para fazer progresso (ou pelo menos para permitir que outros contribuidores além dos gigantes da indústria contribuam para o progresso).

3 prêmios de melhor impacto social

论文1:Como Johnny pode persuadir LLMs a fazer o jailbreak deles: repensando a persuasão para desafiar a segurança da IA ​​humanizando LLMs

Elenco: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi

Instituições: Virginia Tech, Universidade Renmin da China, Universidade da Califórnia, Davis, Universidade de Stanford


Endereço do artigo: https://arxiv.org/abs/2401.06373

Este artigo explora o tópico de segurança da inteligência artificial para contornar restrições. Ele examina um método desenvolvido no campo da pesquisa em ciências sociais. A pesquisa é fascinante e tem potencial para ter um impacto significativo na comunidade.

论文2:DIALECTBENCH: Um benchmark de PNL para dialetos, variedades e línguas intimamente relacionadas

Elenco: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos

Instituições: Universidade George Mason, Universidade de Washington, Universidade de Notre Dame, RC Athena


Endereço do artigo: https://arxiv.org/abs/2403.11009

A variação dialetal é um fenômeno pouco pesquisado no processamento de linguagem natural e na inteligência artificial. No entanto, a sua investigação é de grande valor, não só do ponto de vista linguístico e social, mas também tem implicações importantes para as aplicações. Este artigo propõe um benchmark inovador para estudar este problema na era dos grandes modelos de linguagem.

Artigo 3: Tomando cerveja depois da oração? Medindo o preconceito cultural em grandes modelos de linguagem

Autor: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu

Instituição: Instituto de Tecnologia da Geórgia


Endereço do artigo: https://arxiv.org/abs/2305.14456

Este artigo revela uma questão importante na era dos grandes modelos linguísticos: o preconceito cultural. Embora o contexto do estudo seja a cultura e a língua árabe, os resultados mostram que precisamos considerar nuances culturais ao projetar grandes modelos linguísticos. Portanto, estudos semelhantes poderiam ser realizados em outras culturas para generalizar e avaliar se outras culturas também são afetadas por este problema.

3 melhores artigos de recursos

Artigo 1: Latxa: um modelo de linguagem aberta e conjunto de avaliação para o basco

Elenco:Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa

Instituição: Universidade do País Basco


Endereço do artigo: https://arxiv.org/abs/2403.20266

Este artigo descreve detalhadamente todos os detalhes dos conjuntos de dados de coleta e avaliação do corpus. Embora tenham estudado a língua basca, esta abordagem pode ser estendida para construir grandes modelos de linguagem para linguagens de poucos recursos.

论文2:Dolma: um corpus aberto de três trilhões de tokens para pesquisa de pré-treinamento de modelos de linguagem

Elenco: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

Instituições: Instituto Allen de Inteligência Artificial, UC Berkeley, Universidade Carnegie Mellon, Spiffy AI, MIT, Universidade de Washington


Endereço do artigo: https://arxiv.org/abs/2402.00159

Este artigo ilustra a importância da curadoria de dados ao preparar conjuntos de dados para grandes modelos de linguagem. Ele fornece informações valiosas que podem beneficiar um amplo público na comunidade.

论文3:AppWorld: Um mundo controlável de aplicativos e pessoas para avaliação comparativa de agentes de codificação interativos

Elenco: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian

Instituições: Universidade Estadual de Nova York em Stony Brook, Instituto Allen de Inteligência Artificial, Universidade de Saarland


Endereço do artigo: https://arxiv.org/abs/2407.18901

Esta é uma tentativa muito impressionante e importante de construir um simulador e ambiente de avaliação para interação humano-computador. Isto incentivará a produção de benchmarks dinâmicos desafiadores para a comunidade.

Prêmio Presidente de Campo de 21 Artigos





35 artigos pendentes


(Esta imagem está incompleta)






Referências:

https://x.com/aclmeeting/status/1823664612677705762