Mi información de contacto
Correo[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuevo informe de sabiduría
Editor: Departamento Editorial
[Introducción a la Nueva Sabiduría]ACL, la principal conferencia anual de PNL, anunció el artículo ganador final. Este año, un total de 7 artículos ganaron el mejor artículo y los premios de la prueba de tiempo fueron otorgados a Stanford GloVe y Cornell University Similarity Measure. Además, están el premio al mejor tema, el premio al mejor impacto social, el premio al mejor recurso, el premio al presidente de área y el premio al artículo destacado.
¡Los premios ACL 2024 finalmente están disponibles!
Se anunciaron un total de 7 mejores artículos, 35 artículos destacados, así como el premio Time Test, el premio SAC, el premio al mejor artículo temático, el premio al mejor artículo de recursos, etc.
Vale la pena mencionar que entre los 7 mejores artículos, un equipo totalmente chino completó Descifrando el lenguaje óseo de Oracle con modelos de difusión.
Este año es la 26ª conferencia anual de la Conferencia Internacional sobre Lingüística Computacional (ACL), que se inauguró en Bangkok, Tailandia, del 11 al 16 de agosto.
El número total de artículos presentados para ACL 2024 es casi el mismo que el de 2023, aproximadamente 5.000 artículos, de los cuales 940 fueron aceptados.
Esta ACL es la más grande de la historia, con un total de 72 SAC, 716 AC y 4208 revisores.
975 artículos de investigación, 6 JCL, 31 TACL, 3 discursos de apertura y 1 panel.
Toda la conferencia también incluyó 18 talleres, 6 tutoriales, 38 demostraciones y 60 artículos SRW.
Los detalles específicos de envío de los autores del artículo son los siguientes:
La mayoría presentó 1/2 artículos: 10,333 académicos presentaron 1 y 2,130 presentaron 2
Un pequeño número de personas envió varios artículos: 3 autores enviaron 18 artículos, 6 personas presentaron 19 artículos y 18 personas enviaron más de 20 artículos.
Echemos un vistazo, ¿qué equipos ganaron los premios este año?
7 mejores artículos
Documento 1: Descifrando el lenguaje óseo de Oracle con modelos de difusión
Ejemplo: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
Instituciones: Universidad de Ciencia y Tecnología de Huazhong, Universidad de Adelaida, Universidad Normal de Anyang, Universidad de Tecnología del Sur de China
Dirección del artículo: https://arxiv.org/pdf/2406.00684
Como indica el título, el equipo chino utilizó IA para hacer algo muy interesante y valioso: descifrar Oracle (OBS) con la ayuda de un modelo de difusión.
Las inscripciones en huesos de oráculos se originaron en la dinastía Shang de China hace unos 3.000 años y son una piedra angular en la historia del lenguaje.
Aunque se han descubierto miles de inscripciones, muchas de las inscripciones en huesos del oráculo siguen sin descifrarse, lo que arroja un velo de misterio sobre este antiguo idioma.
En el artículo, el autor presenta un nuevo método para generar IA utilizando imágenes, especialmente el desarrollo de "Oracle Bone Script Decipher" (OBSD).
Utilizando una estrategia basada en la difusión condicional, OBSD generó importantes pistas de descifrado y abrió un nuevo camino para el análisis de lenguas antiguas asistido por IA.
Para verificar su efectividad, los investigadores realizaron una gran cantidad de experimentos en el conjunto de datos de Oracle y los resultados cuantitativos demostraron la efectividad de OBSD.
Capítulo 2: Satisfacción del lenguaje natural: exploración de la distribución del problema y evaluación de modelos de lenguaje basados en transformadores
(La preimpresión aún no se ha enviado)
Documento 3: Estimación causal de los perfiles de memorización
Autor: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Institución: Universidad de Cambridge, ETH Zurich
Dirección del artículo: https://arxiv.org/pdf/2406.04327
Comprender la memoria de LLM tiene implicaciones importantes para la práctica y la sociedad, como estudiar la dinámica de formación de modelos o prevenir la infracción de derechos de autor.
Investigaciones anteriores definen la memoria como la respuesta causal a la capacidad de un modelo para predecir esa instancia mediante el entrenamiento en esa instancia.
Esta definición se basa en un contrafactual: poder observar lo que habría sucedido si el modelo no hubiera visto la instancia.
Sin embargo, los métodos existentes generalmente apuntan a la arquitectura del modelo en lugar de estimar la memoria para instancias específicas del modelo, lo que dificulta proporcionar estimaciones contrafactuales precisas y computacionalmente eficientes.
Este estudio llena un vacío importante ya que los autores proponen un nuevo método eficiente y basado en principios para estimar la memorización basado en diseños de diferencias en diferencias en econometría.
Con este método, solo observando el comportamiento de una pequeña cantidad de instancias durante todo el proceso de entrenamiento, se puede describir el perfil de memoria del modelo, es decir, la tendencia de la memoria del modelo durante todo el proceso de entrenamiento.
En experimentos con el conjunto de modelos Pythia, los investigadores encontraron:
(1) Los modelos grandes tienen memorias más fuertes y duraderas;
(2) Determinado por el orden de los datos y la tasa de aprendizaje;
(3) Existen tendencias estables en modelos de diferentes tamaños, por lo que la memoria de los modelos grandes es tan predecible como la memoria de los modelos pequeños.
Documento 4: Modelo Aya: un modelo de lenguaje multilingüe de acceso abierto perfeccionado con instrucciones
Ejemplo: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
Instituciones: Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT
Dirección del artículo: https://arxiv.org/pdf/2402.07827
En febrero de este año, la startup Cohere lanzó un nuevo modelo de generación de lenguajes a gran escala de código abierto llamado Aya, que cubre más de 101 idiomas.
Vale la pena mencionar que la cobertura del modelo de lenguaje modelo Aya es más del doble que la de los modelos de código abierto existentes, superando a mT0 y BLOOMZ.
La puntuación de la evaluación humana alcanza el 75% y la puntuación en varias pruebas de tasa de ganancia simuladas es del 80-90%.
El proyecto se puso en marcha y reunió a más de 3.000 investigadores independientes de 119 países.
Además, los investigadores también revelaron el conjunto de datos de ajuste de orientación multilingüe más grande hasta la fecha, que contiene 513 millones de datos y cubre 114 idiomas.
Documento 5: Misión: Modelos de lenguaje imposibles
Autores: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Institución: Universidad de Stanford, Universidad de California, Irvine, Universidad de Texas en Austin
Dirección del artículo: https://arxiv.org/pdf/2401.06416
Chomsky y otros han afirmado sin rodeos que LLM tiene la misma capacidad para aprender idiomas que son posibles e imposibles de aprender para los humanos.
Sin embargo, hay poca evidencia experimental publicada que respalde esta afirmación.
Para hacer esto, los investigadores desarrollaron un conjunto de "lenguajes imposibles" sintéticos de diversa complejidad, cada uno diseñado alterando sistemáticamente datos en inglés y utilizando un orden de palabras y reglas gramaticales antinaturales.
Estos idiomas se encuentran en un continuo de idiomas imposibles: en un extremo están los idiomas completamente imposibles, como el inglés reorganizado aleatoriamente, y en el otro extremo están los idiomas que se consideran lingüísticamente imposibles, como los que se basan en reglas de conteo de posición de palabras. .
Después de una serie de evaluaciones, es muy difícil para GPT-2 aprender idiomas imposibles, lo que desafía la idea central.
Más importante aún, los investigadores esperan que este enfoque conduzca a más investigaciones sobre la capacidad de LLM para aprender diferentes tipos de idiomas, a fin de comprender mejor las aplicaciones potenciales de LLM en la investigación de tipología cognitiva y lingüística.
Documento 6: Reconstrucción del protolenguaje neuronal semisupervisada
Autor: Liang Lu, Peirong Xie, David R. Mortensen
Institución: Universidad Carnegie Mellon, Universidad del Sur de California
Dirección del artículo: https://arxiv.org/pdf/2406.05930
Los trabajos de comparación y reconstrucción de lenguas nativas existentes suelen requerir una supervisión total.
Sin embargo, los modelos de reconstrucción histórica sólo tienen valor práctico cuando se entrenan con datos anotados limitados.
En respuesta, los investigadores propusieron una tarea de reconstrucción histórica semisupervisada.
En esta tarea, el modelo solo necesita entrenarse con una pequeña cantidad de datos etiquetados (un conjunto homólogo con prototipos) y una gran cantidad de datos no etiquetados (un conjunto homólogo sin prototipos).
El autor desarrolló una arquitectura neuronal para la reconstrucción comparativa, DPD-BiReconstructor, que contiene un punto importante en los métodos comparativos de los lingüistas: las palabras reconstruidas no sólo pueden reconstruirse a partir de sus subpalabras, sino que también pueden transformarse de manera determinista Volver a sus subpalabras .
Mostramos que esta arquitectura es capaz de aprovechar conjuntos de palabras afines sin etiquetar y superar las líneas de base de aprendizaje semisupervisadas existentes en esta nueva tarea.
Documento 7: ¿Por qué las funciones sensibles son difíciles para los transformadores?
Autor: Michael Hahn, Mark Rofin
Institución: Universidad del Sarre
Dirección del artículo: https://arxiv.org/pdf/2402.09963
La investigación empírica ha descubierto una serie de sesgos de aprendizaje y limitaciones del modelo Transformer, como la dificultad para aprender a calcular lenguajes formales simples (como PARITY) y su tendencia a trabajar con funciones de bajo orden.
Sin embargo, la comprensión teórica sigue siendo limitada y las teorías existentes sobre la capacidad expresiva sobreestiman o subestiman la capacidad real de aprendizaje.
Los investigadores demostraron que bajo la arquitectura Transformer, el panorama de pérdidas está limitado por la sensibilidad del espacio de entrada:
Los modelos de transformadores cuyas salidas son sensibles a múltiples partes de la cadena de entrada ocupan puntos aislados en el espacio de parámetros, lo que resulta en un sesgo de baja sensibilidad en la generalización.
La investigación demuestra tanto teórica como empíricamente que la última teoría unifica las observaciones empíricas sobre las capacidades y sesgos de aprendizaje de los transformadores, como su preferencia por la sensibilidad del terreno y las funciones de bajo orden, y la dificultad con los problemas de paridad y longitud.
Esto sugiere que comprender la polarización inductiva del transformador requiere estudiar no sólo su expresividad en principio sino también su panorama de pérdidas.
2 premios de prueba de tiempo
Documento 1: GloVe: Vectores globales para la representación de palabras (2014)
Autor: Jeffrey Pennington, Richard Socher, Christopher Manning
Institución: Universidad de Stanford
Dirección del artículo: https://nlp.stanford.edu/pubs/glove.pdf
La incrustación de palabras fue la piedra angular de los métodos de aprendizaje profundo para PNL entre 2013 y 2018, y continúa teniendo un gran impacto. No solo mejoran el desempeño de las tareas de PNL, sino que también tienen un impacto significativo en la semántica computacional, como la similitud y analogía de palabras.
Probablemente los dos métodos de incrustación de palabras más influyentes son skip-gram/CBOW y GloVe. En comparación con skip-gram, GloVe se propuso más tarde. Su ventaja relativa radica en su simplicidad conceptual: optimiza su similitud en el espacio vectorial directamente en función de las características de distribución de las palabras, en lugar de desde la perspectiva de simplificar el modelado del lenguaje, que se utiliza como. un conjunto de parámetros para la optimización indirecta.
Documento 2: Medidas de similitud distribucional (1999)
Autor: Lillian Lee
Institución: Universidad de Cornell
Dirección del artículo: https://aclanthology.org/P99-1004.pdf
El estudio de las medidas de similitud de distribución tiene como objetivo mejorar la estimación de la probabilidad de eventos de coexistencia invisibles, lo que equivale a otra forma de caracterizar la similitud entre palabras.
La contribución del artículo es triple: una comparación empírica extensa de varias medidas; una clasificación basada en la información contenida en la función de similitud y la introducción de una nueva función que funciona bien en la evaluación de distribuciones potenciales de agentes;
1 mejor artículo temático
Tesis: OLMo: Acelerando la ciencia de los modelos lingüísticos
Guión: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Instituciones: Instituto Allen de Inteligencia Artificial, Universidad de Washington, Universidad de Yale, Universidad de Nueva York, Universidad Carnegie Mellon
Dirección del artículo: https://arxiv.org/abs/2402.00838
Este trabajo es un avance significativo en la mejora de la transparencia y reproducibilidad de la capacitación en modelos de lenguajes grandes, algo que la comunidad está ansiosa por lograr avances (o al menos permitir que otros contribuyentes además de los gigantes de la industria contribuyan al progreso) necesarios.
3 Premios al Mejor Impacto Social
Capítulo 1: Cómo Johnny puede persuadir a los LLM para que los liberen: repensar la persuasión para desafiar la seguridad de la IA humanizando los LLM
Ejemplo: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi.
Instituciones: Virginia Tech, Universidad Renmin de China, Universidad de California, Davis, Universidad de Stanford
Dirección del artículo: https://arxiv.org/abs/2401.06373
Este artículo explora el tema de la seguridad de la inteligencia artificial sobre cómo eludir las restricciones. Examina un método desarrollado en el campo de la investigación en ciencias sociales. La investigación es fascinante y tiene el potencial de tener un impacto significativo en la comunidad.
Ejemplo 2: DIALECTBENCH: un punto de referencia de PNL para dialectos, variedades e idiomas estrechamente relacionados
Ejemplo: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos
Instituciones: Universidad George Mason, Universidad de Washington, Universidad de Notre Dame, RC Athena
Dirección del artículo: https://arxiv.org/abs/2403.11009
La variación dialectal es un fenómeno poco investigado en el procesamiento del lenguaje natural y la inteligencia artificial. Sin embargo, su investigación es de gran valor, no sólo desde una perspectiva lingüística y social, sino que también tiene importantes implicaciones para las aplicaciones. Este artículo propone un punto de referencia innovador para estudiar este problema en la era de los grandes modelos lingüísticos.
Documento 3: ¿Tomar cerveza después de orar? Medición del sesgo cultural en modelos de lenguaje grandes
Autor: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Institución: Instituto de Tecnología de Georgia
Dirección del artículo: https://arxiv.org/abs/2305.14456
Este artículo revela un problema importante en la era de los grandes modelos lingüísticos: el sesgo cultural. Aunque el contexto del estudio es la cultura y el idioma árabes, los resultados muestran que debemos considerar los matices culturales al diseñar modelos lingüísticos grandes. Por tanto, se podrían realizar estudios similares en otras culturas para generalizar y evaluar si otras culturas también se ven afectadas por este problema.
3 mejores artículos de recursos
Documento 1: Latxa: un modelo de lenguaje abierto y un paquete de evaluación para el euskera
Guión: Julen Etxaniz, Oscar Sainz, Naiara Pérez, Itziar Aldabe, Germán Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
Institución: Universidad del País Vasco
Dirección del artículo: https://arxiv.org/abs/2403.20266
Este artículo describe en detalle todos los detalles de la recopilación de corpus y los conjuntos de datos de evaluación. Aunque estudiaron el idioma vasco, este enfoque se puede ampliar para construir modelos lingüísticos grandes para idiomas de bajos recursos.
Capítulo 2: Dolma: un corpus abierto de tres billones de tokens para la investigación de preentrenamiento de modelos lingüísticos
Guión: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
Instituciones: Instituto Allen de Inteligencia Artificial, UC Berkeley, Universidad Carnegie Mellon, Spiffy AI, MIT, Universidad de Washington
Dirección del artículo: https://arxiv.org/abs/2402.00159
Este artículo ilustra la importancia de la curación de datos al preparar conjuntos de datos para modelos de lenguaje grandes. Proporciona información valiosa que puede beneficiar a una amplia audiencia dentro de la comunidad.
Capítulo 3: AppWorld: un mundo controlable de aplicaciones y personas para evaluar los agentes de codificación interactiva
Traducción: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
Instituciones: Universidad Estatal de Nueva York en Stony Brook, Instituto Allen de Inteligencia Artificial, Universidad del Sarre
Dirección del artículo: https://arxiv.org/abs/2407.18901
Este es un intento muy impresionante e importante de construir un simulador y un entorno de evaluación para la interacción persona-computadora. Esto fomentará la producción de puntos de referencia dinámicos desafiantes para la comunidad.
21 Artículos Premio del Presidente de Campo
35 artículos destacados
(Esta imagen está incompleta)
Referencias:
https://x.com/aclmeeting/status/1823664612677705762