Mi información de contacto
Correo[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Informe del corazón de la máquina
Departamento editorial de Machine Heart
Los contribuyentes ganaron mucho con esta conferencia de ACL.
La ACL 2024 de seis días de duración se llevará a cabo en Bangkok, Tailandia.
ACL es la principal conferencia internacional en el campo de la lingüística computacional y el procesamiento del lenguaje natural. Está organizada por la Asociación Internacional de Lingüística Computacional y se celebra anualmente. ACL siempre ha ocupado el primer lugar en influencia académica en el campo de la PNL y también es una conferencia recomendada por CCF-A.
La conferencia ACL de este año es la número 62 y ha recibido más de 400 trabajos de vanguardia en el campo de la PNL. Ayer por la tarde, la conferencia anunció el mejor artículo y otros premios. En esta ocasión, se otorgaron 7 premios al mejor artículo (dos inéditos), 1 premio al mejor artículo temático y 35 premios al artículo destacado.
La conferencia también otorgó 3 premios a los recursos, 3 premios al impacto social y 2 premios a la prueba del tiempo.
Además, el premio Lifetime Achievement Award en esta conferencia fue otorgado a Ralph Grishman, profesor del Departamento de Ciencias de la Computación de la Universidad de Nueva York.
La siguiente es información específica sobre premios.
mejor papel
Documento 1: Misión: Modelos de lenguaje imposibles
Introducción al artículo: Chomsky y otros creen que la capacidad de aprendizaje de los modelos de lenguaje grande (LLM) es la misma para los idiomas que los humanos pueden aprender o no. Sin embargo, hay poca evidencia experimental publicada que respalde esta afirmación.
El estudio desarrolló un conjunto de lenguajes sintéticos de diversa complejidad, cada uno diseñado alterando sistemáticamente datos en inglés utilizando un orden de palabras y reglas gramaticales antinaturales, con el objetivo de sintetizar lenguajes que serían imposibles de aprender para los humanos.
El estudio realizó extensos experimentos de evaluación para evaluar la capacidad del modelo pequeño GPT-2 para aprender estos "lenguajes imposibles" y realizó estas evaluaciones en diferentes etapas durante el entrenamiento para comparar el proceso de aprendizaje de cada idioma. El hallazgo principal del estudio es que GPT-2 es difícil de aprender "lenguajes imposibles" en comparación con el inglés, lo que desafía las afirmaciones de Chomsky y otros.
Más importante aún, el estudio espera que su enfoque abra una línea de investigación fructífera, permitiendo probar diferentes arquitecturas LLM en una variedad de "lenguajes imposibles" para comprender cómo se puede utilizar LLM como una herramienta de investigación cognitiva y tipológica.
Documento 2: ¿Por qué las funciones sensibles son difíciles para los transformadores?
Resumen: Los estudios experimentales han identificado una variedad de sesgos de aprendizaje y limitaciones de los transformadores, como la dificultad persistente para aprender a calcular lenguajes formales simples como PARIDAD, y un sesgo hacia funciones de bajo grado. Sin embargo, la comprensión teórica sigue siendo limitada y las teorías de representación existentes sobreestiman o subestiman las capacidades de aprendizaje realistas.
Este estudio demuestra que bajo la arquitectura del transformador, el panorama de pérdidas está limitado por la sensibilidad del espacio de entrada: los transformadores cuyas salidas son sensibles a muchas partes de la cadena de entrada están ubicados en puntos aislados en el espacio de parámetros, lo que resulta en un sesgo de baja sensibilidad en generalización.
Este estudio muestra teórica y experimentalmente que la teoría unifica extensas observaciones experimentales sobre las capacidades y sesgos del aprendizaje transformador, como su sesgo de generalización a baja sensibilidad y grado, y la dificultad de la generalización de longitud de paridad. Esto sugiere que comprender las polarizaciones inductivas de un transformador requiere estudiar no sólo su expresividad en principio sino también su panorama de funciones de pérdida.
Documento 3: Descifrando el lenguaje óseo de Oracle con modelos de difusión
Introducción al artículo: Oracle Bone Script (OBS) se originó en la dinastía Shang de China hace unos 3.000 años. Es la piedra angular de la historia del lenguaje y es anterior a muchos sistemas de escritura establecidos. Aunque se han descubierto miles de inscripciones, un gran número de huesos de oráculos siguen sin descifrarse, lo que envuelve esta antigua lengua con un manto de misterio. El surgimiento de la tecnología moderna de inteligencia artificial ha abierto nuevos campos para el descifrado de Oracle, planteando desafíos a los métodos tradicionales de PNL que dependen en gran medida de grandes corpus de texto.
Este artículo presenta un nuevo método que utiliza tecnología de generación de imágenes para desarrollar un modelo de difusión optimizado para el descifrado de Oracle, Oracle Bone Script Decipher (OBSD). Utilizando la estrategia de difusión condicional, OBSD generó pistas importantes para el descifrado de Oracle y abrió una nueva dirección para el análisis de lenguas antiguas asistido por IA. Para verificar la efectividad, los investigadores realizaron extensos experimentos en el conjunto de datos de Oracle y los resultados cuantitativos demostraron la efectividad de OBSD.
Documento 4: Estimación causal de los perfiles de memorización
Introducción al artículo: Comprender la memoria en los modelos lingüísticos tiene implicaciones prácticas y sociales, como estudiar la dinámica de entrenamiento de los modelos o prevenir la infracción de derechos de autor. Investigaciones anteriores definen la memoria como la relación causal entre "entrenamiento usando una instancia" y "la capacidad del modelo para predecir esa instancia". Esta definición se basa en un contrafactual: la capacidad de observar lo que habría sucedido si el modelo no hubiera visto el caso. Los métodos existentes luchan por proporcionar estimaciones computacionalmente eficientes y precisas de tales contrafactuales. Además, estos métodos suelen estimar la memoria de la arquitectura del modelo en lugar de la memoria de instancias específicas del modelo.
Este artículo llena un vacío importante al proponer un enfoque nuevo, basado en principios y eficiente para estimar la memoria basado en un diseño econométrico de diferencias en diferencias. Con este método, los investigadores solo observan el comportamiento del modelo en una pequeña cantidad de instancias durante todo el proceso de entrenamiento para describir el perfil de memoria del modelo, es decir, su tendencia de memoria durante el proceso de entrenamiento. En experimentos que utilizaron el conjunto de modelos Pythia, descubrieron que la memoria (i) es más fuerte y más persistente en modelos más grandes, (ii) está determinada por el orden de los datos y la tasa de aprendizaje, y (iii) es estable en diferentes tamaños de modelos, por lo que. Los recuerdos en el modelo más grande se pueden predecir a partir del modelo más pequeño.
Documento 5: Modelo Aya: un modelo de lenguaje multilingüe de acceso abierto perfeccionado con instrucción
Introducción al artículo: Los avances recientes en modelos de lenguajes grandes (LLM) se han centrado en una pequeña cantidad de lenguajes ricos en datos. ¿Cómo se pueden ampliar las vías de avance más allá de otros idiomas? La investigación presenta Aya, un modelo de lenguaje generativo multilingüe a gran escala que sigue instrucciones para 101 idiomas, más del 50% de los cuales se consideran de bajos recursos. Aya supera a mT0 y BLOOMZ en la mayoría de las tareas y cubre el doble de idiomas.
Además, la investigación presenta un amplio conjunto de nuevas evaluaciones, ampliando el estado del arte en evaluación multilingüe a 99 idiomas. Finalmente, el estudio proporciona una investigación detallada de la composición óptima de la mezcla ajustada, la poda de datos y la toxicidad, el sesgo y la seguridad del modelo.
Documento 6: Reconstrucción del protolenguaje neuronal semisupervisada
Motivo del premio: Esta investigación innovadora tiene como objetivo semiautomatizar la tarea de reconstrucción de lenguajes prototipo en lingüística histórica, proponiendo una nueva arquitectura semisupervisada. Este método supera a los métodos supervisados anteriores al introducir un proceso de reflexión de "lengua nativa prototipo" en la reconstrucción del "prototipo de lengua nativa". Este artículo es un buen ejemplo de cómo los modelos computacionales modernos, como los codificadores y decodificadores neuronales, pueden contribuir a la lingüística.
Documento 7: Satisfacción del lenguaje natural: exploración de la distribución del problema y evaluación de modelos de lenguaje basados en transformadores (inédito)
Motivo del premio: este artículo describe claramente un conjunto de datos de evaluación sintética para inferencia lógica. Este es un buen complemento para grandes conjuntos de datos de inferencia donde no está claro qué habilidades se miden. En teoría, existen razones para esperar que algunos subconjuntos sean más difíciles que otros, y estas expectativas se validan en el artículo. Dentro de cada categoría, los autores prestan especial atención al muestreo de aquellos casos verdaderamente desafiantes.
Premio probado en el tiempo
El premio ACL Time Test Award premia los trabajos honoríficos que han tenido un impacto a largo plazo en los campos del procesamiento del lenguaje natural y la lingüística computacional. Se divide en dos premios: hace 10 años (2014) y hace 25 años (1999 como máximo). Cada año se premian dos trabajos.
Documento 1: GloVe: vectores globales para la representación de palabras
Introducción: Los métodos para aprender representaciones de palabras en el espacio vectorial han tenido éxito en capturar reglas semánticas y sintácticas detalladas utilizando aritmética vectorial, pero las reglas sintácticas siguen siendo opacas. Este estudio analiza y aclara qué propiedades debe tener el modelo para que aparezcan reglas sintácticas en los vectores de palabras.
Este estudio propone un nuevo modelo de regresión lineal logarítmica global, GloVe, diseñado para aprender representaciones vectoriales de palabras. Este modelo combina las ventajas de la factorización matricial global y los métodos de ventana de contexto local.
GloVe logró el mejor rendimiento del 75 % en la tarea de analogía de palabras y superó a los modelos relacionados en la tarea de similitud de palabras y reconocimiento de entidades nombradas.
Motivo del premio: Las incrustaciones de palabras fueron la piedra angular de los métodos de aprendizaje profundo para el procesamiento del lenguaje natural (PLN) de 2013 a 2018 y siguen ejerciendo una influencia significativa. No solo mejoran el desempeño de las tareas de PNL, sino que también tienen un impacto significativo en la semántica computacional, como la similitud y analogía de palabras. Los dos métodos de incrustación de palabras más influyentes son probablemente skip-gram/CBOW y GloVe. En comparación con skip-gram, GloVe se propuso más tarde. Su ventaja relativa radica en su simplicidad conceptual, optimizando la similitud del espacio vectorial directamente en función de las características de distribución entre palabras, en lugar de indirectamente como un conjunto de parámetros desde una perspectiva de modelado de lenguaje simplificado.
Documento 2: Medidas de similitud distributiva
Introducción del artículo: El autor estudia las medidas de similitud de distribución con el objetivo de mejorar las estimaciones de probabilidad de eventos concurrentes invisibles. Su contribución es triple: una comparación empírica de una amplia gama de medidas; una clasificación de funciones de similitud basada en la información que contienen y la introducción de una nueva función que es superior en la evaluación de las distribuciones de agentes subyacentes.
Premio a la trayectoria
El premio Lifetime Achievement Award de ACL fue entregado a Ralph Grishman. Ralph Grishman es profesor del Departamento de Ciencias de la Computación de la Universidad de Nueva York y se centra en la investigación en el campo del procesamiento del lenguaje natural (PNL). Es el fundador del Proyecto Proteus, que ha realizado importantes contribuciones a la extracción de información (IE) y ha promovido el desarrollo del campo.
También desarrolló Java Extraction Toolkit (JET), una herramienta de extracción de información ampliamente utilizada que proporciona múltiples componentes de análisis del lenguaje, como segmentación de oraciones, anotación de entidades nombradas, anotación y normalización de expresiones temporales, etiquetado de partes del discurso, análisis de partes y co- análisis. Se refiere al análisis. Estos componentes se pueden combinar en canalizaciones según diferentes aplicaciones, que se pueden utilizar para el análisis interactivo de oraciones individuales o análisis por lotes de documentos completos. Además, JET proporciona herramientas sencillas para la anotación y visualización de documentos e incluye un proceso completo para extraer entidades, relaciones y eventos de acuerdo con la especificación ACE (Extracción automática de contenido).
El trabajo del profesor Grishman cubre múltiples temas centrales en PNL y ha tenido un profundo impacto en la tecnología moderna de procesamiento del lenguaje.
35 artículos destacados
Premio al mejor artículo temático
Tesis: OLMo: Acelerando la ciencia de los modelos lingüísticos
Cita: Este trabajo es un paso importante hacia la transparencia y la reproducibilidad en el entrenamiento de modelos de lenguaje grandes, un paso adelante en los esfuerzos de la comunidad para avanzar (o al menos para permitir que otros investigadores que no son gigantes de la industria contribuyan).
Premio al artículo de recursos
Tres artículos ganaron el premio Resource Paper.
Documento 1: Latxa: un modelo de lenguaje abierto y un paquete de evaluación para el euskera
Institución: Universidad del País Vasco, España
Motivos del premio: este artículo describe en detalle los detalles de la recopilación de corpus y la evaluación del conjunto de datos. Aunque es relevante para la investigación del euskera, esta metodología puede extenderse a la construcción de grandes modelos para otras lenguas de bajos recursos.
Documento 2: Dolma: un corpus abierto de tres billones de tokens para la investigación previa al entrenamiento de modelos lingüísticos
Motivo del premio: este artículo demuestra la importancia de la gestión de datos al preparar conjuntos de datos para entrenar modelos de lenguaje grandes. Esto proporciona información muy valiosa para una amplia gama de personas dentro de la comunidad.
Documento 3: AppWorld: un mundo controlable de aplicaciones y personas para realizar evaluaciones comparativas de agentes de codificación interactivos
Motivos del premio: Esta investigación es un trabajo muy importante y sorprendente en la construcción de simulación y evaluación de entornos interactivos. Alentará a todos a producir puntos de referencia dinámicos más sólidos para la comunidad.
Premio Impacto Social
3 artículos ganaron el Premio Impacto Social.
Capítulo 1: Cómo Johnny puede persuadir a los LLM para que los liberen: repensar la persuasión para desafiar la seguridad de la IA humanizando los LLM
Motivo del premio: este artículo explora el tema de la seguridad de la IA: jailbreaking, estudiando un método desarrollado en el campo de la investigación de las ciencias sociales. La investigación es muy interesante y tiene el potencial de tener un impacto significativo en la comunidad.
Documento 2: DIALECTBENCH: un punto de referencia de PNL para dialectos, variedades y lenguajes estrechamente relacionados
Motivo del premio: La variación dialectal es un fenómeno poco estudiado en los campos de la PNL y la inteligencia artificial. Sin embargo, desde la perspectiva del lenguaje y la sociedad, su investigación es de altísimo valor y tiene importantes implicaciones para las aplicaciones. Este artículo propone un punto de referencia muy novedoso para estudiar este problema en la era LLM.
Documento 3: ¿Tomar cerveza después de orar? Medición del sesgo cultural en modelos de lenguaje grandes
Razones del premio: este artículo demuestra un tema importante en la era LLM: el sesgo cultural. Este artículo estudia la cultura y el entorno lingüístico árabe y los resultados muestran que debemos considerar las diferencias culturales al diseñar LLM. Por tanto, el mismo estudio se puede replicar en otras culturas para generalizar y evaluar si otras culturas también se ven afectadas por este problema.