noticias

Jia Yangqing ganó el premio Time Test por uno de sus artículos, pero no calificó para los 10 mejores artículos en China ni para el premio ICML 2024.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Departamento editorial de Machine Heart

El nombre completo de ICML es Conferencia Internacional sobre Aprendizaje Automático. Está organizada por la Sociedad Internacional de Aprendizaje Automático (IMLS) y es la conferencia más importante en el campo de la inteligencia artificial informática.

La conferencia ICML de este año es la número 41 y actualmente se lleva a cabo en Viena, Austria. En la ceremonia de apertura que acaba de realizarse, ICML, que se está volviendo cada vez más popular cada año, anunció los datos de la conferencia y la información sobre los premios de este año.



Esta conferencia principal recibió un total de 9473 presentaciones de artículos válidos, de los cuales 2610 fueron aceptados, con una tasa de aceptación del 27,5%, incluidos 144 artículos orales y 191 artículos destacados.



Las palabras clave de los artículos aceptados son: modelo de lenguaje grande, aprendizaje por refuerzo, aprendizaje profundo, red neuronal gráfica, aprendizaje automático, aprendizaje federado, modelo de difusión, Transformer, LLM, aprendizaje de representación, modelo generativo ... Estas palabras clave también representan el actual La dirección de investigación más popular en el campo de la IA.

Además de estos datos, en la conferencia también se anunciaron los premios Time Test Awards y los mejores artículos de este año. DeCAF, un artículo que Jia Yangqing co-completó mientras estaba en Berkeley hace diez años, ganó el premio Time Test de este año. En comparación con los 6 del año pasado, 10 estudios ganaron el mejor artículo este año, incluido el modelo mundial Genie de Google DeepMind, el modelo de video VideoPoet, etc., que se hicieron populares hace algún tiempo.

Premio probado en el tiempo

Respecto a la obtención del premio por parte de DeCAF, Jia Yangqing dijo en su círculo de amigos: "Según la terminología actual, DeCAF debería ser la característica fundamental y la integración profunda en el campo de la visión, y también le dio al campo de la visión por computadora una característica generalizable. El trabajo de DeCAF Más tarde dio origen a General El marco de detección de objetos R-CNN, el marco informático heterogéneo de alto rendimiento Caffe, contribuyó indirectamente a la cooperación de Berkeley y NVidia en la redacción del marco de aceleración de primera generación CuDNN, el entrenamiento distribuido a gran escala CaffeOnSpark creado por Yahoo Labs. y una serie de otros trabajos, que establecen la posición de liderazgo de Berkeley en la ola del aprendizaje profundo”.



DeCAF: una función de activación convolucional profunda para el reconocimiento visual genérico

Autores: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Institución: UC Berkeley e ICSI, Berkeley, CA, EE. UU.

Enlace del artículo: https://arxiv.org/pdf/1310.1531

El equipo de investigación evaluó si las características extraídas de activaciones de redes convolucionales profundas entrenadas de manera totalmente supervisada en un conjunto fijo de tareas de reconocimiento de objetos a gran escala se pueden reutilizar para nuevas tareas de propósito general. Estas tareas generales pueden ser significativamente diferentes de aquellas para las que fueron entrenados originalmente, y puede que no haya suficientes datos etiquetados o no etiquetados para entrenar o adaptar de manera rutinaria arquitecturas profundas a nuevas tareas. Estudian y visualizan agrupaciones semánticas de características convolucionales profundas en una variedad de tareas, incluido el reconocimiento de escenas, la adaptación de dominios y los desafíos de reconocimiento detallado. Los investigadores compararon los efectos de confiar en diferentes capas de la red para definir características fijas e informaron nuevos resultados que superan significativamente a las técnicas existentes en varios desafíos visuales importantes. Lanzaron DeCAF, una implementación de código abierto de funciones de activación convolucional profunda que contiene todos los parámetros de red relevantes para permitir a los investigadores de la visión experimentar con representaciones profundas en una variedad de paradigmas de aprendizaje de conceptos visuales.

mejor papel

Documento 1: Escalado de transformadores de flujo rectificados para síntesis de imágenes de alta resolución

Dirección: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organización: Estabilidad AI

Dirección del artículo: https://proceedings.mlr.press/v235/esser24a.html

Informe Machine Heart: El artículo de Stable Diffusion 3 finalmente se publicó y se revelan los detalles de la arquitectura. ¿Ayudará a reproducir a Sora?

Este artículo es exactamente el artículo Stable Diffusion 3. En comparación con la versión anterior, la calidad de las imágenes generadas por Stable Diffusion 3 ha mejorado enormemente, admite indicaciones de múltiples temas y el efecto de escritura de texto también es mejor.



Arquitectura del modelo Stable Diffusion 3.

Los modelos de difusión, que crean datos a partir del ruido invirtiendo su trayectoria en ruido, han surgido como una poderosa técnica de modelado generativo para datos sensoriales de alta dimensión, como imágenes y videos. El flujo rectificado (RF) es una formulación reciente de un modelo generativo que conecta datos y ruido en línea recta. A pesar de sus mejores propiedades teóricas y su simplicidad conceptual, aún no se ha establecido claramente como una práctica estándar.

Esta investigación mejora las técnicas de muestreo de ruido existentes entrenando modelos de RF sesgándolos hacia escalas perceptualmente relevantes. A través de un estudio a gran escala, este estudio demuestra el rendimiento superior de este enfoque en comparación con las formulaciones de difusión existentes para la síntesis de texto a imagen de alta resolución.

Además, la investigación también propone una nueva arquitectura basada en Transformer para la generación de texto a imagen, que utiliza pesos separados para los dos modos y permite el flujo de información bidireccional entre tokens de imagen y texto, mejorando así la comprensión del texto, las calificaciones de preferencia humana, etc. . El estudio demuestra que la arquitectura sigue una tendencia de escalamiento predecible y observa que la pérdida de validación disminuye suavemente a medida que aumentan el tamaño del modelo y los pasos de entrenamiento.



Transformador de difusión multimodal mejorado: bloque MMDiT.

Documento 2: Genie: entornos interactivos generativos

Autores: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes

Institución: Google DeepMind, Universidad de Columbia Británica

Dirección del artículo: https://arxiv.org/pdf/2402.15391.pdf

Este artículo define un nuevo paradigma de IA generativa: Entornos Interactivos Generativos - Genie (Entornos Interactivos Generativos). Genie es un modelo mundial base de 11 mil millones de parámetros que puede generar entornos interactivos jugables a partir de una sola imagen.

Informe Machine Heart: hace un momento, Google lanzó un modelo mundial básico: parámetros 11B, que pueden generar un mundo virtual interactivo

Varios componentes de la arquitectura Genie se basan en Vision Transformer (ViT). Vale la pena señalar que debido al costo de la memoria secundaria de Transformer, que plantea desafíos al campo del video, los videos pueden contener hasta (10^4) tokens. Por lo tanto, Google utiliza la arquitectura de transformador ST con eficiencia de memoria en todos los componentes del modelo para equilibrar la capacidad del modelo y las restricciones computacionales.



Genie consta de tres componentes clave (como se muestra en la siguiente figura):

1) Modelo de Acción Latente (LAM), utilizado para razonar sobre acciones potenciales entre cada par de marcos;

2) Tokenizador de video (Tokenizer), utilizado para convertir fotogramas de video originales en tokens discretos;

3) El modelo dinámico, dadas las acciones potenciales y los tokens de fotogramas pasados, se utiliza para predecir el siguiente fotograma del vídeo.



Para lograr una generación de vídeo controlable, Google utiliza las acciones realizadas en el fotograma anterior como condiciones para la predicción de fotogramas futuros. Sin embargo, estas etiquetas de acción rara vez están disponibles en vídeos en Internet y el costo de obtener anotaciones de acción puede ser alto. En cambio, Google aprende acciones potenciales sin ninguna supervisión.



Documento 3: Consideraciones para el aprendizaje diferencialmente privado con capacitación previa pública a gran escala

Autores: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Instituciones: ETH Zurich, Universidad de Waterloo, Google DeepMind

Dirección del artículo: https://arxiv.org/abs/2212.06470

El rendimiento del aprendizaje automático diferencialmente privado se puede mejorar significativamente aprovechando las capacidades de aprendizaje por transferencia de modelos no privados previamente entrenados en grandes conjuntos de datos públicos. El artículo cuestiona si el uso de grandes conjuntos de datos extraídos de la web debería considerarse diferencialmente privado.

El estudio cree que establecer estos modelos previamente entrenados en datos de red como modelos "privados" puede dañar y debilitar la confianza pública en la privacidad diferencial. Además de las consideraciones de privacidad del uso de datos públicos, el estudio cuestiona aún más la utilidad de este paradigma. El estudio analiza si los puntos de referencia de aprendizaje automático existentes son adecuados para medir la capacidad de los modelos previamente entrenados para generalizar a dominios sensibles que pueden ser difíciles de representar en los datos de la red pública.

Además, el estudio señala que la implementación de modelos grandes puede resultar en una pérdida neta de privacidad debido a la necesidad de subcontratar datos privados a terceros con mayor potencia informática.

Documento 4: Modelado de difusión discreta mediante la estimación de los ratios de distribución de datos

Autor: Aaron Lou, Chenlin Meng, Stefano Ermon

Institución: Universidad de Stanford, Pika Labs

Dirección del artículo: https://proceedings.mlr.press/v235/lou24a.html

Aunque los modelos de difusión funcionan bien en muchas tareas de modelado generativo, no funcionan como se esperaba en dominios de datos discretos como el lenguaje natural. Los modelos de difusión estándar se basan en una teoría de coincidencia de puntuaciones bien establecida, pero los intentos de generalizarla a estructuras discretas no han conducido a los mismos beneficios empíricos.

En este trabajo, el equipo de investigación cierra esta brecha proponiendo una nueva pérdida llamada entropía puntuada. La entropía puntuada extiende naturalmente la coincidencia de puntuaciones al espacio discreto, se integra perfectamente para crear modelos de difusión discretos y mejora significativamente el rendimiento.

En sus experimentos, probaron el Modelo de Difusión Discreta de Entropía Puntuada (SEDD) en una tarea de modelado de lenguaje estándar. En tamaños de modelos comparables, SEDD supera los paradigmas de difusión del lenguaje existentes (reducción de la perplejidad entre un 25% y un 75%) y compite con los modelos autorregresivos, superando especialmente a GPT-2. Además, en comparación con los modelos autorregresivos, SEDD es capaz de generar texto real (generando perplejidad entre 6 y 8 veces más que el GPT-2 no recocido) sin la necesidad de técnicas de recocido distribuido (como el escalado de temperatura) y se puede utilizar en compensaciones. entre el esfuerzo computacional y la calidad (logre una calidad similar con 32 veces menos evaluaciones de red) y admite el relleno controlable (que iguala la calidad del muestreo del núcleo y al mismo tiempo permite otras estrategias además de las sugerencias de izquierda a derecha).

Documento 5: Inferencia probabilística en modelos de lenguaje mediante Monte Carlo secuencial retorcido

Ejemplos: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Institución: Universidad de Toronto, Vector Institute

Dirección del artículo: https://proceedings.mlr.press/v235/zhao24c.html

Las numerosas capacidades y técnicas de seguridad de los modelos de lenguaje grandes (LLM), incluidos RLHF, pruebas automatizadas del equipo rojo, ingeniería de sugerencias y relleno, pueden verse como un muestreo de una distribución objetivo desnormalizada definida por una recompensa o función latente determinada. En este trabajo, los autores explotan la rica caja de herramientas de Sequential Monte Carlo (SMC) para manejar estos problemas de inferencia probabilística. En particular, utilizan una función de deformación aprendida para estimar los posibles valores futuros esperados en cada paso de tiempo, lo que permite que el cálculo en el momento de la inferencia se centre en partes prometedoras de la secuencia.

Proponemos un enfoque contrastivo novedoso para aprender funciones de deformación y establecemos conexiones con la rica literatura sobre el aprendizaje por refuerzo suave. Como aplicación complementaria del marco SMC retorcido, proponen un método para evaluar la precisión de las técnicas de inferencia de modelos de lenguaje en funciones de partición de registros utilizando un nuevo límite SMC bidireccional. Estos límites se pueden utilizar para estimar la divergencia KL bidireccional entre la distribución de inferencia y la distribución objetivo. Al aplicar técnicas de evaluación de inferencia, demuestran que Twisted SMC es eficaz para muestrear resultados no deseados de modelos previamente entrenados (útil para entrenamiento inofensivo y pruebas automatizadas del equipo rojo), generar revisiones con diferentes sentimientos y realizar tareas de relleno.

Documento 6: Debatir con LLM más persuasivos conduce a respuestas más veraces

Ejemplos: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

Instituciones: University College London, Speechmatics, MATS, Anthropic, FAR AI

Dirección del artículo: https://proceedings.mlr.press/v235/khan24a.html

Los enfoques comunes para alinear modelos de lenguaje grandes (LLM) con comportamientos deseados dependen en gran medida de datos etiquetados por humanos. Sin embargo, a medida que los modelos se vuelven más complejos, excederán la experiencia humana y el papel de los evaluadores humanos evolucionará al de no expertos que supervisan a los expertos. Basándose en esta expectativa, los investigadores formularon una pregunta: ¿Puede un modelo más débil evaluar la corrección de un modelo más fuerte? Estudiaron este problema estableciendo un escenario similar: uno en el que el modelo más fuerte (el experto) tenía la información básica necesaria para responder la pregunta, mientras que el modelo más débil (el no experto) carecía de esta información. Los investigadores eligieron el debate como método de prueba, es decir, dejar que dos expertos en LLM defiendan cada uno respuestas diferentes y que los no expertos elijan la respuesta final.

El equipo de investigación descubrió que el debate ayudó efectivamente a los modelos no expertos y a los humanos a responder preguntas, logrando un 76% y un 88% de precisión respectivamente (la línea de base original era del 48% y el 60% respectivamente).



Además, optimizar la capacidad de persuasión de los debatientes expertos sin supervisión mejora la capacidad de los no expertos para identificar la verdad en los debates. Este resultado proporciona una referencia al debatir la viabilidad de modelos alineados en ausencia de etiquetas de verdad sobre el terreno.

Capítulo 7: Complejidad de la información de la optimización convexa estocástica: aplicaciones a la generalización, memorización y rastreo

Ejemplos: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Instituciones: Universidad Ben-Gurion, Universidad de Toronto, DeepMind, etc.

Dirección del artículo: https://proceedings.mlr.press/v235/attias24a.html

En este trabajo, los autores estudian la interacción entre la memoria y el aprendizaje en el contexto de la optimización estocástica convexa (SCO). Definen la memoria aprendiendo la información que el algoritmo revela sobre sus puntos de datos de entrenamiento y cuantifican esta información utilizando el marco de información mutua condicional (CMI) propuesto por Steinke y Zakynthinou (2020).

El principal resultado de este estudio es caracterizar con precisión el equilibrio entre la precisión de un algoritmo de aprendizaje y su CMI, respondiendo una pregunta abierta planteada por Livni (2023). Este artículo muestra que bajo la configuración acotada de L² Lipschitz y condiciones de convexidad fuerte, el CMI de cada alumno con error excesivo ϵ tiene un límite inferior por Ω(1/ϵ²) y Ω(1/) respectivamente. Los autores demuestran además el papel indispensable de la memoria en el problema de SCO al diseñar un adversario que puede identificar con precisión una gran cantidad de muestras de entrenamiento en un problema de SCO específico. Finalmente, citan varias implicaciones de los resultados, como las limitaciones de los límites de generalización basados ​​en CMI y la incompresibilidad de las muestras en el problema SCO.

Documento 8: Mida la diversidad de los conjuntos de datos, no se limite a afirmarla

Ejemplos: Dora Zhao, Jerone Andrews, Orestis Papakyriakopoulos, Alice Xiang

Instituciones: Universidad de Stanford, Sony AI (Londres, Reino Unido), Universidad Técnica de Munich, Sony AI (Seattle, EE. UU.)

Dirección del artículo: https://arxiv.org/html/2407.08188v1

Los conjuntos de datos de aprendizaje automático (ML) a menudo se consideran neutrales, pero contienen inherentemente construcciones sociales abstractas y controvertidas. Los curadores de conjuntos de datos suelen utilizar términos cargados de valores como diversidad, sesgo y calidad para describir conjuntos de datos. Aunque estos términos se utilizan ampliamente, carecen de una definición y validación claras. El estudio del equipo de investigación exploró el impacto de este problema analizando la "diversidad" en 135 conjuntos de datos de imágenes y texto. A partir de las ciencias sociales, se aplican principios de la teoría de la medición para identificar consideraciones y brindar recomendaciones para conceptualizar, operacionalizar y evaluar la diversidad en conjuntos de datos. Sus hallazgos tienen amplias implicaciones para la investigación del aprendizaje automático, ya que abogan por un enfoque más matizado y preciso al manejar atributos cargados de valor en la construcción de conjuntos de datos.

Documento 9: VideoPoet: un modelo de lenguaje grande para la generación de videos Zero-Shot

Ejemplos: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Joshua V Dillon 、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold y Lu Jiang

Organización: Google, Universidad Carnegie Mellon

Dirección del artículo: https://proceedings.mlr.press/v235/kondratyuk24a.html

Enlace del proyecto: http://sites.research.google/videopoet/

Informe Machine Heart: ¿Puede la generación de vídeo ser infinitamente larga?El modelo grande de Google VideoPoet está en línea, internautas: tecnología revolucionaria

El equipo de investigación lanzó VideoPoet, un modelo de lenguaje capaz de sintetizar vídeos de alta calidad a partir de múltiples señales condicionales. VideoPoet utiliza una arquitectura Transformer solo decodificadora para manejar entradas multimodales que incluyen imágenes, video, texto y audio.



El protocolo de formación sigue la línea de modelos de lenguajes grandes (LLM) y consta de dos etapas: formación previa y adaptación a tareas específicas. En la etapa de preentrenamiento, VideoPoet combina objetivos de generación multimodal dentro de un marco Transformer autorregresivo. El LLM previamente capacitado sirve como base y puede adaptarse a una variedad de tareas de generación de videos. Demuestran las capacidades de última generación del modelo en la generación de vídeo de toma cero, específicamente la capacidad de generar movimiento de alta fidelidad.

Documento 10: Robar parte de un modelo de lenguaje de producción

Ejemplos: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Instituciones: OpenAI, Google DeepMind, ETH Zurich, Universidad de Washington, Universidad McGill

Dirección del artículo: https://arxiv.org/pdf/2403.06634

Este artículo propone un nuevo método para atacar los modelos de IA. Puede extraer información con precisión del modelo de lenguaje generativo de caja negra de ChatGPT de OpenAI o PaLM-2 de Google. Este método puede irrumpir en la capa de proyección integrada del Transformer (que es una parte clave de la comprensión del lenguaje por parte del modelo) y solo requiere acceso a la API, a través de un sitio web o aplicación, y chatear con el modelo para "derrotarlo". Con base en el método del artículo, los investigadores descifraron toda la matriz de proyección de los dos modelos básicos de la serie GPT, Ada y Babbage, también se descifró directamente información clave, como las dimensiones ocultas: uno era 1024 y el otro era 2048. También rompieron las dimensiones ocultas del gpt-3.5-turbo, y si desea restaurar toda la matriz de proyección del modelo, el costo no excederá los $2000. Los investigadores han propuesto una serie de medidas de defensa y estrategias de mitigación para evitar que se produzcan este tipo de ataques.