¡El clásico de diez años de Jia Yangqing ganó el premio Time Test! Sorteo de los diez mejores artículos de ICML 2024, popular SD3, Gu

¡El clásico de diez años de Jia Yangqing ganó el premio Time Test! Sorteo de los diez mejores premios en papel de ICML 2024, popular SD3, Gu

2024-07-24

Nuevo informe de sabiduría

Editor: Taozi tiene mucho sueño

[Introducción a la Nueva Sabiduría] ¡Finalmente se ha anunciado el premio máximo anual de ICML! Este año, un total de diez artículos ganaron el Premio al Mejor Artículo, y tres de ellos son nombres muy conocidos: el modelo de generación de imágenes SD3, el modelo de generación de videos VideoPoet y el modelo mundial básico Genie. Además, el premio Time Test Award fue otorgado al marco DeCAF propuesto por Jia Yangqing y su equipo hace diez años.

¡Los premios ICML 2024 están recién anunciados!

Justo ahora se celebró oficialmente la ceremonia de apertura de ICML. En la reunión se anunciaron los premios a los 10 mejores artículos, y un artículo de hace diez años ganó el premio Time Test.

Entre los mejores artículos, hay varios trabajos populares en el campo de la generación de imágenes y videos de IA, incluido el informe técnico SD3, el modelo de video CMU Google AI VideoPoet y el modelo mundial básico de Google Genie.

Vale la pena mencionar que el artículo DeCAF publicado por el gurú de la IA Jia Yangqing y otros en octubre de 2013 ganó el premio Time Test.

Hace un momento escribió que se sentía profundamente honrado de recibir este honor.

Russ Salakhutdinov, profesor de CMU y vicepresidente de Meta GenAI, resumió los resultados generales de reclutamiento de ICML 2024:

Este congreso recibió un total de 9.473 trabajos, de los cuales 2.610 fueron aceptados, con una tasa de aceptación del 27,55%. 144 artículos son orales y 191 artículos son destacados.

Este año se presentaron nuevos documentos de posición. Se presentaron 286 artículos y se aceptaron 75 (26%). 15 artículos son orales y 11 artículos son destacados.

Además, en el Taller hubo 145 propuestas, de las cuales 30 fueron aceptadas. Tutorial tuvo 55 propuestas y 12 fueron aceptadas.

Este año, es la 41ª conferencia anual de ICML 2024 (una vez al año), que se celebrará en Viena, Austria, del 21 al 27 de julio.

8.675 personas asistieron a la reunión una tras otra y no había asientos en la audiencia.

Descripción general de la cumbre ICML 2024

Antes de otorgar los premios, el comité organizador presentó primero la situación general de la conferencia de este año:

· 9 paneles de charlas de la EXPO

· 12 tutoriales

· 6 ponentes invitados

· 2.610 artículos (conferencia principal)

· 30 talleres

· 12.345 autores y ponentes

· 39% de los participantes son estudiantes

· 10 actividades sociales fuera de línea

· 3 eventos de afinidad

· 52 voluntarios

· 97 presidentes de área senior (SAC), 492 presidentes de área (AC), 7473 revisores

· 9.406 participantes registrados (8.675 de los cuales asistieron presencialmente)

Según los artículos aceptados, ICML resumió las palabras de alta frecuencia que aparecieron, que también son las palabras candentes de este año:

Los modelos grandes aparecen con mayor frecuencia, más de 600 veces.

Seguido de aprendizaje por refuerzo, aprendizaje profundo, red neuronal gráfica, aprendizaje automático, aprendizaje federado, modelo de difusión, Transformer, LLM, aprendizaje de representación, modelo generativo, etc.

En términos de países/regiones registrados, Estados Unidos tiene 2.463 personas y China ocupa el segundo lugar con más de 1.100 personas.

Premio probado en el tiempo

En términos generales, el Premio Time Test se otorga a trabajos académicos que hayan tenido un impacto importante y duradero durante más de 10 años.

Este artículo también es un trabajo clásico completado por Jia Yangqing, el padre de Caffe, quien estudió en UC Berkeley y colaboró con el equipo durante su pasantía en Google.

Una vez dijo en una entrevista que bebía demasiado café mientras hacía prácticas en Google en 2013, por lo que lo llamó DeCAF para instarse a sí mismo a dejar de beber café.

Mientras trabajaba horas extras, publicó: "DeCAF debería ser una característica fundamental y una integración profunda en el campo de visión, y también darle al campo de la visión por computadora una característica generalizable..."

El impacto de la investigación de DeCAF es que dio origen al marco general de detección de objetos R-CNN, el marco informático heterogéneo de alto rendimiento Caffe, e indirectamente contribuyó a la colaboración entre Berkeley y NVIDIA para escribir el marco de aceleración de primera generación CuDNN, y la distribución a gran escala de la creación de Yahoo Labs. Una serie de trabajos como la capacitación de CaffeOnSpark han establecido la posición de liderazgo de Berkeley en la ola de aprendizaje profundo.

Tema principal: DeCAF: una función de activación convolucional profunda para el reconocimiento visual genérico

Autores: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Institución: Universidad de California, Berkeley

Dirección del artículo: https://arxiv.org/abs/1310.1531

Para utilizar un mejor marco probabilístico para expresar el comportamiento humano, el equipo escribió personalmente el primer marco: DeCAF.

En este trabajo, los autores evalúan si las características extraídas de una red convolucional profunda entrenada de manera totalmente supervisada en un gran conjunto de tareas de reconocimiento de objetos fijos se pueden reutilizar en nuevas tareas de propósito general.

Estas tareas generales pueden ser significativamente diferentes de las tareas de capacitación originales y pueden carecer de suficientes datos anotados, o no tener ningún dato anotado, de modo que no se puedan utilizar métodos convencionales para entrenar o ajustar la red profunda para adaptarla a la nueva tarea.

Además, el autor también visualizó la agrupación semántica de características convolucionales profundas en tareas como el reconocimiento de escenas, la adaptación de dominios y el reconocimiento detallado, y al comparar los efectos de definir características fijas que dependen de diferentes niveles de la red, propuso varias Importante Nuevo SOTA logrado en desafíos visuales.

Finalmente, los autores publican una implementación de código abierto de estas características de activación convolucional profunda: DeCA, junto con todos los parámetros de red asociados. Esto ayuda a los autores visuales a experimentar con representaciones profundas en varios paradigmas de aprendizaje de conceptos visuales.

Los diez mejores artículos.

Este año, hay diez mejores artículos.

Las clasificaciones anteriores están todas en orden de exhibición oral.

Ejemplo: Modelado de difusión discreta mediante la estimación de las proporciones de la distribución de datos

Autor: Aaron Lou, Chenlin Meng, Stefano Ermon

Institución: Universidad de Stanford, Pika Labs

Dirección del artículo: https://arxiv.org/abs/2310.16834

Esta investigación propone un nuevo modelo de aprendizaje automático SEDD (Score Entropy Discrete Diffusion), que está dirigido principalmente a tareas de generación de datos discretos.

Actualmente, los modelos de difusión muestran un rendimiento revolucionario en muchas tareas de modelado generativo, pero su rendimiento es deficiente en campos de datos discretos como el lenguaje natural.

En el artículo, el autor propuso el concepto de entropía de puntuación para cerrar esta brecha.

Se trata de una función de pérdida novedosa que extiende naturalmente la coincidencia de puntuaciones al espacio discreto, se integra perfectamente para crear modelos de difusión discretos y mejora significativamente el rendimiento.

Durante el proceso de evaluación experimental, SEDD tuvo un mejor desempeño que los modelos de difusión de idiomas existentes (la perplejidad se redujo entre un 25% y un 75%).

Además, también supera a los modelos autorregresivos como GPT-2 en algunos aspectos.

En resumen, las ventajas de SEDD son:

- Se puede generar texto de alta calidad sin utilizar técnicas como el escalado de temperatura (generar perplejidad es entre 6 y 8 veces mejor que GPT-2 no recocido)

- Compensación flexible entre recursos informáticos y calidad de salida (utiliza 32 veces menos evaluaciones de red para lograr un rendimiento similar)

- Admite el llenado de texto controlable, lo que proporciona más flexibilidad. (igualar la calidad del muestreo del núcleo, al tiempo que respalda estrategias distintas a las indicaciones de izquierda a derecha).

Documento 2: Escalado de transformadores de flujo rectificados para síntesis de imágenes de alta resolución

Autores: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organización: Estabilidad AI

Dirección del artículo: https://arxiv.org/abs/2403.03206

Como se mencionó al principio, este artículo es un informe técnico sobre el popular Stable Diffusion 3.

Al igual que Sora, SD3 utiliza una versión mejorada del modelo Diffusion y una nueva arquitectura basada en el gráfico vicentino de DiT.

Específicamente, los autores utilizaron tres codificadores de texto diferentes (dos modelos CLIP y un T5) para procesar información de texto, mientras usaban un modelo de codificación automática más avanzado para procesar información de imágenes.

La arquitectura Transformador de difusión multimodal (MMDiT) recientemente propuesta utiliza conjuntos de pesos independientes para la representación de imágenes y lenguaje respectivamente. En comparación con la versión anterior de SD3, mejora significativamente la comprensión y las capacidades de ortografía del texto.

Los resultados de la evaluación muestran que SD3 alcanza o supera el estado actual de la tecnología de generación de diagramas vicencianos en términos de precisión en el seguimiento de indicaciones, presentación clara del texto y belleza visual de las imágenes.

Ejemplo: Inferencia probabilística en modelos de lenguaje mediante Monte Carlo secuencial retorcido

Autor: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Institución: Universidad de Toronto, Vector Institute

Dirección del artículo: https://arxiv.org/abs/2404.17546

Esta investigación se centra en cuestiones de muestreo e inferencia en modelos grandes.

Se pueden considerar muchas de las capacidades y tecnologías de seguridad de LLM, como RLHF, pruebas automatizadas del equipo rojo, ingeniería rápida y relleno:

Dada una recompensa o función potencial, tome una muestra de su distribución objetivo no normalizada definida. Esta distribución está definida para la secuencia completa.

En el artículo, el autor propone utilizar el método secuencial de Monte Carlo (SMC) para resolver estos problemas de probabilidad de muestreo.

En este sentido, el autor propuso funciones de torsión para estimar valores futuros potenciales en cada paso de tiempo para optimizar el proceso de muestreo.

Además, también propusieron un método para utilizar nuevos límites SMC bidireccionales para evaluar la precisión de las técnicas de inferencia LLM.

Los resultados finales muestran que Twisted SMC exhibe una gran efectividad al muestrear resultados incorrectos de modelos previamente entrenados, generar revisiones con diferentes sentimientos y realizar tareas de relleno.

Documento 4: Posición: medir la diversidad de los conjuntos de datos, no limitarse a afirmarla

Ejemplos: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Instituciones: Universidad de Stanford, Universidad Técnica de Munich, Sony AI

Dirección del artículo: https://arxiv.org/abs/2407.08188

Actualmente, muchos conjuntos de datos se denominan a sí mismos diversidad, pero en realidad incorporan conceptos sociales abstractos y controvertidos.

En este trabajo, los autores exploran esta cuestión analizando la "diversidad" en 135 conjuntos de datos de imágenes y texto.

Como se muestra a continuación, los autores se basan en la teoría de la medición de la teoría de las ciencias sociales como factores a considerar y brindan sugerencias para conceptualizar, operacionalizar y evaluar la diversidad en conjuntos de datos.

El objetivo final de esta investigación es pedir a los estudiosos de la IA que adopten métodos de procesamiento más detallados y precisos para los datos de atributos con juicios de valor en la investigación del aprendizaje automático, especialmente en el proceso de construcción de conjuntos de datos.

Documento 5: Robar parte de un modelo de lenguaje de producción

Autor:Nicholas Carlini,Daniel Paleka,Krishnamurthy Dj Dvijotham,Thomas Steinke,Jonathan Hayase,A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Instituciones: ETH Zurich, Universidad de Washington, Universidad McGill, Google DeepMind, OpenAI

Dirección del artículo: https://arxiv.org/abs/2403.06634

En este trabajo, los autores presentan el primer ataque de robo de modelos capaz de extraer información precisa y compleja de modelos de lenguaje de caja negra como ChatGPT de OpenAI o PaLM-2 de Google.

Específicamente, este ataque es capaz de reconstruir la capa de proyección integrada del modelo Transformer (en condiciones de simetría) a través del acceso API regular.

Y, por menos de 20 dólares, puede extraer la matriz de proyección completa de los modelos de lenguaje Ada y Babbage de OpenAI. Esto confirmó por primera vez que estos dos modelos de caja negra tienen dimensiones ocultas de 1024 y 2048 respectivamente.

Además, el autor también restauró el tamaño exacto de la dimensión oculta del modelo gpt-3.5-turbo. Esta vez, el costo de extracción de toda la matriz de proyección fue de sólo 2.000 dólares estadounidenses.

Finalmente, los autores proponen posibles medidas de defensa y mitigación y discuten las implicaciones para el trabajo futuro.

Tema principal: Complejidad de la información de la optimización convexa estocástica: aplicaciones a la generalización y la memorización

Autor: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Instituciones: Universidad Ben Gurion, Universidad Northeastern, Universidad de Tel Aviv, Universidad de Toronto, Vector Institute, Google DeepMind

Dirección del artículo: https://arxiv.org/abs/2402.09327

En este trabajo, los autores estudian la interacción entre memorización y aprendizaje en el contexto de problemas de optimización estocástica convexa (SCO).

Primero, la memorización se define mediante algoritmos de aprendizaje para revelar información sobre puntos de datos de entrenamiento. Luego, se utiliza el marco de información mutua condicional (CMI) para la cuantificación. De este modo, se logra una descripción precisa del equilibrio entre la precisión de un algoritmo de aprendizaje y su CMI.

Los resultados muestran que bajo la configuración acotada de Lipschitz L^2 y condiciones de convexidad fuerte, el CMI de cada alumno con exceso de error ε tiene límites inferiores en Ω(1/ε^2) y Ω(1/ε) respectivamente.

Además, los autores demuestran el importante papel de la memorización en los problemas de aprendizaje de SCO al diseñar un adversario que puede identificar con precisión la mayoría de las muestras de entrenamiento en un problema de SCO específico.

Finalmente, los autores citan varias implicaciones importantes, como las limitaciones de los límites de generalización basados en CMI y la incompresibilidad de la muestra en el problema SCO.

Tema principal: Posición: Consideraciones para el aprendizaje privado diferencial con preentrenamiento público a gran escala

Autores: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Instituciones: ETH Zurich, Universidad de Waterloo, Vector Institute, Google DeepMind

Dirección del artículo: https://arxiv.org/abs/2212.06470

El rendimiento del aprendizaje automático diferencialmente privado se puede mejorar significativamente aprovechando las capacidades de aprendizaje por transferencia de modelos no privados previamente entrenados en grandes conjuntos de datos públicos.

En este trabajo, los autores se preguntan si el uso de grandes conjuntos de datos extraídos de la web es coherente con la protección diferencial de la privacidad. También advirtió que llamar "privados" a estos modelos previamente entrenados en datos de red puede traer muchos daños, como debilitar la confianza pública en el concepto de privacidad diferencial.

Además de las consideraciones de privacidad del uso de datos públicos, los autores cuestionan además la viabilidad de este enfoque.

El impacto del entrenamiento previo es particularmente notable en los modelos que son demasiado grandes para que los usuarios finales los ejecuten en sus propios dispositivos. Debido a que esto requeriría subcontratar datos privados a un tercero con mayor poder computacional, implementar un modelo de este tipo resultaría en una pérdida neta de privacidad.

Finalmente, los autores discuten posibles vías de desarrollo para el campo del aprendizaje sobre privacidad a medida que la capacitación previa pública se vuelve más popular y poderosa.

Documento 8: Debatir con LLM más persuasivos conduce a respuestas más veraces

Ejemplo: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Instituciones: University College London, Speechmatics, MATS, Anthropic, FAR AI

Dirección del artículo: https://arxiv.org/abs/2402.06782

Los métodos de alineación LLM utilizados actualmente dependen en gran medida de datos anotados manualmente.

Sin embargo, a medida que los modelos se vuelvan más complejos, superarán la experiencia humana y el papel de los evaluadores humanos evolucionará al de no expertos que supervisan a los expertos.

En base a esto, el autor planteó una pregunta: ¿Puede un modelo más débil evaluar la corrección de un modelo más fuerte?

Por diseño, los modelos más sólidos (expertos) tienen la información necesaria para responder la pregunta, mientras que los modelos más débiles (no expertos) carecen de esta información.

El método de evaluación es el debate, en el que dos expertos del LLM defienden cada uno respuestas diferentes, en lugar de que los expertos elijan las respuestas.

Los resultados mostraron que el debate ayudó constantemente a los modelos no expertos y a los humanos a responder mejor las preguntas, logrando una precisión del 76% y el 88% respectivamente (la línea de base fue del 48% y el 60% respectivamente).

Además, optimizar la capacidad de persuasión de los debatientes expertos a través de medios no supervisados mejora la capacidad de los no expertos para identificar la verdad en los debates.

Documento 9: Genie: entornos interactivos generativos

Intérpretes: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy. González, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Institución: Universidad de Columbia, Google DeepMind

Dirección del artículo: https://arxiv.org/pdf/2402.15391

El modelo mundial básico lanzado por el equipo de Google DeepMind: Genie "Elf".

A partir de una imagen, una fotografía, un boceto, se puede generar un mundo infinito.

Lo loco de Genie es que aprendió de 200.000 horas de vídeos de Internet sin etiquetar y se entrenó sin supervisión.

Sin anotaciones de acción, es posible determinar quién es el protagonista y darle al usuario control sobre él en el mundo generado.

Específicamente, se implementa a través de tres componentes principales: modelo de acción latente, segmentador de video y modelo dinámico autorregresivo.

El espacio de acción latente aprendido resultante no solo permite la interacción del usuario sino que también ayuda a capacitar a los agentes para imitar comportamientos en videos invisibles.

Con todo, Genie abre una nueva forma de cultivar futuros agentes generalistas y remodela el panorama de los entornos generativos interactivos.

Documento 10: VideoPoet: un modelo de lenguaje grande para la generación de videos Zero-Shot

Intérpretes: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim. Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martínez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Institución: Universidad Carnegie Mellon, Google

Dirección del artículo: https://arxiv.org/pdf/2312.14125

Antes del lanzamiento de Sora, Google y el equipo de CMU lanzaron VideoPoet, una tecnología de generación de vídeo similar a Sora, en una hoja de ruta técnica en diciembre de 2023.

VideoPoet puede generar 10 segundos de video de gran acción, coherente y ultralargo a la vez, y no se requieren datos específicos para generar el video.

En concreto, VideoPoet incluye principalmente los siguientes componentes:

- El tokenizador de video MAGVIT V2 y el tokenizador de audio SoundStream previamente entrenados pueden convertir imágenes, videos y clips de audio de diferentes longitudes en secuencias de código discretas en un vocabulario unificado. Estos códigos son compatibles con modelos de lenguaje textual y se pueden combinar fácilmente con otras modalidades como el texto.

- El modelo de lenguaje autorregresivo puede realizar un aprendizaje intermodal entre vídeo, imagen, audio y texto, y predecir el siguiente token de vídeo o audio de la secuencia de forma autorregresiva.

- Se introduce una variedad de objetivos de aprendizaje de generación multimodal en el marco de capacitación del modelo de lenguaje grande, que incluye texto a video, texto a imagen, imagen a video, continuación de fotogramas de video, reparación/expansión de video, estilización de video y video a audio, etc. . Además, estas tareas se pueden combinar entre sí para lograr capacidades adicionales de muestra cero (por ejemplo, texto a audio).

A diferencia de los modelos líderes, VideoPoet no se basa en un modelo de difusión, sino en un modelo multimodal grande, que puede tener T2V, V2A y otras capacidades.

En definitiva, VideoPoet tiene tres grandes ventajas: generar vídeos más largos, lograr un control más preciso y movimientos de cámara potentes.

Premio al mejor crítico

Lo mejor de todo es que en la conferencia ICML 2024 también se anunció el Premio al Mejor Crítico.

Referencias:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

noticias

¡El clásico de diez años de Jia Yangqing ganó el premio Time Test! Sorteo de los diez mejores premios en papel de ICML 2024, popular SD3, Gu

Introducción

Mi informacion de contacto