L'article de Jia Yangqing a remporté le ICML Time Test Award : le prédécesseur du célèbre framework Caffe

2024-07-24

Le vent d'ouest vient du temple Aofei
Qubits | Compte public QbitAI

Le prix ICML 2024 Time Test Award est annoncé et l'article co-écrit de Jia Yangqing a remporté le prix !

Le document est intitulé "DeCAF : une fonctionnalité d'activation convolutionnelle profonde pour la reconnaissance visuelle générique» est le travail réalisé par Jia Yangqing et son équipe à l'UC Berkeley il y a 10 ans.

Les responsables de l'ICML ont immédiatement tweeté leurs félicitations. Jia Yangqing a répondu : « Je suis profondément honoré que DeCAF ait remporté le prix ICML 2024 Time Test. C'est une décennie incroyable pour le développement de l'intelligence artificielle. » Il a également mentionné d'autres auteurs partout.

L'un des auteurs, actuellement vice-président de Google DeepMind et co-leader du projet GeminiOriol VinylesYe Kaimai a dit : « Merci beaucoup pour ce prix (ça me fait me sentir vieux) » :

DeCAF est la première version open source d'AlexNet, et nous l'avons utilisée pour tester si les fonctionnalités apprises par cet excellent classificateur ImageNet peuvent être largement utilisées dans d'autres tâches de vision. Il s’avère que cette idée est encore très d’actualité aujourd’hui avec les meilleurs modèles multimodaux !

Les deux anciens partenaires ont également parlé de leur passé dans la zone de commentaires :

Cette année, c'est la 41e édition de l'ICML, avec plus de 9 000 soumissions et un taux d'acceptation de 27,5 %. En plus du Time Test Award,Le prix du meilleur article a également été annoncé et les articles Stable Diffusion 3 figurent sur la liste.。

L'article qui a remporté le Time Test Award a été cité 6 012 fois sur Google Scholar :

Voyons d’abord de quoi parle cet article.

Le prédécesseur du célèbre framework Caffe

Cet article propose une méthode appeléeCafé décaféiné(Deep Convolutional Activation Feature) fonctionnalité d'activation par convolution profonde, utilisée pour résoudre les problèmes généraux de reconnaissance visuelle.

Il explore principalement si les caractéristiques de la couche intermédiaire des réseaux neuronaux à convolution profonde pré-entraînés sur des ensembles de données étiquetés à grande échelle tels qu'ImageNet peuvent être efficacement transférées à d'autres tâches visuelles, c'est-à-direFaisabilité de l’apprentissage par transfert。

L'auteur adopte la méthode proposée par Geoffrey Hinton, Alex Krizhevsky et Ilya Sutskever en 2012.AlexNet Architecture de réseau neuronal convolutif, comprenant 5 couches convolutives et 3 couches entièrement connectées. Après la pré-formation sur l'ensemble de données ImageNet, gelez les pondérations du réseau.

Les activations des différentes couches sont extraites sous forme de fonctionnalités, notamment DeCAF5, DeCAF6 et DeCAF7 (l'activation de la dernière couche cachée). Et entraînez uniquement un simple classificateur linéaire sur la nouvelle tâche tout en conservant les fonctionnalités DeCAF inchangées.

Pour vérifier l'efficacité de cette méthode, les auteurs ont mené des expériences sur plusieurs critères de vision par ordinateur standard, notamment la reconnaissance d'objets (Caltech-101), l'adaptation de domaine (ensemble de données Office), la reconnaissance fine (ensemble de données Caltech-UCSD Bird) et la reconnaissance de scènes. (SUN-397).

Les résultats expérimentaux montrent que DeCAF atteint d’excellentes performances sur toutes ces tâches, dépassant souvent les meilleures méthodes du moment.

L'algorithme t-SNE est utilisé pour mapper des fonctionnalités de haute dimension dans un espace 2D, démontrant que les fonctionnalités DeCAF sont supérieures aux fonctionnalités traditionnelles telles que GIST et LLC en matière de clustering sémantique.

DeCAF fonctionne toujours bien même lorsque les échantillons de formation sont rares, comme l'apprentissage à échantillon unique. L'article analyse également en détail la répartition du temps de calcul de chaque couche du réseau et constate que la couche entièrement connectée occupe la majeure partie du temps de calcul.

En outre, l'article explore également l'impact des techniques de régularisation telles que le dropout, en particulier son application sur les couches DeCAF6 et DeCAF7.

En fin de compte, l'auteur a open source l'outil d'extraction de fonctionnalités DeCAF et le modèle pré-entraîné.

Après que certains internautes aient vu que ce journal avait remporté le prix dix ans plus tard, ils se sont soudainement demandé : « Est-ce l'origine du Caffe ?

Jia Yangqing a également répondu :

Café décaféinéNe s'entraîne pas assez vite (Nous estimions que la formation prendrait plus d'un mois), nous sommes donc passés à Caffe. C'est pourquoi un nom ne contient aucune caféine et un autre en contient : les humains et les machines fonctionnent plus vite.

Prix du meilleur article

En plus du Time Test Award, le prix ICML 2024 du meilleur article a également été annoncé. Il y a 10 articles gagnants cette année.

Il s'agit notamment du papier Stable Diffusion 3 "Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution”。

Le co-fondateur et CTO de Pika, Chenlin Meng, a participé à "Modélisation de la diffusion discrète par estimation des ratios de la distribution des données"Ce travail a également remporté un prix.

Liens de référence :
[1]https://icml.cc/virtual/2024/awards_detail
[2]https://arxiv.org/abs/1310.1531
[3]https://x.com/jiayq/status/1815653822028738667
[4]https://x.com/jiayq/status/1815862939569774796

nouvelles