2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La maison Mengchen provient du temple Aofei
Qubits | Compte public QbitAI
histoireLe premier « scientifique de l’IA »”, s'est avéré être le cas !
Il a été généré en une seule fois dès son apparition.Dix articles académiques complets。
△Un document modèle de diffusion généré par l’IA
Qu'il s'agisse de proposer des idées de recherche, de vérifier la nouveauté, de concevoir des expériences, d'écrire du code, d'exécuter des expériences sur GPU et de collecter des résultats, et enfin de rédiger l'article, tout se fait en une seule fois.
Tout est fait automatiquement par ce « scientifique IA ».
Le coût par papier est d'env.15 $(environ 107,62 yuans).
C'est le premier pourRecherche scientifique en automatisationet un système d'IA intégré pour la découverte ouverte,Le scientifique de l'IA。
De la startup de Llion Jones, l'un des auteurs de Transformer :IA Sakana。
et!
Ce que fait cette entreprise ne consiste pas seulement à créer un scientifique en IA,Nous avons également créé un réviseur IA supplémentaire。
Les évaluateurs peuvent examiner les articles rédigés par AI et proposer des suggestions d’amélioration.
Au secours, c'est un cycle de matriochka consistant à utiliser ma lance pour attaquer mon bouclier !
Après une opération, cela ressemble plus à un cercle académique humain qu'à un cercle académique humain (non)
Encore un et !
Qu'il s'agisse d'un scientifique en IA ou d'un évaluateur d'IA, Sakana AI les metTout est open source.
Les internautes ont applaudi après avoir regardé ceci ;
Joli Beau travail très intéressant !
Et certains ont déjà commencé à avoir de « mauvaises idées ».
Il est recommandé de soumettre l'un des articles à AI Dinghui !
Pendant des décennies, après chaque avancée majeure de l’IA, les chercheurs plaisantaient souvent : «Il est temps d’envisager de laisser l’IA nous aider à rédiger des articles”。
Aujourd’hui, l’idée est enfin passée de la plaisanterie à la réalité.
Plus précisément, les scientifiques en IA ont généré dix articles et en ont sélectionné un avec un score plus élevé dans chaque direction de recherche à présenter.
Partie 1, Modèle de direction de diffusion, "Diffusion à double échelle : équilibrage adaptatif des fonctionnalités pour les modèles génératifs de faible dimension"
Une méthode adaptative de débruitage à double échelle est proposée pour améliorer le problème selon lequel les modèles de diffusion existants sont difficiles à capturer simultanément la structure globale et les détails locaux dans un espace de faible dimension.
méthode:
Résultats expérimentaux :
Un rapide coup d'œil au texte principal montre qu'il existe des formules et des graphiques, et cela semble plutôt correct.
Deuxième partie, direction du modèle linguistique, "StyleFusion : génération adaptative multi-styles dans les modèles de langage au niveau des caractères."
Cet article propose une nouvelle méthode appelée Multi-Style Adapter, qui améliore la prise en compte du style et la cohérence des modèles de langage au niveau des caractères en introduisant des intégrations de style apprenables et des en-têtes de classification de style.
Nous avons obtenu des scores de cohérence de style presque parfaits sur tous les ensembles de données (0,9667 pour shakespeare_char, 1,0 pour enwik8 et text8), avec une perte de validation meilleure que le modèle de base, mais avec une légère diminution de la vitesse d'inférence (~ 400 jetons/s contre 670 jetons pour la/les ligne(s) de base)
Le troisième article, combinant Transformer avec l'apprentissage par renforcement, "Taux d'apprentissage adaptatif des Transformers via Q-Learning".
Cette étude explore l'application de l'apprentissage par renforcement pour ajuster dynamiquement le taux d'apprentissage dans la formation du modèle de transformateur, en utilisant la perte de vérification et le taux d'apprentissage actuel comme état pour ajuster dynamiquement le taux d'apprentissage afin d'optimiser le processus de formation.
Les résultats surpassent le modèle de base sur tous les ensembles de données et montrent également des avantages en termes de temps de formation.
Le quatrième article étudie le phénomène de « Grokking » des grands modèles proposé par l'équipe Google, "Déverrouiller Grokking : une étude comparative des stratégies d'initialisation de poids dans les modèles de transformateur"
Cet article étudie systématiquement pour la première fois l'impact de l'initialisation du poids sur le grokking et compare cinq stratégies d'initialisation du poids pour optimiser la dynamique d'apprentissage du réseau neuronal.
s'avérer:
Les codes de support de ces articles (également générés par l'IA) sont également open source sur GitHub, en mettant en évidence celui qui est reproductible.
En outre, l’équipe a découvert que les « scientifiques de l’IA »Comportement intéressant mais quelque peu dangereux:
Dans une expérience, il a modifié son propre code afin de compléter la recherche,Laissez le système s'appeler de manière itérative, et finalement transformé en une poupée matriochka infinie.
Une autre fois, confrontée à la limite de temps d’exécution fixée par les humains, l’IA n’a pas trouvé de moyen d’accélérer l’efficacité, mais a assoupli ses exigences.Prolongation du délai de 2 heures à 4 heures。
L'ensemble de l'idée de recherche vient de la poursuite de plusieurs réalisations après la création de Sakana AI :
Tout d’abord, ils ont développé une méthode permettant de fusionner automatiquement les connaissances de plusieurs grands modèles et d’évoluer pour générer de nouveaux modèles. Dans des travaux récents, ils exploitent de grands modèles pour découvrir de nouvelles fonctions objectives permettant d’ajuster d’autres modèles.
Dans ces projets, l'équipe continue d'être surprise par la créativité des modèles d'avant-garde actuels, conduisant à des rêves encore plus grands :Les grands modèles peuvent-ils être utilisés pour automatiser l’ensemble du processus de recherche ?
Le résultat final a été réalisé par une équipe de Sakana AI, du laboratoire Foerster de l'Université d'Oxford et de l'Université de la Colombie-Britannique.
Le système « AI Scientist » se compose de quatre parties.
Génération d'idées :
À partir d'un modèle de départ, l'IA « réfléchit » d'abord à une série de nouvelles orientations de recherche et effectue des recherches sur Semantic Scholar pour vérifier si ces idées ont déjà été réalisées.
Itération d'expérimentation :
Pour l'idée présentée dans la première partie, le « scientifique de l'IA » réalise d'abord l'expérience proposée, puis génère une visualisation graphique des résultats.
Rédaction d'essais :
J'ai écrit un article LaTeX concis et informatif dans le style d'une conférence standard sur l'apprentissage automatique, et j'ai également utilisé Semantic Scholar pour rechercher indépendamment des articles pertinents pour les citations.
Examen automatisé par les pairs :
Un « examinateur d'IA » automatisé a été développé pour évaluer les articles générés avec une précision quasi humaine, permettant ainsi une boucle de rétroaction continue qui permet aux « scientifiques de l'IA » d'améliorer de manière itérative leurs résultats de recherche.
Au total, 10 articles ont été générés comme suit :
Dans l'expérience, l'équipe a également comparé les effets de la connexion de différents grands modèles traditionnels à l'ensemble du système, y compris le grand modèle de code national de l'équipe DeepSeek.
s'avérer,Claude-Sonnet-3.5 obtient les meilleurs résultats en termes d'innovation d'idées, de taux de réussite aux tests et de qualité de rédaction des documents.
GPT-4o et DeepSeek Coder fonctionnent de manière similaire, mais ce dernier est 30 fois moins cher.
Bien entendu, à ce stade, les articles rédigés indépendamment par AI ne sont pas parfaits et ne peuvent pas non plus être publiés directement.
Les chercheurs humains ont résumé plusieurs limites et défis :
Pour résumer, les articles rédigés par cette première génération de scientifiques en IA comportent encore de temps en temps quelques bugs.
Mais le projet lui-même, ainsi que le coût de 15 dollars par article, sont qualifiés de « prometteurs » par Sakana AI et peuvent être utilisés pour contribuer à accélérer le progrès scientifique.
Sakana AI a également publié un article explicatif indiquant que la vision finale des scientifiques en IA est uneUn écosystème scientifique entièrement propulsé par l’IA。
Le système comprend non seulement de grands chercheurs axés sur des modèles, mais également des évaluateurs, des chaires régionales et une nouvelle conférence.
Il convient de noter que Sakana AI estime que :
Le rôle des scientifiques humains ne sera pas diminué par l’émergence des scientifiques en IA.
S'il faut faire une comparaison, c'est que les scientifiques doivent s'adapter à l'émergence et à l'application des nouvelles technologies, s'adapter aux changements dans leur positionnement de rôle et « gravir les échelons de la chaîne alimentaire ».
De plus, il reste à voir si les scientifiques en IA peuvent réellement proposer de véritables nouveaux paradigmes.
Après tout, cette chose est toujours basée sur Transformer.
Peut-il proposer quelque chose d'aussi puissant qu'un transformateur ou un modèle de diffusion ? Même des concepts théoriques comme les réseaux de neurones artificiels ou la théorie de l’information ?
Nous ne le savons pas non plus et nous n’osons pas le dire.
Sakana AI a également écrit ce paragraphe :
Nous pensons que les scientifiques en IA deviendront d’excellents partenaires pour les scientifiques humains.
Mais seul le temps nous dira dans quelle mesure l’essence de la créativité humaine et les moments fortuits d’innovation peuvent être reproduits grâce à la découverte ouverte des humains.
△Sakana AI : un petit poisson IA entièrement automatisé explore son monde
L'entreprise qui a réalisé cette fois la « nouvelle création », Sakana AI, est aussi un vieil ami à nous au sens strict.
Par le dernier des 8 auteurs de l'article TransformerLion JonesLa startup a été créée dans le but de devenir un « laboratoire de recherche en intelligence artificielle de classe mondiale ».
La société est basée à Tokyo et sakana est le mot japonais signifiant « poisson » (poisson).
Peut-être pour des raisons de culture d'entreprise, Llion a également déclaré sur LinkedIn qu'il avait une translittération japonaise de son nom : ライオン (qui est aussi le katakana de Lion ; il sera affectueusement appelé ci-après Frère Lion).
En août de l'année dernière, la société a été annoncée.
À cette époque, Lion Brother a déclaré sans hésitation qu'il n'avait aucune mauvaise intention envers Google, maisGoogle le fait se sentir "piégé"。
Avant de créer sa propre entreprise, frère Lion a travaillé chez Google pendant 8 ans.
△Devinez à qui il manque la moitié de son visage ?
Il est diplômé de l'Université de Birmingham et a travaillé chez Delcam, YouTube et Google est l'entreprise où il est resté le plus longtemps.
Selon FourWeekMBA, lors de son expérience professionnelle antérieure,"J'ai raté deux fois le poste chez Google"。
La première fois, c'était lorsqu'il cherchait un emploi juste après l'obtention de son diplôme. Bien qu'il ait soumis son CV d'ingénieur logiciel chez Google Londres et passé deux séries d'entretiens téléphoniques, il a finalement choisi Delcam, une société de logiciels de CAO/FAO au Royaume-Uni. sur Google.
Il convient de mentionner qu'avant de recevoir l'offre de Google, il a été confronté à la crise économique en 2009. Lion Brother n'a pas pu trouver de travail et a dû compter sur des fonds de secours pour survivre pendant plusieurs mois.
La deuxième fois, après 18 mois de travail, il a reçu un appel de recrutement de Google lui demandant s'il souhaitait postuler à nouveau, mais il n'est toujours pas allé chez Google, mais a ensuite rejoint YouTube.
Alors qu'il travaillait comme ingénieur logiciel chez YouTube pendant trois ans, il s'est intéressé à l'intelligence artificielle, a suivi lui-même le cours d'apprentissage automatique de Coursera et a finalement rejoint Google Research en 2015 en tant qu'ingénieur logiciel senior.
C'est également à cette période que lui et sept autres auteurs publient le célèbre article Transformer.L'attention est tout ce dont vous avez besoin。
De plus, Lion Brother a également participé à de nombreuses recherches chez Google, notamment ProtTrans, Tensor2Tensor, etc.
Il a choisi de quitter Google parce que l'entreprise avait atteint une taille qui l'empêchait de continuer à faire le travail qu'il souhaitait faire.
En plus de gaspiller de l'énergie chaque jour à résoudre les bugs des autres, il doit également passer du temps à rechercher des ressources auprès de cette entreprise pour tenter d'accéder à certaines données.
Après le démarrage de l’entreprise, les travaux de Sakana AI progressent de manière ordonnée.
Avant d'utiliser des scientifiques et des évaluateurs d'IA, nous avons également publié de grands modèles fusionnant des algorithmes évolutifs et étudiant le flux d'informations interne de Transformer.
Quant aux projets de scientifiques en IA et d'évaluateurs d'IA, ils sont réalisés en coopération avec Sakana AI, Oxford et UBC.
Les trois co-auteurs sont :
Chris Lu, stagiaire chez Sakana AI, est le chercheur scientifique de l’entreprise.
Il est titulaire d'un baccalauréat de l'UC Berkeley et est actuellement étudiant en troisième année de doctorat à l'Université d'Oxford. Son superviseur est Jakob Foerster.
L'importante direction de recherche actuelle de Chris consiste à appliquer des techniques inspirées de l'évolution au méta-apprentissage et à l'apprentissage par renforcement multi-agents.
À l’été 2022, il a effectué un stage en tant que chercheur scientifique chez DeepMind.
Cong Lu, chercheur postdoctoral à l'UBC (University of British Columbia), encadré par Jeff Clune.
Cong a étudié à la RGU (Robert Gordon University) et a obtenu son doctorat à l'Université d'Oxford en 2019. Ses principaux intérêts de recherche sont l'apprentissage par renforcement ouvert et la découverte scientifique de l'IA.
Auparavant, il a effectué des stages chez Waymo et Microsoft.
Robert Tjarko Lange, l'un des membres fondateurs de Sakana AI et chercheur scientifique au sein de l'entreprise.
Il termine actuellement sa dernière année de doctorat à l’Université technique de Berlin et ses recherches portent sur le méta-apprentissage évolutif.
Le jeune homme est titulaire d'un master en informatique de l'Imperial College de Londres, d'un master en science des données de l'université Pompeu Fabra et d'un diplôme de premier cycle en économie de l'université de Cologne.
L'année dernière, il a travaillé comme étudiant chercheur à temps plein au sein de l'équipe de Google DeepMind à Tokyo.
Adresse papier :
https://arxiv.org/abs/2408.06292
Liens de référence :
[1]https://x.com/SakanaAILabs/status/1823178623513239992
[2]https://sakana.ai/ai-scientist/