nouvelles

Le programmeur IA le plus puissant perd son emploi : il parcourt le code en 84 secondes et pense comme un humain ! L'équipe n'est que de 5 personnes

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Le vent d'ouest de Jin Lei provient du temple Aofei
Qubits | Compte public QbitAI

Après Devin, un autreIngénieur logiciel IAL'écran a été balayé——

ça s'appelleGénie, connu sous le nom de courantLe plus fort en surface, peut déjà penser et agir comme des humains !



Alors, quelle est la force de ce « plus fort en surface » ?

Jetons un coup d'oeil d'abordNote d'évaluation

Dans la liste faisant autorité SWE-Bench, Genie a résolu30.07%Le score de la question était en tête de liste.

(SWE-Bench est une référence utilisée pour évaluer de grands modèles afin de résoudre des problèmes logiciels réels.)

On peut dire que ce résultat est bien en avance de 19,27% sur la deuxième place, débloquantLa plus forte augmentation de l'amélioration SOTA - 57 % !



Quant au GénieEffet réel, selon les mots de l'équipe :

Il peut résoudre des problèmes logiciels réels, tout comme les ingénieurs humains.

Tout d'abord, vous pouvez utiliser 4 façons de démarrer Genie, à savoir les mots d'invite, le problème GitHub, le ticket linéaire ou l'API.



En prenant comme exemple la résolution des problèmes GitHub, fournissez d'abord à Genie un lien vers le dépôt, et il démarreraRésoudre automatiquement les problèmesA obtenu:



Club des GéniesPensée itérative automatiqueS'il veut résoudre ce problème, de quels fichiers a-t-il besoin jusqu'à ce qu'il estime en avoir trouvé un qui lui convient :



Immédiatement après, il fera unAnalyse itérative automatiqueLe processus :



Puis Génie a commencé à "swish, swish, swish"Écrire et exécuter automatiquement le codeA obtenu:





Si un bug se produit lors de l'exécution du code, Genie se concentrera uniquement sur la zone problématique et répétera le processus d'analyse, d'écriture du code et de son exécution jusqu'à son exécution.

L'ensemble du processus ne prend que du temps84 secondes



Selon les mots de l'équipe :

Genie a observé et appris comment les programmeurs humains résolvent des millions de fois des problèmes logiciels.
C’est un chiffre qu’aucun programmeur humain ne peut atteindre au cours de sa vie.



Mais ce qui est encore plus inattendu, c'est l'équipe derrière Genie——Cosinus, seulement 5 personnes

Et le PDG Alistair a également publié un message remerciant OpenAI :

Nous ne pourrions pas créer Genie sans vous.



Alors, comment l’équipe Cosine a-t-elle construit Genie ?

Comment devenir l’ingénieur IA le plus fort ?

La principale caractéristique de Genie est sa capacité à imiter les processus cognitifs, la logique et le flux de travail des ingénieurs humains.

Pour ce faire, l’équipe Genie a révélé avoir collecté un ensemble de données contenant les activités de développement de vrais programmeurs humains au cours de l’année écoulée.

Il utilise non seulement l'analyse des résultats, l'analyse statique, le jeu automatique, la vérification étape par étape et d'autres méthodes, mais utilise également des modèles d'IA formés sur la base d'une grande quantité de données étiquetées. L’avantage est qu’à mesure que les capacités des modèles sous-jacents s’améliorent, la qualité des données qu’ils peuvent extraire augmente également.

Enfin GénieUtilisez ces données propriétaires pour la formation

Le processus complet du raisonnement humain est codé dans l'ensemble de données, y compris le traçage parfait des informations, la découverte progressive des connaissances et le processus de prise de décision étape par étape basé sur des cas de travail réels d'ingénieurs logiciels.

Le processus de raisonnement de Genie comprendPlanification, récupération, écriture de code et exécution de codeLes quatre étapes principales dépassent les limites des autres ingénieurs en IA qui s'appuient sur l'ajout d'outils supplémentaires tels que des navigateurs Web et des interpréteurs de code au-dessus du modèle de base, et peuvent gérer des problèmes divers, très situationnels et sans précédent comme ceux des humains.



Cette méthode de formation a immédiatement fait penser aux internautes à des idées similaires que Karpathy avait avancées auparavant :

Pour LLM, les données de formation idéales ne sont pas le contenu que vous écrivez lui-même, mais votre processus de réflexion complet et chaque action d'édition pendant le processus d'écriture. Cependant, nous ne pouvons faire de notre mieux qu’avec les ressources dont nous disposons.



De plus, la formation Genie introduit égalementmécanisme d'auto-amélioration

Les données de formation initiales sont pour la plupart du code sans erreur qui peut s'exécuter normalement, ce qui rend difficile pour Genie de gérer les situations d'erreur. Pour résoudre ce problème, l'équipe a utilisé la première version de Genie pour générer des données synthétiques contenant des erreurs, puis a utilisé ces données pour entraîner la version suivante du modèle.

Concrètement, l'ancienne version de Genie est utilisée pour proposer une solution, et si la solution est fausse, l'état final maîtrisé de la tâche est utilisé pour lui apprendre à atteindre l'état correct à partir de l'état actuel.

En répétant ce processus, la solution initiale proposée par Genie devient progressivement plus précise, donnant directement la bonne réponse dans la plupart des cas, et même si elle commet une erreur, elle ne nécessite que moins de corrections dans l'ensemble de données.



Une autre clé pour améliorer les capacités de Genie réside dans la prise en charge de grands modèles fournie par OpenAI.

L'équipe a déclaré que lorsqu'elle a développé Genie pour la première fois, elle ne pouvait accéder qu'à des modèles de contexte courts compris entre 16 et 32 ​​000 pour un réglage fin. Elle a utilisé ces modèles pour de nombreux premiers développements et a utilisé plus de 100 millions de données de jetons pour entraîner le. Bien qu'ils aient constaté que l'architecture conçue présentait certains avantages, ils étaient fondamentalement limités par la quantité d'informations que le modèle pouvait traiter dans un laps de temps donné.

Après avoir essayé diverses méthodes de compression/blocage, la seule solution consistait à utiliser un modèle avec un contexte plus large.

OpenAI fournit une prise en charge de modèles de contexte long et la dernière version de Genie a été formée sur des milliards de jetons.

L’équipe estime que par rapport à l’ajustement des hyperparamètres et au volume des données, la qualité des données est la clé. Par conséquent, ils ont également mené de nombreuses expériences sur le mélange de données, incluant plusieurs dimensions telles que le langage, le type de tâche, la durée de la tâche, etc. Voici la proportion de différentes données de langage de programmation utilisées pour former Genie :



Il existe également des proportions de données de différents types d'instances :



Une équipe de seulement 5 personnes

Comme nous l’évoquions plus haut, l’équipe de la start-up de Cosine ne compte actuellement que 5 personnes.

Dans l'introduction du site officiel, ils se décrivent également très directement comme :

Petit mais puissant.
Petit mais puissant.



À en juger par l'introduction, certains membres sont issus d'entreprises licornes, certains ont de l'expérience dans la gestion d'équipes mondiales et certains ont même commencé à programmer depuis l'âge de 8 ans.

Mais lorsque Cosine a été créé, il n’y avait que trois personnes. Leur objectif était de :Comprendre le raisonnement humain



Il convient de mentionner que l’un des membres de l’équipe est chinois.Yang Li, est le co-fondateur de Cosine et a été répertorié sur Forbes 30 under 30 en 2021.



De plus, concernant Genie lui-même, le PDG Alistair a également déclaré :

Nous avons commencé à imaginer Genie dès 2022, mais ce n’était pas techniquement réalisable à l’époque.
Ce n’est qu’au cours des six derniers mois environ que Genie est devenu une réalité à mesure que le grand modèle mûrissait progressivement.



Eh bien, je dois dire que le grand modèle a encore une fois apporté une grande contribution.

Genie peut actuellement postuler sur la liste d'attente. Les amis intéressés peuvent cliquer sur le lien à la fin de l'article ~.

Adresse de la liste d'attente :
https://cosine.sh/register

Liens de référence :
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/etat-de-l-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_