Le Q* d'OpenAI n'a jamais été vu auparavant, mais le Q* d'un certain nombre de startups est ici

2024-07-31

Jusqu’où sommes-nous d’une IA capable de « penser lentement » ?

Auteur｜Stéphanie Palazzolo

Compilation |

Éditeur｜Jingyu

L'année dernière, avant et après le licenciement temporaire de Sam Altman, les chercheurs d'OpenAI ont envoyé une lettre commune au conseil d'administration, soulignant que le mystérieux projet nommé Q pourrait menacer toute l'humanité. OpenAI a reconnu Q* dans une lettre interne de suivi aux employés et a décrit le projet comme un « système autonome surhumain ».

Bien que Q* n'ait pas encore été vu, il y a toujours des rumeurs à ce sujet dans le monde.

Lu Yifeng, ingénieur principal chez Google DeepMind, a un jour fait une conjecture à Geek Park d'un point de vue professionnel : le modèle doit comprendre de quels problèmes il n'est pas sûr et ce qu'il doit faire ensuite. À ce stade, le modèle peut avoir besoin de surfer sur Internet, de lire des livres, de faire des expériences, de réfléchir à des idées inexplicables et de discuter avec d'autres personnes comme les humains.

Cette année, lorsque je pose des questions dans les applications d'assistant IA des principaux fabricants de modèles, je sens que les réponses sont plus fiables que l'année dernière. De nombreux fabricants ont également déclaré qu'ils travaillaient dur pour que les modèles réfléchissent davantage et s'améliorent davantage. leurs capacités de raisonnement. Comment se déroulent les progrès jusqu’à présent ?

Concernant les questions ci-dessus, la journaliste de The Information Stephanie Palazzolo, dans l'article « Comment les petits rivaux d'OpenAI développent leur propre IA qui « raisonne » », a discuté des modèles des startups existantes pour améliorer les capacités de raisonnement des modèles, y compris la société chinoise Q*. Organisé par Geek Park, il se déroule comme suit :

Petits concurrents d’OpenAI

Développez votre propre IA de « raisonnement »

Hormis les bulles, l’utilité de cette vague d’IA est un sujet qui a été examiné à plusieurs reprises sous les projecteurs cette année.

Le principe du grand modèle est de générer des unités de mots une à une sur la base de prédictions de probabilité, mais répéter les mots à partir du corpus alimenté lors de l'entraînement et inventer des hallucinations face à des questions jamais vues auparavant n'est évidemment pas l'affaire de tout le monde. attend. Améliorer davantage les capacités de raisonnement du modèle est devenu essentiel.

À cet égard, nous n'avons pas encore vu de progrès de la part d'OpenAI et de Google, mais certaines startups et individus affirment avoir mis au point des méthodes « bon marché » (piratages bon marché) pour obtenir certaines formes de capacités de raisonnement de l'IA.

Ces raccourcis consistent notamment à diviser un problème complexe en étapes plus simples et à poser au modèle des dizaines de questions supplémentaires pour l'aider à analyser ces étapes.

Par exemple, lorsqu'on lui demande de rédiger un article de blog sur un nouveau produit, l'application d'IA déclenche automatiquement des requêtes supplémentaires, comme demander au grand modèle d'évaluer ses réponses et ses axes d'amélioration. Bien entendu, dans l’interface utilisateur, vous ne pouvez pas voir ces actions effectuées par le modèle en arrière-plan.

Ceci est similaire à la méthode socratique consistant à apprendre aux étudiants à réfléchir de manière critique à leurs croyances ou à leurs arguments. Ce dernier adopte une méthode d'enseignement par questions et réponses. Lors de la communication avec les étudiants, Socrate ne donnera pas de réponses directement, mais guidera les étudiants à découvrir les problèmes par eux-mêmes et à révéler les contradictions et les lacunes de leurs points de vue en posant constamment des questions. , et corrigez-le progressivement pour tirer la bonne conclusion.

Grâce à ce lien, l'application d'IA peut demander au grand modèle de réécrire le billet de blog ci-dessus, en tenant compte des retours qu'il vient de se donner lors de la rédaction. Ce processus est souvent appelé réflexion, et un entrepreneur en applications d’IA a déclaré qu’il conduit souvent à de meilleurs résultats.

En plus de l'approche réflexive, les développeurs peuvent également suivre Google et essayer Une technique appelée échantillonnage. Lors de l'échantillonnage, les développeurs améliorent la capacité des grands modèles à produire des réponses créatives et aléatoires en posant la même question des dizaines, voire 100 fois, puis en sélectionnant la meilleure réponse.

Par exemple, une application d'assistant de programmation peut demander à un grand modèle de donner 100 réponses différentes à la même question, puis l'application exécute tous ces extraits de code. L'application finale d'assistant de programmation sélectionnera le code qui produit la bonne réponse et sélectionnera automatiquement le code le plus concis.

Meta a mis en évidence certaines techniques similaires dans son récent article Llama 3.

Mais cette solution de contournement – appeler 100 fois un grand modèle de langage ou lui demander de générer autant de texte et de code – est extrêmement lente et coûteuse. C'est probablement pour cela que certains développeurs ont critiqué l'assistant de programmation réalisé par Cognition, une startup utilisant ces technologies, pour ses performances lentes.

Les développeurs ont également constaté ce problème et tentent de le résoudre.le chemin estSélectionnez des exemples du modèle qui montrent une bonne capacité de raisonnement pour un problème spécifique et « réinjectez-les » dans le modèle.données d'entraînementConcentrez-vous sur la résolution de ce problème. Comme le disait un entrepreneur, cette approche s’apparente à l’apprentissage des tables de multiplication à l’école primaire. Au départ, les élèves devront peut-être calculer manuellement chaque problème de multiplication. Mais avec le temps, et la mémorisation de ces tables de multiplication, les réponses font presque partie de l'intuition de l'élève.

Pour développer ce type d’IA, les développeurs doivent contrôler de grands modèles. Mais il est difficile d'obtenir un sentiment de contrôle à partir des modèles fermés d'OpenAI ou d'Anthropic, ils sont donc plus susceptibles d'utiliser un modèle de poids ouvert comme Llama 3 (le poids ouvert est un terme dans le monde open source, signifiant code avec un poids élevé). degré d'ouverture).

Les deux méthodes ci-dessus peuvent être les technologies utilisées par OpenAI à l’origine de sa percée en matière de raisonnement. Bien entendu, OpenAI n'a pas encore publié Q*, également connu sous le nom de projet « Strawberry ».

Le Q* de la Chine

Les développeurs et chercheurs chinois maîtrisent également progressivement ces technologies.

Des chercheurs de Skywork AI et de l'Université technologique de Nanyang en Chine ont publié un article sur cette question en juin de cette année. Dans cet article, ils ont également nommé la technologie Q* en l’honneur d’une version d’OpenAI qu’ils n’avaient jamais vue auparavant.

La technologie chinoise Q* permet à de grands modèles de résoudre des problèmes en plusieurs étapes, tels que des énigmes logiques complexes.

le chemin estEn « recherchant » à chaque étape de la réponse la meilleure étape suivante que le grand modèle devrait essayer, plutôt que de suivre les étapes pour parvenir à une conclusion (cette méthode est également connue sous le nom de recherche arborescente de Monte Carlo et a été utilisée plus tôt dans Google AlphaGo) . Ceci est accompli grâce à une équation spéciale appelée modèle de valeur Q qui aide le grand modèle à estimer la récompense future de chaque étape suivante possible, ou la probabilité que la réponse finale soit correcte.

Les chercheurs déclarent qu’ils prévoient de rendre publique la technologie cet automne.

Alex Graveley, PDG de Minion AI, une startup d'agents intelligents et ancien architecte en chef de GitHub Copilot, a déclaré qu'ils essayaient toujours Apprenez au modèle de langage à revenir en arrière lorsqu'il se rend compte que quelque chose s'est mal passé.Il affirme que cette prise de conscience peut se produire lorsqu'un grand modèle produit une réponse incorrecte ou est invité à réfléchir à ses étapes intermédiaires (similaire à l'exemple du billet de blog ci-dessus)., réalisant qu'une erreur avait été commise.

Il existe d'autres tentatives dans l'industrie, notamment l'article « Quiet-STaR » publié par l'Université de Stanford et Notbad AI en mars. Tout comme les humains s'arrêtent pour réfléchir à leurs pensées avant de parler ou d'écrire, cet article explique comment enseigner de grands modèles de langage pour générer des informations sur les étapes de « réflexion » internes qu'ils suivent dans des problèmes de raisonnement complexes pour les aider à prendre de meilleures décisions.

La technologie Q*/Strawberry d'OpenAI a peut-être une longueur d'avance, mais tout le monde semble se précipiter pour rattraper son retard.

*Source de l'image principale : GulfNews

Geek a demandé

Pensez-vous que nous sommes éloignés l'un de l'autre

Jusqu’où en est-elle à l’IA qui peut faire de la « réflexion lente » ?

Mesure réelle de l'enregistrement des appels bêta d'iOS 18.1, le téléphone Android peut toujours recevoir des invites d'enregistrement.

Aimez et suivezCompte vidéo Geek Park，

nouvelles

Le Q* d'OpenAI n'a jamais été vu auparavant, mais le Q* d'un certain nombre de startups est ici

Introduction

mes coordonnées