o1 exposition soudaine d’un initié ? google a révélé le principe plus tôt. il n'y a pas de fossé pour les grands modèles dotés uniquement de logiciels.

2024-09-17

mingmin vient du temple aofei
qubits | compte public qbitai

moins d’une semaine après sa sortie, le fossé du modèle o1 le plus puissant d’openai a disparu.

quelqu'un a découvert qu'un article publié par google deepmind en août révélait le principe et le fonctionnement de o1.presque unanime。

cette étude montre qu'il est plus efficace d'augmenter les calculs du temps de test que d'étendre les paramètres du modèle.

sur la base de la stratégie d'expansion du calcul du temps de test optimal proposée dans l'article, le modèle de base plus petit peut en surpasser un dans certaines tâches.14 fois plus grandmodèle.

les internautes ont déclaré :

c'est presque le principe de o1.
comme nous le savons tous, ultraman aime être en avance sur google, alors est-ce pour cela qu'o1 a publié la version préliminaire en premier ?

certains ont déploré ceci :

en effet, comme l’a dit google lui-même, personne n’a de douves, et personne n’en aura jamais.

à l'heure actuelle, openai a multiplié par 7 la vitesse d'o1-mini et peut utiliser 50 éléments par jour ; o1-preview mentionne 50 éléments par semaine.

économisez 4 fois le montant du calcul

le titre de cet article de google deepmind est :lors de l'optimisation des tests llm, le calcul est plus efficace que l'extension de l'échelle des paramètres du modèle。

l'équipe de recherche s'est éloignée des schémas de pensée humains. étant donné que les gens mettront plus de temps à réfléchir et à améliorer leurs décisions face à des problèmes complexes, peut-il en être de même pour le llm ?

en d’autres termes, face à une tâche complexe, llm peut-il être en mesure d’utiliser plus efficacement les calculs supplémentaires lors des tests pour améliorer la précision.

certaines études antérieures ont démontré que cette orientation est effectivement réalisable, mais que son effet est relativement limité.

cette étude visait donc à déterminer dans quelle mesure les performances du modèle peuvent être améliorées en utilisant relativement peu de calculs d'inférence supplémentaires ?

ils ont conçu un ensemble d'expériences à tester sur l'ensemble de données math à l'aide de palm2-s*.

deux méthodes sont principalement analysées :

(1) auto-révision itérative: laissez le modèle essayer de répondre à une question plusieurs fois, en la révisant après chaque tentative pour obtenir une meilleure réponse.
(2) recherche: dans cette approche, le modèle génère plusieurs réponses candidates,

on peut voir que lors de l'utilisation de la méthode d'auto-révision, à mesure que la quantité de calculs pendant les tests augmente, l'écart entre la stratégie standard du meilleur des n (best-of-n) et la stratégie d'expansion informatiquement optimale s'élargit progressivement.

l’utilisation de la méthode de recherche pour calculer la stratégie d’expansion optimale présente des avantages évidents dès le début. et dans certaines circonstances, elle peut produire le même effet que la meilleure stratégie n,le montant du calcul n'est que de 1/4 de celui-ci。

dans une évaluation correspondante des flop comparable aux calculs de pré-entraînement, un modèle pré-entraîné 14 fois plus grand (sans inférence supplémentaire) est comparé à palm 2-s* (en utilisant la stratégie informatique optimale).

il a été constaté que lors de l'utilisation de la méthode d'auto-révision, lorsque les jetons d'inférence sont beaucoup plus petits que les jetons de pré-entraînement, l'effet de l'utilisation de la stratégie de calcul du temps de test est meilleur que l'effet de pré-entraînement. mais à mesure que le ratio augmente, ou sur des problèmes plus difficiles, la pré-formation fonctionne toujours mieux.

autrement dit, dans les deux cas, la clé pour calculer si la méthode d'extension est valide selon différents tests estindice de difficulté。

l'étude a ensuite comparé différentes méthodes de recherche prm et les résultats ont montré que la recherche avant (à l'extrême droite) nécessite davantage de calculs.

lorsque la quantité de calcul est faible, l'utilisation de la stratégie de calcul optimale peut économiser jusqu'à 4 fois les ressources.

en comparant le modèle o1 d'openai, cette étude donne presque la même conclusion.

le modèle o1 apprend à affiner son processus de pensée, à essayer différentes stratégies et à reconnaître ses erreurs. et avec plus d'apprentissage par renforcement (calculé pendant l'entraînement) et plus de temps de réflexion (calculé pendant les tests), les performances de o1 continuent de s'améliorer.

cependant, openai a publié le modèle plus rapidement, tandis que google utilise palm2 et n'a pas publié de mise à jour pour gemini2.

internaute : le fossé concerne-t-il uniquement le matériel ?

de telles nouvelles découvertes rappellent inévitablement les points de vue avancés dans les documents internes de google l’année dernière :

nous n’avons pas de fossé, et openai non plus. le modèle open source peut vaincre chatgpt.

de nos jours, chaque vitesse de recherche est très rapide et personne ne peut garantir qu'elle sera toujours en avance.

le seul fossé est peut-être le matériel.

(alors musk va construire un centre informatique ?)

certaines personnes disent que nvidia contrôle désormais directement qui dispose du plus de puissance de calcul. alors, que se passera-t-il si google/microsoft développe une puce personnalisée qui fonctionne mieux ?

il convient de mentionner que la première puce d’openai a été exposée il y a quelque temps et utilisera le processus de niveau angström a16 le plus avancé de tsmc et est spécialement conçue pour les applications vidéo sora.

évidemment, pour les grands champs de bataille, il ne suffit plus de faire rouler le modèle lui-même.

liens de référence :
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

nouvelles

o1 exposition soudaine d’un initié ? google a révélé le principe plus tôt. il n'y a pas de fossé pour les grands modèles dotés uniquement de logiciels.

économisez 4 fois le montant du calcul

internaute : le fossé concerne-t-il uniquement le matériel ?

introduction

mes coordonnées