nouvelles

robin li expose l'illusion des « scores courants » des grands modèles : la liste ne représente pas tous les points forts, et l'écart entre les modèles va se creuser à l'avenir

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

chaque fois qu'une nouvelle version d'un grand modèle est publiée, l'industrie a toujours envie de citer des données de listes tierces, de « faire un score » avec son propre grand modèle et gpt-4, affirmant qu'il a dépassé certains indicateurs. prouver leur solidité technique sur de grands modèles.
mais lors d'un récent échange entre le président de baidu, robin li, et des employés internes, il a percé le « papier à fenêtre » qui entrave l'analyse comparative dans la grande industrie du modélisme. "chaque fois qu'un nouveau modèle sort, il doit être comparé au gpt-4o. on dit que mon score est presque le même que celui-ci, et le dépasse même dans certains éléments individuels, mais cela ne veut pas dire qu'il n'y a pas d'écart. avec les modèles les plus avancés.
il a en outre expliqué que les écarts entre les modèles sont multidimensionnels. une dimension est l'aspect capacité, qu'il s'agisse de l'écart dans les capacités de base telles que la capacité de compréhension, la capacité de génération, la capacité de raisonnement logique ou la capacité de mémoire ; élevé et la vitesse de raisonnement est lente, en fait, il est toujours inférieur aux modèles avancés.
"il y a aussi le surajustement de l'ensemble de test. chaque modèle qui veut prouver ses capacités ira au classement. lors du classement, il devra deviner ce que les autres testent et quelles techniques je peux utiliser pour l'obtenir. c'est vrai, donc à en juger par la liste ou l'ensemble de tests, vous pensez que les capacités sont très proches, mais il existe encore un écart évident dans les applications réelles", a déclaré robin li.
un grand praticien du modèle a déclaré aux journalistes que le surajustement (surajustement) de l'ensemble de tests mentionné par robin li fait principalement référence au fait que pendant le processus de formation du modèle, le modèle apprend trop soigneusement les données de formation, de sorte que le modèle ne ne fonctionne pas bien sur les données d'entraînement. les performances sont très bonnes, mais les performances sont médiocres sur les données de test invisibles. cela signifie généralement que le modèle est si complexe qu'il est capable de « se souvenir » du bruit et des détails dans les données d'entraînement, mais ces détails et ce bruit ne sont pas généraux et, par conséquent, le modèle ne se généralise pas bien à davantage de nouvelles données.
les personnes mentionnées ci-dessus estiment qu'il existe effectivement des limites au classement et à l'exécution des scores. par exemple, en raison de l'ouverture de l'ensemble de données d'évaluation, le modèle peut être entraîné de manière ciblée pour améliorer le classement, ce qui entraîne le phénomène de ". glisser le classement". cependant, cela n'a pas complètement de sens. le classement est encore relativement. il fournit une norme d'évaluation quantitative pour aider les gens à comprendre rapidement les performances des différents grands modèles, incite chacun à optimiser continuellement le niveau technique des grands modèles par la compétition, et joue également un certain rôle dans la publicité et la promotion.
selon robin li, « une partie du battage médiatique auto-médiatique, associée à la motivation pour la publicité lors de la sortie de chaque nouveau modèle, donne à chacun l'impression que la différence de capacités entre les modèles est relativement faible. en fait, ce n'est pas le cas. " robin li a déclaré que dans la pratique, baidu ne permet pas au personnel technique d'établir des classements. la mesure réelle des capacités des grands modèles devrait se faire dans des scénarios d'application spécifiques pour voir s'ils peuvent répondre aux besoins des utilisateurs et générer des gains de valeur.
quant aux « 12 mois d’avance ou 18 mois de retard » souvent évoqués dans la grande industrie du mannequinat, il ne pense pas que ce soit si important. étant donné que chaque entreprise évolue dans un environnement de marché totalement concurrentiel, il existe de nombreux concurrents, quelle que soit la direction prise. "si vous pouvez toujours garantir que vous aurez 12 à 18 mois d'avance sur vos concurrents, vous serez invincible. ne pensez pas que 12 à 18 mois est une courte période. même si vous pouvez garantir que vous serez toujours avec 6 mois d'avance sur vos concurrents, vous gagnerez peut-être 70% de part de marché, alors que votre adversaire n'en aura peut-être que 20% voire 10%.
il estime que l'écart entre les grands modèles pourrait s'élargir à l'avenir. le plafond des grands modèles étant très élevé, la situation est encore loin d'être idéale. par conséquent, le modèle doit être continuellement itéré, mis à jour et mis à niveau rapidement ; il doit pouvoir investir en continu pendant plusieurs années, voire plus de dix ans ; pour répondre en permanence aux besoins des utilisateurs, réduire les coûts et augmenter l’efficacité.
en plus de discuter de l'existence d'obstacles à la concurrence dans les grands modèles, lors de l'échange, robin li a également mentionné qu'il existe de nombreux malentendus à propos des grands modèles, notamment sur des sujets tels que l'efficacité des modèles open source et fermés, et l'ia. agent.
robin li est un fervent partisan des grands modèles fermés. "avant l'ère des grands modèles, tout le monde était habitué à l'open source, c'est-à-dire gratuit et peu coûteux." il a expliqué que, par exemple, linux open source, parce que les ordinateurs existent déjà, donc. linux est utilisé c'est gratuit. mais ce n'est pas le cas à l'ère des grands modèles. l'inférence de grands modèles est très coûteuse et les modèles open source ne fournissent pas de puissance de calcul. vous devez acheter votre propre équipement, ce qui ne permet pas une utilisation efficace de la puissance de calcul.
"le modèle open source n'est pas efficace en termes d'efficacité." il a déclaré : "pour être précis, le modèle open source devrait être appelé un modèle commercial. il permet à d'innombrables utilisateurs de partager les coûts de r&d et les ressources machines et gpu utilisés pour raisonnement. l'efficacité d'utilisation du gpu est la plus élevée. article baidu l'utilisation du gpu des modèles xinda 3.5 et 4.0 a atteint plus de 90 %.
robin li a analysé que dans des domaines tels que l'enseignement et la recherche scientifique, le modèle open source est précieux, mais que dans le domaine commercial, lorsque l'on recherche l'efficience, l'efficacité et le coût le plus bas, le modèle open source n'a aucun avantage ;
il a également exprimé son point de vue sur l'évolution des applications des grands modèles. le premier est copilot, qui assiste les personnes ; le suivant est l'agent intelligence, qui dispose d'un certain degré d'autonomie et peut utiliser les outils de manière indépendante, réfléchir et auto-évoluer ; si ce niveau d’automatisation se développe davantage, il deviendra un ai worker capable d’effectuer tous les aspects du travail de manière indépendante.
à l'heure actuelle, les agents intelligents attirent de plus en plus l'attention des grandes entreprises modèles et des clients. robin li estime que, même si de nombreuses personnes sont optimistes quant à cette orientation du développement, les agents intelligents ne font pas aujourd'hui l'objet d'un consensus.
"le seuil pour les agents intelligents est en effet très bas." il a déclaré que beaucoup de gens ne savent pas comment transformer de grands modèles en applications, mais les agents intelligents sont un moyen très direct, efficace et simple de créer des agents intelligents. agents au-dessus des modèles.
(cet article provient de china business news)
rapport/commentaires