Dans la grande industrie du modélisme, il n’existe pas de « véritable » open source ?

2024-08-01

Le marché des grands modèles open source a été très animé ces derniers temps. Tout d'abord, Apple a open source le petit modèle DCLM à 7 milliards de paramètres, puis les poids lourds Meta 3.1 et Mistral Large 2 ont été open source l'un après l'autre dans de nombreux tests de référence, Llama 3.1. a surpassé le modèle SOTA à source fermée.

Cependant, le débat entre les factions open source et fermée ne montre aucun signe d’arrêt.

D'un côté, Meta a déclaré après la sortie de Llama 3.1 : "Maintenant, nous inaugurons une nouvelle ère dirigée par l'open source." De l'autre côté, Sam Altman a écrit un article dans le "Washington Post", soulevant directement la contradiction. entre open source et source fermée au niveau du pays et de la conscience.

Lors de la Conférence mondiale sur l'intelligence artificielle il y a quelque temps, Robin Li a déclaré sans ambages que « l'open source est en fait une sorte de taxe sur le QI » car les modèles fermés sont évidemment plus puissants et ont des coûts de raisonnement inférieurs, ce qui a une fois de plus déclenché des discussions.

Plus tard, Fu Sheng a également exprimé son opinion. Il pensait que les deux camps de l'open source et du fermé se faisaient concurrence et se développaient ensemble. Il a également réfuté l'idée selon laquelle « l'open source est en fait une sorte de taxe sur le QI » : « Le grand modèle de langage open source est gratuit, comment a-t-il obtenu la taxe sur le QI, et qui collecte la taxe ? », « Si les entreprises d'aujourd'hui utilisent Les grands modèles de langage payants, c'est ce qu'on appelle une « taxe IQ », en particulier les frais de licence de modèle très élevés et les frais d'API, qui coûtent des centaines de millions par an, et ont finalement été rachetés comme décorations, et même les employés ne pouvaient pas les utiliser. du tout (les modèles).»

Le cœur de ce débat concerne l'orientation et le modèle de développement technologique, qui reflètent les points de vue et les positions des différentes parties prenantes. Avant de parler d'open source et de source fermée de grands modèles de langage, nous devons clarifier les termes « open source » et « ». source fermée". Deux concepts de base.

Le terme « open source » vient du domaine des logiciels et fait référence au fait de rendre le code source du logiciel ouvert au public pendant le processus de développement, permettant à quiconque de le visualiser, de le modifier et de le distribuer.logiciels open sourceLe développement de logiciels suit généralement les principes de coopération réciproque et de production entre pairs, favorisant l'amélioration des modules de production, des pipelines de communication et des communautés interactives. Les représentants typiques incluent Linux et Mozilla Firefox.

Logiciel à code source fermé (logiciel propriétaire) Pour des raisons commerciales ou autres, le code source n'est pas divulgué et seuls des programmes lisibles par ordinateur (tels que le format binaire) sont fournis. Le code source appartient et est contrôlé uniquement par le développeur. Les représentants typiques incluent Windows et Android.

L'open source est un modèle de développement logiciel basé sur l'ouverture, le partage et la collaboration. Il encourage chacun à participer au développement et à l'amélioration des logiciels et favorise le progrès continu et l'application généralisée de la technologie.

Les logiciels développés en source fermée sont plus susceptibles d'être un produit stable et ciblé, mais les logiciels en source fermée coûtent généralement de l'argent, et s'ils présentent des bogues ou des fonctionnalités manquantes, vous devez attendre que le développeur résolve le problème.

Quant à ce qu'est un grand modèle open source, l'industrie n'est pas parvenue à un consensus clair comme celui des logiciels open source.

L'open source des grands modèles de langage et les logiciels open source ont un concept similaire. Ils sont tous deux basés sur l'ouverture, le partage et la collaboration, encourageant la communauté à participer au développement et à l'amélioration, promouvant le progrès technologique et améliorant la transparence.

Il existe cependant des différences significatives dans la mise en œuvre et les exigences.

Les logiciels open source sont principalement destinés aux applications et aux outils, et l'open source nécessite moins de ressources, tandis que l'open source des grands modèles de langage implique une grande quantité de ressources informatiques et de données de haute qualité, et peut avoir plus de restrictions d'utilisation. Par conséquent, alors que les deux open source visent à promouvoir l’innovation et la diffusion de la technologie, le grand modèle de langage open source est confronté à plus de complexités et la forme de contribution de la communauté est également différente.

Robin Li a également souligné la différence entre les deux. Le modèle open source ne signifie pas le code open source : « Le modèle open source ne peut obtenir qu'un tas de paramètres, et vous devez effectuer un SFT (réglage fin supervisé) et un alignement de sécurité. vous obtenez le code source correspondant, vous ne pouvez pas l'obtenir. » Savoir combien et quelle proportion de données est utilisée pour entraîner ces paramètres ne permettra pas à tout le monde d'ajouter de l'huile sur le feu. Obtenir ces choses ne vous permettra pas se tenir sur les épaules de géants et se développer de manière itérative.

Le processus complet open source des grands modèles de langage implique de rendre l'ensemble du processus de développement du modèle, depuis la collecte de données, la conception du modèle, la formation jusqu'au déploiement, ouvert et transparent. Cette approche inclut non seulement la divulgation des ensembles de données et de l'architecture du modèle, mais couvre également le partage de code du processus de formation et la publication de poids de modèle pré-entraînés.

L’année dernière a vu une augmentation considérable du nombre de grands modèles de langage, dont beaucoup prétendent être open source, mais dans quelle mesure sont-ils réellement ouverts ?

Andreas Liesenfeld, chercheur en intelligence artificielle à l'Université Radboud aux Pays-Bas, et le linguiste informatique Mark Dingemanse ont également constaté que, bien que le terme « open source » soit largement utilisé, de nombreux modèles ne sont au mieux que des « pondérations ouvertes », et la plupart des autres choses concernant construction du système Tous les aspects sont cachés.

Par exemple, bien que des technologies telles que Meta et Microsoft commercialisent leurs grands modèles de langage comme étant « open source », elles ne divulguent pas d'informations importantes liées à la technologie sous-jacente. Ce qui les a surpris, c’est que les performances des entreprises et des institutions d’IA disposant de moins de ressources étaient encore plus louables.

L'équipe de recherche a analysé une série de grands projets de modèles de langage « open source » populaires et a évalué leur ouverture réelle sous plusieurs aspects tels que le code, les données, les pondérations, les API et la documentation. L’étude a également utilisé ChatGPT d’OpenAI comme point de référence pour les sources fermées, mettant en évidence l’état réel des projets « open source ».

✔ signifie ouvert, ~ signifie partiellement ouvert et X signifie fermé

Les résultats montrent des différences significatives entre les projets. Selon ce classement, l'OLMo de l'Allen Institute for AI est le modèle le plus open source, suivi par BloomZ de BigScience, tous deux développés par des organisations à but non lucratif.

Le document indique que bien que Meta's Llama et Google DeepMind's Gemma prétendent être open source ou open, ils ne sont en réalité que des poids ouverts. Les chercheurs externes peuvent accéder et utiliser des modèles pré-entraînés, mais ne peuvent pas inspecter ou personnaliser le modèle et ne savent pas comment. le modèle cible des tâches spécifiques. Effectuez des ajustements précis.

Les récentes sorties de LLaMA 3 et Mistral Large 2 ont beaucoup attiré l'attention. En termes d'ouverture du modèle, LLaMA 3 expose les poids du modèle. Les utilisateurs peuvent accéder et utiliser ces poids de modèle pré-entraînés et affinés par les instructions. De plus, Meta fournit également du code de base pour la pré-formation du modèle et le réglage précis des instructions. mais le code de formation complet n'est pas fourni et les données de formation pour LLaMA 3 ne sont pas rendues publiques. Mais cette fois, LMeta a apporté un rapport technique de 93 pages sur LLaMA 3.1 405B.

La situation de Mistral Large 2 est similaire : il maintient un haut degré d'ouverture en termes de pondérations de modèles et d'API, mais un degré d'ouverture moindre en termes de code complet et de données de formation. Il adopte une stratégie qui équilibre les intérêts commerciaux et l'ouverture. autorisant l'utilisation à des fins de recherche avec des restrictions sur l'utilisation commerciale.

Google a déclaré que la société était "très précise dans son langage" lors de la description du modèle, et ils ont appelé Gemma open plutôt qu'open source. "Les concepts open source existants ne sont pas toujours directement applicables aux systèmes d'IA",

Un contexte important pour cette étude est la loi européenne sur l'intelligence artificielle, qui, lorsqu'elle entrera en vigueur, imposera des réglementations plus souples sur les modèles classés comme ouverts, de sorte que les définitions de l'open source pourraient devenir plus importantes.

Selon les chercheurs, la seule façon d’innover consiste à peaufiner le modèle, pour lequel vous avez besoin de suffisamment d’informations pour créer votre propre version. De plus, les modèles doivent être examinés de près. Par exemple, si un modèle est formé sur un grand nombre d’échantillons de test, la réussite d’un test spécifique peut ne pas être une réussite.

Ils sont également ravis qu'autant d'alternatives open source aient émergé, et ChatGPT est si populaire qu'il est facile d'oublier ses données de formation ou d'autres astuces en coulisses. Il s’agit d’un piège pour ceux qui souhaitent mieux comprendre le modèle ou créer des applications basées sur celui-ci, alors que les alternatives open source permettent une recherche fondamentale cruciale.

Silicon Star a également réalisé des statistiques sur la situation open source de certains grands modèles de langage open source nationaux :

Le tableau montre que, comme c'est le cas à l'étranger, le modèle open source le plus approfondi est essentiellement dirigé par les instituts de recherche. Cela s'explique principalement par le fait que l'objectif des instituts de recherche est de promouvoir le progrès de la recherche scientifique et le développement de l'industrie, et qu'ils le sont davantage. enclins à ouvrir leurs résultats de recherche.

Les entreprises commerciales utilisent leurs avantages en matière de ressources pour développer des modèles plus puissants et obtenir des avantages concurrentiels grâce à des stratégies open source appropriées.

De GPT-3 à BERT, l’open source a apporté une impulsion importante au grand écosystème de modèles.

En rendant publiques son architecture et ses méthodes de formation, les chercheurs et les développeurs peuvent explorer et améliorer davantage ces fondations, conduisant ainsi à des technologies et des applications plus avancées.

L'émergence de grands modèles open source a considérablement abaissé le seuil de développement. Les développeurs et les petites et moyennes entreprises peuvent profiter de ces technologies avancées d'IA sans avoir à créer des modèles à partir de zéro, économisant ainsi beaucoup de temps et de ressources. Cela permet de mettre en œuvre rapidement des projets et des produits plus innovants, favorisant ainsi le développement de l’ensemble de l’industrie. Les développeurs partagent activement des méthodes d'optimisation et des cas d'application sur la plateforme open source, ce qui favorise également la maturité technologique et l'application.

Pour l’éducation et la recherche scientifique, les grands modèles de langage open source fournissent des ressources précieuses. En étudiant et en utilisant ces modèles, les étudiants et les développeurs novices peuvent rapidement maîtriser les technologies avancées d’IA, raccourcir la courbe d’apprentissage et apporter du sang neuf à l’industrie.

Cependant, l’ouverture des grands modèles de langage n’est pas une simple propriété binaire. L'architecture système basée sur Transformer et son processus de formation sont extrêmement complexes et difficiles à classer simplement comme ouverts ou fermés. Le grand modèle open source n’est pas une simple étiquette, mais plutôt un spectre allant de l’entièrement open source à partiellement open source, à des degrés divers.

L'open source de grands modèles de langage est une tâche complexe et méticuleuse, et tous les modèles ne doivent pas nécessairement être open source.

Nous ne devrions pas non plus exiger l'open source complet sous la forme d'un « enlèvement moral », car cela implique de nombreuses considérations technologiques, de ressources et de sécurité, et nécessite un équilibre entre ouverture et sécurité, innovation et responsabilité. Comme pour d’autres aspects de la technologie, diverses manières de contribuer créent un écosystème technologique plus riche.

La relation entre les modèles open source et fermé peut être comparée à la coexistence de logiciels open source et fermés dans l’industrie du logiciel.

Le modèle open source favorise la diffusion généralisée et l'innovation de la technologie et offre davantage de possibilités aux chercheurs et aux entreprises, tandis que le modèle fermé favorise l'amélioration des normes dans l'ensemble du secteur. La saine concurrence entre les deux inspire une amélioration continue et offre aux utilisateurs des choix diversifiés.

Tout comme les logiciels open source et propriétaires ont façonné conjointement l’écosystème logiciel actuel,Il n’y a pas d’opposition binaire entre les grands modèles open source et fermés. La coexistence des deux est un moteur important pour l’avancement continu de la technologie de l’IA et pour répondre aux besoins de différents scénarios d’application. En fin de compte, les utilisateurs et le marché feront le choix qui leur convient.

nouvelles

Dans la grande industrie du modélisme, il n’existe pas de « véritable » open source ?

Introduction

mes coordonnées