nouvelles

Llama3.1 ne peut pas être vendu du tout ! Insiders de l'industrie : le coût des modèles open source est plus élevé

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Yunzhong venait du temple Aofei
Qubits | Compte public QbitAI

Le grand modèle open source Llama 3 de Meta a été lent sur le marché, intensifiant encore l'attention portée au débat entre l'open source et le code fermé pour les grands modèles.

Selon le média étranger The Information, le grand modèle open source de Meta, Llama 3, a eu du mal à attirer l'attention d'AWS d'Amazon, le plus grand fournisseur de cloud computing au monde pour les entreprises clientes d'AWS.Je préfère utiliser le grand modèle à source fermée d'Anthropic Claude

Selon les initiés de Microsoft,Le lama n’est pas non plus le premier choix de vente de Microsoft, ils sont plus susceptibles de recommander Llama aux entreprises possédant une expertise en matière de données, telles que les entreprises comptant des ingénieurs et des data scientists en interne.

Meta est désormais confrontée à des défis qui pourraient l'inciter à constituer sa propre équipe de vente de produits d'IA afin de répondre aux besoins des entreprises. Cette série de problèmes met également en évidence les difficultés du processus de commercialisation des grands modèles open source. Du point de vue de la sélection du marché, les effets réels et les retours commerciaux du modèle open source peuvent ne pas répondre aux attentes des entreprises clientes.

affronter"Open source ou source fermée" Sur la question, les grands fabricants de modèles nationaux ont pris des positions complètement différentes en fonction de leurs propres itinéraires techniques et stratégies commerciales. Alors, comment les entreprises devraient-elles choisir de grands modèles et comment trouver le meilleur équilibre entre les deux ?

Dans ce contexte,Xin Zhou, directeur général de Baidu Intelligent Cloud AI et Large Model PlatformIl a été interviewé par les médias et a analysé en détail la logique sous-jacente, les stratégies commerciales et les prévisions du futur marché dans le débat entre open source et close source.

Xinzhou pense que,Il existe une différence essentielle entre l'open source des grands modèles et l'open source des logiciels——Étant donné que le modèle open source n'ouvre pas le code source de formation, les données de pré-formation et de réglage fin et d'autres informations clés qui affectent l'effet du modèle, il ne peut pas compter sur la participation des développeurs de la communauté pour améliorer l'effet et les performances comme les logiciels open source. Cependant, la formation du modèle de base ne peut être confiée qu'aux fabricants eux-mêmes.

En parlant de « qui est le plus cher, le modèle open source ou le modèle open source ? » Xin Zhou a déclaré que le modèle open source est gratuit et donne aux gens l'impression de faible coût, maisL'application de grands modèles n'est pas seulement une technologie unique, mais une solution complète couvrant « technologie + services », et les entreprises doivent calculer le « grand livre ». Lorsque l'entreprise est effectivement mise en œuvre, si le modèle open source veut obtenir le même effet que le modèle fermé, cela nécessitera un investissement ultérieur important en main-d'œuvre, en argent et en temps, et le coût global sera plus élevé.

À quels scénarios les modèles open source et fermé sont-ils adaptés ? Xinzhou pense que,Le modèle open source est plus adapté à la recherche universitaire, mais il ne convient pas aux projets commerciaux à grande échelle fournissant des services au monde extérieur. Dans certains projets sérieux avec des millions, voire des dizaines de millions d'investissements, le modèle source fermé est toujours utilisé. le protagoniste.

"Le modèle open source n'est pas bon marché"

Voici le texte intégral édité de l’interview :

1. Sur le marché des grands modèles, quel rôle joue chaque fabricant de modèles ? Quel est le modèle économique ?

Xin Zhou: Dans ce festin de grands modèles, le positionnement et le business model de chaque constructeur sont différents, et peuvent être grossièrement répartis en trois catégories :

Pour le premier type de rôle, celui des fournisseurs de cloud, le modèle économique consiste en réalité à vendre des ressources informatiques. Réduisez les coûts et améliorez l’élasticité des ressources grâce à l’évolutivité pour atteindre la rentabilité. Il s’agit du modèle durable des fournisseurs de cloud. Qu'il s'agisse d'un modèle open source ou d'un modèle fermé, tant qu'il est hébergé par le fournisseur de cloud, celui-ci peut gagner de l'argent.

Le deuxième type de rôle est à la fois celui d’un fournisseur de cloud et celui d’un fournisseur de modèles. Ils espèrent diriger les entreprises vers le cloud grâce à l’utilisation de modèles. À l'heure actuelle, le bénéfice tiré du recours uniquement aux appels d'API de modèles est encore très faible. Ils espèrent actuellement occuper une part favorable du marché et continuent de rechercher de nouvelles opportunités d'expansion sur la grande table des modèles.

Troisième type de rôle, pour les fabricants de modèles entrepreneuriaux, après que les principaux fournisseurs de cloud ont annoncé des baisses de prix des modèles, leur volume d'appels a fortement chuté. Le domaine des grands modèles se transformera bientôt en une bataille entre plusieurs grands fournisseurs de cloud. Les startups de grands modèles se concentreront sur des secteurs spécifiques, privatiseront des projets toB ou se transformeront en produits toC.

2. Pourquoi dit-on que « le modèle open source n'est pas bon marché et que la technologie deviendra de plus en plus arriérée » ?

Xin Zhou: Parlons d'abord du problème de la technologie arriérée.

Premièrement, l’open source des grands modèles ne peut pas améliorer les performances des modèles.

contrastelogiciel libre, comme le système d'exploitation mobile Android et le logiciel de base de données MySQL. Tous les codes sources de ces logiciels open source sont ouverts et les développeurs de toute la société peuvent participer au développement du code. Cela peut non seulement réduire les coûts de développement de logiciels, mais également accélérer l'itération des logiciels et améliorer la sécurité des logiciels. C'est la valeur de l'open source pour les logiciels.

Le modèle open source est beaucoup plus complexe, qui peut être open source, y compris le code source de formation du modèle, les poids des paramètres, les données de formation, etc.Cependant, les fabricants de modèles actuels n'ouvrent généralement que les poids des paramètres open source, mais le code source de formation, les données de formation, etc. ne sont pas open source. Cela empêche les développeurs de l'améliorer et de contribuer à l'efficacité du modèle open source.

Par exemple, pour Llama, chaque amélioration des performances du modèle est en réalité le résultat de la propre formation de Meta, et non le résultat de la participation des développeurs. Il n'y a pas beaucoup de différence entre Llama2 et Llama3 en termes de structure de réseau. Qu'est-ce que cela optimise ? D'une part, le processus de la phase de formation est optimisé, comme la formation en plusieurs étapes ; d'autre part, de nombreuses données sont ajoutées. Les données de Llama2 et Llama3 sont d'un ordre de grandeur différent. le temps apporte de meilleurs résultats au modèle.

Mais ces bons effets sont tous créés par Meta lui-même, et il n'y a aucun moyen d'utiliser le pouvoir des développeurs, encore moins le processus de retour d'information de la communauté comme les logiciels open source.

Deuxièmement, le modèle open source prendra de plus en plus de retard car il n’existe pas de bon modèle économique pour garantir une itération continue du modèle.

La formation des modèles et l'annotation des données coûtent très cher. À moins que l'entreprise ne dispose de ressources solides comme Meta pour soutenir le développement durable de modèles open source, s'il s'agit d'une start-up avec des modèles open source, elle ne pourra pas former une entreprise fermée. boucle. Dans le même temps, les développeurs ne peuvent pas contribuer à l’efficacité de votre modèle, les startups doivent donc prendre de plus en plus de retard dans ce domaine. À en juger par les résultats, le meilleur modèle est en fait Open AI, et les modèles en tête de la liste d'évaluation actuelle sont tous des modèles fermés.

Voyons pourquoi le modèle open source n'est pas bon marché.L'application de grands modèles est une solution complète couvrant « technologie + services ». Les entreprises appliquant de grands modèles doivent « calculer le grand livre ». Comment calculer le grand livre général ?

Le premier niveau consiste à calculer le coût des ressources matérielles.. Étant donné que les modèles commerciaux fermés seront équipés de chaînes d'outils correspondantes, y compris des chaînes d'outils de formation et des chaînes d'outils d'inférence, les performances de ces chaînes d'outils sont meilleures que celles de l'open source. Pour les clients, la formation peut économiser environ 10 à 20 % des coûts matériels. , vous économisez plus en raisonnant, et plus l'échelle de l'entreprise est grande, plus vous économisez.

Le deuxième niveau consiste à examiner les bénéfices business apportés par le modèle. Pour les modèles avec la même échelle de paramètres, les résultats de source fermée sont meilleurs. Certains clients ne sont pas très sensibles à une précision de 90 % ou 95 %. Mais il existe certaines activités, comme la publicité commerciale, où le CPM et le CTR ne sont séparés que d'un point. Pour la plate-forme publicitaire, il peut y avoir des dizaines de millions d'écarts par jour. À l'heure actuelle, les entreprises qui nécessitent des effets de modèle plus élevés le sont. plus disposé à acheter un modèle fermé qui fonctionne mieux.

Le troisième niveau comprend le coût d’opportunité et le coût de la main-d’œuvre.. Si vous utilisez un modèle économique fermé pour converger plus rapidement, vous pouvez lancer de nouveaux produits plus rapidement que vos concurrents. Dans un modèle commercial à source fermée, le fabricant a adapté le modèle et le matériel à l'état optimal, et les clients peuvent simplement copier l'expérience mature. Mais si vous utilisez l’open source, vous devrez l’adapter vous-même, et le coût en puissance de calcul et en ingénieurs sera plus élevé.

Par conséquent, nous disons que les modèles d'application d'entreprise doivent « calculer le grand livre », et le calcul de ce grand livre sera très différent.

3. Pourquoi l’open source est-il beaucoup plus cher que le fermé en termes de coût matériel ?
Xin Zhou: La plupart des entreprises clientes achèteront deux types de matériel ou plus car elles doivent tenir compte de la sécurité et de la flexibilité de la chaîne d'approvisionnement. Si le modèle open source doit être adapté à chaque élément de matériel, le coût sera très élevé.

Cela reflète les avantages du modèle commercial à source fermée, car il permet de partager le coût de l'adaptation des logiciels et du matériel via des ventes à grande échelle. De plus, l’adaptation multicœur est une affaire très technique pour Baidu.Plateforme informatique hétérogène BaigeDe nombreuses optimisations ont été réalisées spécifiquement pour l'hétérogénéité multicœur et conviennent à divers matériels. Baige lui-même peut masquer diverses différences dans la couche matérielle. Il existe de nombreuses bibliothèques d'accélération, de bibliothèques d'inférence et de formation. Baige fournit également une optimisation de bout en bout pour le grand modèle Wenxin.

L'avantage pour les clients est qu'ils peuvent fonctionner rapidement, quel que soit le matériel qu'ils utilisent, et que les économies de temps et de main d'œuvre sont très élevées.

4. Dans quels scénarios le modèle open source et le modèle fermé conviennent-ils respectivement ?

Xin Zhou: L'idée générale est la suivante : si vous souhaitez essayer de vérifier dans des scénarios commerciaux individuels, vous pouvez d'abord l'exécuter avec un modèle à code source fermé, l'exécuter immédiatement et le vérifier rapidement dans certaines entreprises sérieuses qui coûtent des millions ou des millions ; des dizaines de millions de dollars. Dans les projets qui nécessitent une grande échelle et une grande précision, les modèles commerciaux à source fermée restent le meilleur choix pour les entreprises. Ce n'est que dans certains scénarios commerciaux qui n'ont pas d'exigences élevées en termes d'effets et de performances, mais nécessitent un déploiement privé et sont particulièrement sensibles au prix, qu'il est possible d'envisager d'utiliser le modèle open source.

L'open source est précieux pour promouvoir l'enseignement universitaire et la recherche, comme l'optimisation des performances d'ingénierie de l'inférence, l'impact de la pré-formation et le réglage fin des données sur les résultats, etc. S'il peut ouvrir davantage de choses, comme le code de formation, les données de formation, et peaufinage de l'enseignement Les données, etc., sont également ouvertes et leur valeur pour la recherche universitaire et le développement technologique sera plus grande. Même si seuls les poids du modèle sont ouverts, cela fournit aux chercheurs un bon modèle de base.

5. Certains fabricants espèrent que l'open source et le fermé peuvent être poursuivis en même temps. C'est-à-dire que le modèle open source incite les utilisateurs à étendre l'écosystème, tandis que le modèle fermé est responsable de la commercialisation.

Xin Zhou: Si vous ne l’avez pas pratiqué, cela semble réalisable. Mais la réalité est la suivante :

Sur le cloud public, parmi les appels annoncés par les différents constructeurs, le volume d'appels du modèle fermé est bien supérieur à celui du modèle open-source, ce qui montre que le modèle open-source ne joue pas réellement de rôle pour attirer utilisateurs d’étendre l’écosystème sur le cloud public.. De plus, pour un réglage précis sur le cloud public, des modèles open source et fermés peuvent être mis en œuvre, de sorte que les clients choisiront directement le meilleur modèle sur le cloud public.

En termes de déploiement privatisé, cette logique a un certain sens dans une certaine mesure.. De nombreuses entreprises commencent par tester des modèles open source. Plus tard, elles trouvent que les résultats sont bons et souhaitent les acheter. Elles choisiront le modèle open source qui correspond au modèle fermé du fabricant, car le même modèle source est plus adaptable. invite. Dans ce cas, cette logique est vraie.Mais cette valeur diminue progressivement. Parce que les capacités générales des modèles de chaque fabricant s'améliorent rapidement, les coûts de changement sont de plus en plus faibles, effaçant progressivement l'héritage de ce modèle.

Certains fabricants lancent également des modèles open source pour promouvoir le matériel. Par exemple, Nvidia lance un modèle open source. Sa logique métier est très simple et vous devez acheter une carte pour utiliser le modèle.

6. Pourquoi Baidu n’a-t-il pas lancé un modèle open source ?

Xin Zhou : Il ressort clairement du volume de déploiement de divers fabricants que les modèles commerciaux fermés avec le plus grand volume de déploiements sur le cloud public n'ont pas beaucoup d'impact sur le cloud public.

Sur le marché privatisé, à mesure que la sensibilisation des clients aux grands modèles continue de s'améliorer, l'open source et le fermé ne deviennent progressivement plus un facteur clé.. Après avoir communiqué avec de nombreuses grandes entreprises clientes, j'ai découvert qu'il existe de nombreux facteurs qui déterminent si les dirigeants d'entreprise doivent utiliser un modèle. L'ordre de priorité est généralement le suivant : l'effet, les performances, la sécurité et le prix. Le fait qu'un modèle soit open source ou fermé n'est pas un facteur décisif.

7. Vous avez mentionné que les éléments les plus importants pour les entreprises lors du choix des modèles sont l'effet, les performances, la sécurité et le prix. La « machine tout-en-un grand modèle Qianfan » lancée par Baidu Cloud essaie-t-elle un nouveau modèle commercial qui intègre des logiciels et matériel?

Xin Zhou: À l'heure actuelle, l'utilisation de grands modèles par les entreprises en est encore au stade exploratoire, et il existe un fort besoin de produits prêts à l'emploi et à faible coût pour vérifier rapidement les scénarios d'utilisation et les effets des grands modèles. La « machine tout-en-un grand modèle Qianfan » est très adaptée à l'étape actuelle, car il existe de nombreuses demandes de déploiement privatisé en Chine. Notre machine tout-en-un est ouverte et peut être adaptée à une variété de matériels, en s'intégrant. tous les produits grand public du marché. La machine tout-en-un grand modèle Qianfan de Baidu Smart Cloud offre deux fonctionnalités :

Tout d’abord, fournir une plate-forme intégrée pour l’adaptation logicielle et matérielle, cette plate-forme intègre de grands modèles Wenxin ainsi que les grands modèles open source et les salles d'échantillons d'applications de scénarios grand public de l'industrie. Les modèles open source populaires ont également été adaptés et optimisés. Les utilisateurs peuvent les exécuter directement sur la machine tout-en-un sans avoir à ajuster les modèles eux-mêmes. Dans le même temps, la machine tout-en-un grand modèle de Qianfan peut fournir des solutions logicielles et matérielles intégrées grand modèle allant de la gestion et du contrôle de base, du cadre d'IA, de la formation de modèles, du raisonnement prédictif et de l'application de scénarios, fournissant aux clients un logiciel et un processus complets. services matériels.

deuxièmeLa machine tout-en-un grand modèle Qianfan est très rentable en raison de l'optimisation des performances de bout en bout et de la capacité d'exploiter toutes les performances matérielles. Les clients peuvent l’utiliser rapidement et à moindre coût.

En termes de prix global, le prix de la machine tout-en-un Qianfan est bien inférieur à celui de l'achat séparé du serveur, du grand modèle et de la plate-forme. Pour les clients, elle peut être utilisée dès la sortie de la boîte.

8. De nos jours, beaucoup de gens pensent qu'il ne suffit pas d'utiliser simplement de grands modèles de base. Nous devons encore construire des modèles industriels pour réaliser véritablement la mise en œuvre industrielle de grands modèles. Alors, combien coûte actuellement à une entreprise la formation elle-même d’un modèle industriel ?

Xin Zhou: Le coût est très élevé. Premièrement, ce coût augmente linéairement en fonction de la taille des paramètres du modèle à entraîner. Deuxièmement, cela dépend de la taille du volume de données. Enfin, il y a le coût de l’étiquetage de vos données.

Si vous souhaitez entraîner un modèle 70b à partir de zéro, vous aurez peut-être besoin de 30 millions de ressources cloud élastiques. Si vous souhaitez entraîner un modèle avec un plus grand nombre de paramètres, le coût peut s'élever à des centaines de millions. Celui-ci doit être formé par des personnes expérimentées. Si vous êtes inexpérimenté et faites quelques détours dans le processus, le coût sera plus élevé.

9. Avec un coût aussi élevé, comment une entreprise peut-elle déterminer si elle a besoin de construire un modèle industriel ?

Xin Zhou: Nous ne recommandons pas aux clients de se contenter de créer un modèle de base industriel dès le début, quel que soit le profit. Le coût doit être très élevé, quels que soient les avantages. Nous aiderons d’abord les clients à analyser leurs besoins.

Par exemple, si vous dessinez un système de coordonnées, l'abscisse est la sensibilité de la tâche et l'ordonnée est la demande de données industrielles. La soi-disant sensibilité de la tâche dépend du fait que le scénario soit fortement lié à l'industrie et aux affaires. Par exemple, dans le domaine médical, il s'agit de questions plutôt professionnelles. L’axe vertical représente la demande de données industrielles. Plus l’industrie est fermée et moins il y a de données sur le réseau public, plus la formation préalable est nécessaire. Par exemple, dans le domaine médical, certaines informations désensibilisées du dossier médical doivent être pré-entraînées dans le modèle.

Grâce à l'analyse, dans cet axe de coordonnées, le coin inférieur gauche n'a aucune caractéristique industrielle et ne nécessite pas de données industrielles, donc le modèle général peut être utilisé directement, mais le coin supérieur droit est sensible aux attributs commerciaux de cette industrie et nécessite beaucoup des données industrielles. Il est temps de construire un modèle industriel.

Nous recommandons généralement aux entreprises de suivre trois étapes.

La première étape est la vérification de la valeur. Construire au préalable une infrastructure logicielle et matérielle de modèle à grande échelle et créer un modèle industriel préliminaire à grande échelle. En combinaison avec l’application d’une IA générative relativement mature, les résultats peuvent être constatés rapidement. Par exemple, grâce à la version allégée de la plate-forme grand modèle Qianfan, des applications matures telles que le service client intelligent, la gestion des connaissances d'entreprise et les humains numériques sont ajoutées.

La deuxième étape consiste à connecter profondément les différentes applications de l'entreprise. L'infrastructure des grands modèles a été encore améliorée et mise à niveau vers Qianfan Large Model Ultimate Edition. En plus de la formation et des réglages liés aux grands modèles, elle comprend également une plate-forme pour la construction d'applications. Baidu et ses partenaires écologiques sont profondément impliqués dans la formation et l'exploitation de modèles à grande échelle au sein de l'entreprise, en créant une atmosphère technique, en formant les talents pertinents et en travaillant avec l'entreprise pour résoudre des problèmes commerciaux difficiles et apporter plus de valeur à l'entreprise.

La troisième étape est une innovation complète et une contrôlabilité indépendante. Les entreprises maîtrisent les technologies pertinentes de développement de modèles et d'applications à grande échelle et disposent également d'échelons de talents correspondants, qui peuvent mieux permettre un développement indépendant et contrôlable et lancer une innovation globale. Baidu servira de support technique et de consultant à long terme pour aider au développement et continuer à apporter de nouvelles technologies et solutions à l'entreprise.

10. Comment jugez-vous le marché des grands modèles l’année prochaine ?

Xin Zhou: J'ai trois jugements sur la tendance de développement au cours de l'année prochaine :

Premièrement, la multimodalité deviendra un nouveau point chaud du marché.

Deuxièmement, il y aura une grande explosion des applications basées sur de grands modèles, et une direction très importante est Agent.. Si un grand modèle n'effectue que les actions prescrites « d'entrée et de sortie », sa valeur sera considérablement limitée. Il devrait ressembler davantage à un être humain, capable d'utiliser des outils, de collaborer les uns avec les autres, de planifier et de penser, de réfléchir et d'itérer. . Il doit être combiné avec une variété de composants et de plug-ins pour répondre aux besoins de scénarios commerciaux spécifiques. Agent deviendra donc la clé de la production de chaque fabricant de modèles à l'avenir.

Troisièmement, il y aura davantage de possibilités pour les applications d'entreprise, telles que les bases de connaissances, le service client, les personnes numériques, l'écriture de codes auxiliaires et d'autres scénarios.Par exemple, en utilisant de grands modèles pour l'écriture de code, Baidu dispose d'un produit appelé « Wenxin Quick Code », qui a été largement utilisé au sein de Baidu. Le taux d'adoption peut atteindre 46 % et la proportion de nouveau code généré a atteint 30 %, ce qui est une bonne chose. peut aider les entreprises à améliorer considérablement l'efficacité de leur développement. Dans le même temps, un grand nombre d'entreprises engagées dans le développement d'applications d'IA apparaîtront. Ces entreprises pourront réduire les coûts de déploiement et de copie des applications à un niveau suffisamment bas, pour autant qu'elles puissent se démarquer.