les données sur l'ia sont rares, les grands fabricants se tournent vers les jeunes bon marché

les données sur l'ia sont rares, les grands fabricants lorgnent sur les jeunes bon marché

2024-09-03

afin d'obtenir de nouvelles données et de former de grands modèles d'ia, de grandes sociétés internet telles que bytedance prennent les choses en main et recrutent des « enregistreurs d'ia » à des prix allant de 300 yuans par heure pour personnaliser le corpus.

l'immeuble de bureaux byte situé dans le temple dazhong à pékin abrite l'équipe commerciale douyin et l'équipe commerciale volcano engine de byte. depuis le début de l'année, ils recrutent des amateurs pour enregistrer le modèle doubao. deux personnes forment une équipe, chacune dure 3 heures, dont 80 minutes de conversation gratuite et 60 groupes de conversations avec des mots rapides, et le montant du règlement unique est de 300 yuans.

l'enregistrement de 3 heures a été accompagné par au moins 2 employés de name tout au long du processus. "la conversation ne doit pas être trop longue, elle doit avoir du contenu et des informations. si la qualité est trop mauvaise, l'argent sera déduit le cas échéant. "les mots d'invite ne peuvent pas être modifiés et le grand modèle ne peut pas les comprendre." de 18h à 21h, les instructions données par les employés de byte pendant le processus d'enregistrement révèlent davantage leur souci de la qualité de l'enregistrement.

légende : vue intérieure du studio d'enregistrement du temple dazhong

en fait, des villes de second rang telles que chengdu, taiyuan et guizhou sont déjà devenues des villes d’externalisation des données d’ia pour de grandes entreprises telles que bytedance, baidu et alibaba. "l'année dernière, les étudiants du premier cycle du secondaire pouvaient faire de l'annotation de données et de la lecture de dialectes. nous recrutons désormais des stagiaires du 211 et du 985 pour diriger l'externalisation, a déclaré un chef de produit d'un grand modèle."

minimax, qui vient de lancer un grand modèle vidéo en septembre, son fondateur yan junjie a déclaré à alphabet qu'à shanghai, en plus des données de haute qualité provenant de sociétés de corpus, minimax achèterait également des données basées sur la plateforme.

les données, les algorithmes et la puissance de calcul sont les trois piliers des grands modèles d’ia, parmi lesquels les données constituent le fondement de la formation de grands modèles. cependant, comme les données internet sont dispersées sur différentes plates-formes et entourées d’obstacles, les données publiques pouvant être utilisées pour former de grands modèles d’ia se tarissent.

en juin, l’organisme de recherche epoch ai a publié une nouvelle étude prédisant que les données disponibles pour la formation publique des modèles linguistiques d’ia seront épuisées par les entreprises technologiques entre 2026 et 2032. dès mai 2023, altman, pdg d’openai, a admis publiquement que les entreprises d’ia épuiseraient toutes les données sur internet dans un avenir proche.

comment trouver de nouvelles données de haute qualité pour « alimenter » de grands modèles est devenu un problème commun à toutes les grandes équipes de modèles d'ia.

certaines grandes entreprises ont été impliquées à plusieurs reprises dans des litiges en raison de soupçons d'utilisation non autorisée de données de tiers. en août, openai a été poursuivi en justice par plus de 100 présentateurs youtube, l'accusant d'avoir transcrit illégalement des millions de vidéos youtube pour former de grands modèles. des géants comme nvidia, apple et anthropic sont également impliqués.

pour les grands fabricants, seul le fait de disposer de leurs propres données fermées de haute qualité peut garantir l’actualité et la qualité des données alimentant les grands modèles. ignorer les plates-formes tierces avec un contrôle qualité instable et essayer d'écrire personnellement des « scripts » pour l'ia peut être une nouvelle approche pour les grands fabricants de modèles.

au début de cette année, l'ia enregistrant des emplois à temps partiel au prix de 300 yuans par session est apparue discrètement sur des plateformes telles que xiaohongshu.

comparé au travail d'enregistrement à temps partiel d'ia sur des plateformes telles que boss direct employment, qui paie 30 à 55 yuans par heure, le soi-disant « studio d'enregistrement à temps partiel dans le meilleur studio » qui paie 300 yuans par heure et est enregistré au temple dazhong à pékin est assez tentant.

en août, lorsque j'ai été intégré au groupe d'enregistrement via wechat, alphabet list (id : wujicaijing) a découvert qu'il y avait déjà plus de 200 personnes en attente d'enregistrement dans le groupe. puisqu'il est stipulé qu'un groupe de deux personnes peut enregistrer une conversation pendant trois heures maximum, après avoir rejoint le groupe, les messages wechat tels que « recherche d'un partenaire » et « quelqu'un peut-il enregistrer avec moi ? »

en fait, il n'est pas facile d'être un enregistreur d'ia et d'« écrire des scripts pour l'ia » pour 300 yuans la fois.

tout d'abord, avant l'enregistrement, tout le monde doit télécharger un enregistrement de conversation de 2 à 3 minutes comme « échantillon ». les évaluateurs de byte décideront s'il convient d'avertir les utilisateurs d'enregistrement à temps partiel en fonction de l'effet de l'échantillon. etce processus sera examiné par 3 employés. ce n'est que si 2 d'entre eux réussissent l'examen que le temps d'enregistrement peut être directement réservé. dans le cas contraire, il y aura une évaluation croisée.

après le deuxième examen de l'échantillon, zhang xue a pris rendez-vous pour une durée d'enregistrement de 18h à 21h au cours de la deuxième semaine après avoir soumis l'échantillon. dans la discussion de groupe, de nombreuses personnes étaient bloquées dans l'exemple de session : « le professeur de révision aime ceux qui peuvent discuter et aiment discuter. » les conversations émotionnelles et le contenu thématique ont bloqué davantage de personnes dans le processus de sélection.

remarque : groupe d'enregistrement du temple dazhong source : capture d'écran de la liste alphabétique

le soir de l'enregistrement, zhang xue s'est assis sur une chaise à travers la vitre transparente du studio d'enregistrement, s'est ajusté à la meilleure position où la voix pouvait être enregistrée clairement et a écouté les instructions des employés de byte avec des écouteurs.

la première séance était une conversation gratuite de 80 minutes entre eux, sans aucun sujet. les exigences du personnel de byte sont que le chat ne peut pas être une « petite conversation » et doit être contenu. en même temps, chaque sujet ne peut pas dépasser 10 minutes et il ne doit pas y avoir de longs monologues.

zhang xue et son partenaire ont parlé dans la salle d'enregistrement via un énorme casque, essayant de ne pas faire de pause pendant 80 minutes. dans le même temps, vous devez également essayer d'empêcher votre corps de bouger et d'émettre de la toux, des rires et d'autres sons qui perturbent la qualité de l'enregistrement.

afin de garantir la qualité de la voix, le personnel de byte branche de temps en temps des écouteurs, les invitant à réenregistrer s'il y a du bruit, ou si la conversation n'est « pas naturelle et comporte trop de repères », elle doit également être réenregistrée. -enregistré. la norme pour une voix de haute qualité est que le chat soit naturel, les sujets soient continus, l'ambiance soit positive mais ne puisse pas précipiter la conversation, et elle doit être contenue et non verbeuse. après des réajustements répétés, la première séance a duré près de 2 heures.

dans la deuxième étape, 60 séries de dialogues avec des mots-guides ont été enregistrés. bien qu'il existe un script de référence, en tant qu'enregistreur ia, zhang xue doit non seulement compiler les dialogues en fonction de la situation, mais également assurer un modèle de dialogue strict, c'est-à-dire que la dernière série de dialogues se termine par a, puis la série suivante. des dialogues doivent commencer par b .

dans le même temps, afin de répondre aux besoins de débogage des grands modèles, chaque instruction doit clairement indiquer les mots d'invite : « peut-il être plus détaillé ? peut-il être plus détaillé ? peut-il être plus détaillé ? octet le personnel a également clairement indiqué que le script peut être modifié, mais que seuls les mots d'invite ne peuvent pas être modifiés. en d'autres termes, il peut être difficile pour l'ia de le reconnaître.

afin de garantir la qualité de l'enregistrement, si l'enregistrement n'est pas clair, si les mots sont avalés ou si l'ambiance est insuffisante, l'enregistrement sera réenregistré. à la fin de l'enregistrement, zhang xue a quitté le temple de dazhong. il était presque 22 heures. pour une session d'enregistrement de trois heures, le personnel de byte doit enregistrer trois fois par jour, et le planning hebdomadaire est presque complet.

outre pékin, byte a déjà recruté des enregistreurs à shanghai, hangzhou, chongqing, nanjing, chengdu, tianjin et dans d'autres villes.

pour les grands fabricants de modèles avides de nouvelles données, l'opération consistant à « dépenser de l'argent pour obtenir des données » n'est pas nouvelle.

en 2023, alors que les grands modèles d'ia deviennent une nouvelle tendance, les grands fabricants non seulement achètent des données directement auprès de sociétés tierces, mais créent également des postes d'externalisation tels que « annotateur big data » et « éditeur ia ».

en 2023, arlene, spécialisée en langues mineures, a commencé à « travailler » pour de grands mannequins via des sites internet tels que boss direct recruitment lors de l'examen d'entrée de troisième cycle.

par l'intermédiaire d'une société appelée « x data », alin effectue une inspection d'acceptation du contenu du texte reconnu par l'image du grand modèle, c'est-à-dire qu'elle vérifie si le texte en petite langue après la reconnaissance de l'image du grand modèle est cohérent avec l'image. selon le prix de « un mot ou une phrase compte pour une boîte de calcul, et chaque boîte compte pour 1 centime », a lin peut gagner des dizaines de yuans à la fois en calculant des centaines d'articles.

cette année, a lin a également reçu des commandes par l'intermédiaire d'une société de données tierce pour effectuer des annotations de données d'ia liées à la traduction, et le prix est passé à plus de 1 yuan par pièce. cependant, afin de juger manuellement si les petites langues telles que le français traduites par le grand modèle sont exactes, les annotateurs doivent non seulement trouver les erreurs, mais également utiliser différentes couleurs pour annoter le contenu de la traduction de 5 à 6 grands modèles. modèles. "parfois, il faut 10 à 15 minutes pour regarder un morceau."

après avoir travaillé pour ai, alin a également découvert qu'une fois ces grands modèles séparés du corpus original des petits langages, les nouveaux mots utilisés par les plateformes sociales ou les mots habituels des petits groupes n'étaient pas inclus dans leurs propres bases de données. à ce sujet, "limité par le droit d'auteur, je n'ai pas pu apprendre de nouveaux contenus textuels et l'effet de traduction a également été affecté."

outre les sociétés d'externalisation tierces, les grands fabricants ont également créé leurs propres bases de données.

par exemple, les bases de données de baidu sont distribuées dans des villes non de premier rang telles que nanchang, yangquan, taiyuan, guizhou, etc., et pour compléter la collecte d'annotations de données, de lecture de dialectes et d'autres données dans ces villes, il suffit de "recrutez des étudiants locaux capables d'utiliser des ordinateurs." le salaire mensuel se situe généralement entre 3 000 et 5 000 yuans. "meituan a déjà ses propres formateurs en ia dans l'usine.

cependant, par rapport aux grands fabricants prêts à dépenser de l'argent, il est beaucoup plus difficile pour les grands tigres modèles d'obtenir des données de haute qualité.

"les données de base de haute qualité et de source fermée ont souvent été monopolisées par les grandes entreprises. les startups de l'ia, même les quatre tigres de l'ia, ne peuvent avoir accès qu'à des données marginales."leo, un employé d'algorithme d'un grand fabricant de modèles, a déclaré à alphabet.

étant donné que des données de haute qualité peuvent améliorer considérablement les performances des modèles, en plus des données publiques open source, les grands fabricants de modèles ont besoin de données de meilleure qualité pour suivre la formation afin de réaliser l'itération technologique. cependant, ces données sont souvent contrôlées par de grandes entreprises. par exemple, les données d'actualité nationales sont contrôlées par de grandes sociétés telles que tencent et byte, tandis qu'à l'étranger, elles sont contrôlées par common crawl, gdelt, the pile, etc.

à l’étranger, même youtube a annoncé fin juin qu’il fournirait des accords de licence aux plus grandes maisons de disques en échange de musique protégée par le droit d’auteur à utiliser à des fins de formation. openai a conclu des accords payants avec des éditeurs de presse tels que politico, the atlantic, time et le financial times pour utiliser et citer leurs documents d'information.

lorsque les données clés sont principalement contrôlées au sein des « parties de canal », comme des sociétés telles que tencent, byte et meta, les données clés des utilisateurs ont été divisées dès l'ère de l'internet mobile. s'ils veulent réaliser une percée technologique, les quatre. les tigres de l'ia doivent d'abord payer une énorme somme d'argent. de petits « frais de données ».

pour les fabricants, dans la seconde moitié de l'entrepreneuriat des grands modèles, « l'illusion du big data » est également l'une des raisons pour lesquelles les grands modèles ne parviennent pas collectivement à déterminer si 9.11 ou 9.9 est plus grand.

lorsque alphabet a entré "une petite fille tenant un chat ragdoll dans ses bras" dans conch ai de minimax, il a fallu 2 minutes pour générer une vidéo de 6 secondes. les doigts de la petite fille tenant le chat étaient riches en détails, mais elle tenait le chat. dans ses bras. celui qui le porte n'est pas un chat ragdoll.

face aux résultats générés, l'employé du grand modèle vidéo de minimax a expliqué : "cela est dû au fait que les données utilisées pour entraîner le grand modèle n'incluent pas les chats ragdoll dans les images de liaison des chats."

lorsque le contenu généré par le modèle n'est pas cohérent avec les faits du monde réel ou les entrées de l'utilisateur, le grand modèle devient halluciné et commence à « dire des bêtises ».pour les grands constructeurs de modèles avides de nouveaux utilisateurs, l’effet de génération détermine évidemment si le produit a une chance de sortir du cercle.

"la commande d'entrée consistait à extraire toutes les actualités de divertissement en août. en conséquence, l'ia a généré le contenu des actualités de divertissement en août 2019." lors de l'utilisation d'un produit modèle à grosse tête, l'utilisateur fidèle kong fang a capturé l'ia " "absurdités" à plusieurs reprises. au moment du "discours", soit il a compilé des citations qui n'existaient pas du tout, soit il était incapable de comprendre les nouveaux concepts au cours des deux dernières années, ce qui a provoqué une crise de confiance chez kong fang dans les grands modèles. .

désormais, kong fang utilisera 2 à 3 grands modèles de différents fabricants pour « exécuter » le même problème en même temps, puis comparera les informations clés telles que l'heure, la quantité, les documents, etc., et le confirmera également deux fois. grâce aux moteurs de recherche, "maintenant, l'ia génère c'est comme tirer des cartes, l'effet est incontrôlable et il est facile d'être mentalement retardé", a déclaré kong fang, impuissant.

les données de haute qualité risquent de s'épuiser progressivement. pour résoudre le problème de « l'illusion du grand modèle », il est évidemment essentiel d'utiliser quelles données pour « alimenter » le grand modèle.

une personne proche de baidu a déclaré à alphabet que les grands fabricants de modèles achèteraient des données directement auprès de sociétés tierces, ce qui permet d'économiser du temps et des efforts mais n'est pas « facile » car la qualité des données achetées, qu'il s'agisse de texte, d'enregistrement ou de vidéo, est impeccable. contrôlé.

pour ceux qui développent activement des modèles à grande tête pour les clients b-end, une personnalisation plus personnalisée des grands modèles pour un certain client est devenue aujourd'hui la principale source de revenus pour l'activité ia des grands fabricants. mais si vous souhaitez entraîner un modèle aussi personnalisé, vous devez le « nourrir » avec des données filtrées selon des normes élevées, et même ajuster la demande de données en fonction de l'effet d'apprentissage du grand modèle à différentes étapes. en achetant un tas de voix, vous pouvez l'apprendre avec un grand modèle.

a lin, qui a travaillé comme traductrice d'ia dans une société de données tierce, a également constaté qu'« en tant que partie fournissant les données, son entreprise ne semble pas vraiment se soucier de la qualité du discours généré par le grand modèle ».

pour alin, spécialisée dans le français, l'espagnol et d'autres langues mineures, elle doit comparer les effets de génération de 5 à 6 grands modèles pour traduire simultanément un discours dans une langue mineure en texte pour la partie a, mais n'a besoin que d'une note approximative pour. les 5 à 6 textes générés. quelles sont les différences linguistiques détaillées et comment peuvent-elles être améliorées ? la société tierce ne demande rien et est « indifférente ».

le manque de données de haute qualité peut être la raison pour laquelle de nombreux utilisateurs disent que « le contenu généré par n'importe quel grand modèle est presque le même », et c'est aussi la raison fondamentale pour laquelle les utilisateurs « passent simplement à un autre grand modèle une fois qu'ils facturent ». il" .

pour les utilisateurs, les grands modèles nationaux qui prétendent rattraper openai et continuer à itérer techniquement peuvent ne pas présenter de différences substantielles et ne peuvent pas non plus devenir des utilisateurs fidèles. cela jette également une couche de confusion sur les grands fabricants de modèles désireux de commercialiser light shadow. .

par conséquent, même s'il est long, laborieux et coûteux d'« écrire des scripts pour l'ia » en personne, byte a également emprunté une nouvelle voie. il est prévisible que, pour résoudre les problèmes clés de la commercialisation et de l'acquisition d'utilisateurs, « l'achat de données » avec un gros budget pourrait devenir le nouveau point de concurrence pour les grands fabricants de modèles.

(alin, kong fang et zhang xue sont des pseudonymes dans l'article)

nouvelles

les données sur l'ia sont rares, les grands fabricants lorgnent sur les jeunes bon marché

introduction

mes coordonnées