nouvelles

que faire si les humains manquent de données ? xiao yanghua, professeur à l'université de fudan, a proposé deux solutions :

2024-09-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

red star capital bureau a rapporté le 7 septembre qu'à l'ère du big data, la valeur des données n'a pas encore été pleinement explorée. une fois arrivée l'ère de l'ia, les données sont confrontées au défi d'être consommées trop rapidement, ce qui les rend synthétiques. la technologie des données est un domaine brûlant. selon un rapport publié par l'organisme de recherche epoch ai en juin, à partir de 2026, la quantité de nouvelles données générées par les humains sera inférieure à la quantité de nouvelles données apprises par les modèles. on estime que les grands modèles de langage manqueront de ressources humaines. données d’ici 2028.
les données déterminent dans une certaine mesure la limite supérieure de l'intelligence, ce qui fait que plus il y a de percées dans la technologie des grands modèles, plus la technologie des données doit être « alignée » sur elle.
lors de la conférence bund 2024, xiao yanghua, professeur à l'université de fudan et directeur du shanghai key laboratory of data science, a déclaré dans une interview avec red star capital bureau et d'autres médias qu'il pourrait y avoir deux voies pour résoudre le problème de l'épuisement des données. à l'avenir. la première est constituée de données synthétiques et l’autre relève du domaine privé.
xiao yanghua
"de nombreuses personnes ont annoté les quatre livres et les cinq classiques. le processus d'annotation est comme le processus de synthèse des données. nous pouvons continuellement réfléchir, corréler et intégrer les données originales pour générer plus de données. il s'agit de données synthétiques", a souligné xiao yanghua. , les données synthétiques sont une idée très importante. non seulement pour atténuer le problème de l’épuisement des données, cela revêt également une importance très importante.
"la plupart des données synthétisées sont les données de notre processus de réflexion. grâce aux données synthétiques, une grande quantité de données implicites, non enregistrées, inexprimées et axées sur la pensée est exprimée. ce type de données est crucial pour stimuler le qi ou le rationnel. " capacité des grands modèles.
xiao yanghua a mentionné que notre grand modèle actuel « n'a que de l'intelligence et aucune rationalité ». il se souvient simplement de plus de faits, mais cela ne signifie pas qu'il est plus « intelligent » et que sa capacité rationnelle n'a pas augmenté. les données synthétiques sont une idée très importante pour améliorer la capacité rationnelle.
"utilisez des données synthétiques qui simulent le processus de réflexion pour former un grand modèle afin qu'il sache comment réfléchir aux problèmes. par conséquent, les données synthétiques ne visent pas seulement à atténuer la « famine » des données, mais également à améliorer la capacité rationnelle du grand modèle. ".
une autre idée très importante évoquée par xiao yanghua est d’entrer dans le domaine privé. « les données de plus haute qualité et de grande valeur se trouvent dans le domaine privé, dans des secteurs verticaux, dans des milliers d'industries, et plus loin se trouvent les données personnelles. ainsi, le domaine privé et les individus disposent encore de beaucoup de données précieuses, très originales et très originales. données réelles. mais nous n'avons pas activé ces données et ne les avons pas encore injectées dans le grand modèle. le grand modèle n'a pas encore appris ces connaissances. comment utiliser les attributs du domaine privé pour stimuler le potentiel du grand modèle est également très important. chose dans le futur.
xiao yanghua a déclaré que les données du domaine privé se trouvent toutes dans des systèmes de bases de données. ces bases de données contiennent une grande quantité de données du domaine privé et de données industrielles de haute qualité sous diverses formes. comment les transformer en un grand corpus de formation de modèles est une question importante. si vous pouvez utiliser les données du domaine privé pour former de grands modèles, il est possible de transformer de grands modèles en experts du secteur.
"les grands modèles d'aujourd'hui n'ont que des connaissances générales et ne sont pas qualifiés pour des tâches professionnelles. pour y parvenir, une utilisation judicieuse des données du domaine privé peut être la clé, de sorte que le potentiel des données à exploiter est encore très important."
xiao yanghua attend également avec impatience les « données personnelles ». il a souligné que l'utilisation des données personnelles pour former de grands modèles ne fait que commencer. il estime que la prochaine étape doit être de combiner les données personnelles avec de grands modèles.à l'avenir, il existe encore un grand potentiel dans la manière de combiner les données personnelles avec de grands modèles et de les transformer en « grands modèles personnalisés » au service des individus. il y a encore un grand potentiel. il y a encore un long chemin à parcourir.
wang tian, ​​journaliste à red star news
editeur deng lingyao
(téléchargez red star news et soumettez vos rapports pour gagner des prix !)
rapport/commentaires