« Toutes les données textuelles de haute qualité disponibles sur Internet seront utilisées d'ici 2028 »

"Toutes les données textuelles de haute qualité disponibles sur Internet seront utilisées d'ici 2028"

2024-08-01

Le cabinet de recherche Epoch AI prédit que toutes les données textuelles de haute qualité sur Internet seront utilisées d'ici 2028, et que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les « données linguistiques de haute qualité » d'ici 2026.

Les chercheurs soulignent que la formation des futures générations de modèles d’apprentissage automatique sur des ensembles de données générés par l’intelligence artificielle (IA) pourrait conduire à un « effondrement du modèle ». La question de savoir s’il existe ou non une pénurie de données d’entraînement pour les grands modèles d’IA est redevenue un sujet brûlant dans les médias ces derniers temps.

Récemment, le magazine The Economist a publié un article intitulé « Les entreprises d'IA épuiseront bientôt la plupart des données d'Internet », soulignant qu'à mesure que les données de haute qualité d'Internet se tarissent, les entreprises d'IA épuiseront bientôt la plupart des données d'Internet. « mur de données ». Pour les grandes entreprises modèles d’IA, le défi consiste désormais à trouver de nouvelles sources de données ou des alternatives durables.

L'article cite la prédiction du cabinet de recherche Epoch AI selon laquelle toutes les données textuelles de haute qualité sur Internet seront utilisées d'ici 2028, et les ensembles de données d'apprentissage automatique pourraient épuiser toutes les « données linguistiques de haute qualité » d'ici 2026. Ce phénomène est connu dans l'industrie sous le nom de « mur de données ». Comment gérer le « mur de données » est l'un des problèmes majeurs auxquels sont confrontées les entreprises d'IA aujourd'hui, et c'est peut-être aussi le problème le plus susceptible de ralentir les progrès de leur formation. L'article souligne qu'à mesure que les données préalables à la formation sur Internet se tarissent, la post-formation devient plus importante. Les sociétés de labellisation comme Scale AI et Surge AI gagnent des centaines de millions de dollars chaque année en collectant des données post-formation.

Le magazine The Economist cite le diagramme Epoch AI

En fait, des voix s’élèvent depuis longtemps dans l’industrie concernant « l’épuisement des données ». Le journal a remarqué que début juillet 2023, Stuart Russell, professeur d'informatique à l'Université de Californie à Berkeley et auteur de "Artificial Intelligence - Modern Approaches", a averti que les robots pilotés par l'intelligence artificielle tels que ChatGPT pourraient bientôt "épuiser le texte dans l'univers", la technologie permettant d'entraîner des robots en collectant de grandes quantités de texte "commence à rencontrer des difficultés".

Mais il existe également des voix différentes dans l’industrie. Dans une interview avec Emily Chang, journaliste technologique de Bloomberg, en mai 2024, Li Feifei, célèbre informaticienne, codirectrice du laboratoire d'intelligence artificielle de l'université de Stanford et professeur à l'université de Stanford, a clairement indiqué qu'elle n'était pas d'accord avec « notre « Les modèles d’IA manquent de données pour la formation » est une vision plus pessimiste. Li Feifei estime que cette vision est trop étroite. Du seul point de vue des modèles de langage, il reste encore une grande quantité de données différenciées qui attendent d’être exploitées pour créer des modèles plus personnalisés.

Aujourd’hui, l’une des solutions au problème des données d’entraînement limitées consiste à utiliser des données synthétiques, créées automatiquement et donc illimitées. Mais les données synthétiques comportent également le risque des données synthétiques. Un article informatique publié dans la revue universitaire internationale Nature le 24 juillet a souligné que la formation des futures générations de modèles d'apprentissage automatique avec des ensembles de données générés par l'intelligence artificielle (IA) pourrait contaminer leurs données. En sortie, ce concept est appelé « effondrement du modèle ». Parce que les modèles sont formés sur des données contaminées, ils finissent par mal interpréter la réalité.

L'équipe de recherche a montré dans l'étude que dans la tâche d'apprentissage de grands modèles de langage, la queue de la distribution sous-jacente est importante. L'utilisation à grande échelle de grands modèles de langage pour publier du contenu sur Internet contaminera les efforts de collecte de données pour former leurs successeurs. À l'avenir, les données réelles sur les interactions entre les grands modèles de langage seront de plus en plus précieuses. Cependant, l’équipe de recherche a également mentionné que les données générées par l’IA ne sont pas totalement indésirables, mais qu’elles doivent être strictement filtrées. Par exemple, dans les données d'entraînement de chaque modèle de génération, conservez 10 % ou 20 % des données d'origine, vous pouvez également utiliser des données diverses, comme des données générées par les humains, ou étudier des algorithmes d'entraînement plus robustes.

nouvelles

"Toutes les données textuelles de haute qualité disponibles sur Internet seront utilisées d'ici 2028"

Introduction

mes coordonnées