Si les données de l'IA ne suffisent pas, peut-on utiliser des papiers pour « l'inventer » ?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
14 août
Le site officiel de Nature a publié un article indiquant que
Plusieurs éditeurs universitaires investissent dans des entreprises technologiques
Vendre les droits d’utilisation des documents de recherche
Utilisé pour former des modèles d'IA
Dans de nombreux cas, ces transactions
L'auteur n'a pas été consulté
Cela a provoqué un fort mécontentement chez certains chercheurs.
Des papiers « trahis »
Échelle naturelle
Éditeurs universitaires britanniques
Taylor Francis
Déjà signé un accord avec Microsoft
Un accord d'une valeur de 10 millions de dollars
Autoriser Microsoft à accéder à ses données
pour améliorer les systèmes d'IA
En juin, on a appris que
Editeur américain Wiley
Permettre à une entreprise d'utiliser son contenu pour former des modèles
gagnant ainsi 23 millions de dollars
Échelle naturelle
Ces documents couvrent
Sciences naturelles, sciences sociales et autres domaines
C’est devenu un corpus important pour la formation des modèles d’IA.
Un robot peintre a fait une démonstration de peinture lors du « Sommet mondial sur l'intelligence artificielle pour l'humanité » 2024 à Genève, en Suisse.
Source : Agence de presse Xinhua
L'article sur la nature pense
Auteurs d'articles universitaires actuels
Face aux éditeurs qui vendent leurs œuvres protégées par le droit d'auteur
presque pas de droit d'intervenir
Pour les articles publiés
Il n’existe aucun mécanisme permettant de confirmer ces contenus
Qu'elle soit utilisée comme données d'entraînement de l'IA
Dans l'utilisation de grands modèles de langage
Comment établir un mécanisme plus équitable
Protéger les droits des créateurs
Digne de discussions approfondies dans les cercles universitaires et du droit d’auteur
Pas assez de données IA
Des papiers à "maquiller"
Trois éléments majeurs pour le développement de grands modèles d’intelligence artificielle
Ce sont des données, des algorithmes et de la puissance de calcul
Avec le développement rapide de la technologie de l’IA
Demande croissante de données de formation
Certains médias ont dit
fin 2021
Formation OpenAI GPT-4
rencontré un problème difficile
Sa formation a été épuisée sur internet
Ressource de texte en anglais fiable
alors
Afin de résoudre ce problème
OpenAI utilise la vidéo et l'audio de la plateforme Youtube
Transcrire de grandes quantités de texte conversationnel
Entraînement ensuite
Le 2 juillet, le personnel a communiqué avec des personnes du numérique dans le domaine de l'expérience immersive de l'économie numérique de la Conférence mondiale sur l'économie numérique 2024.
Photo prise par Ren Chao, journaliste de l'agence de presse Xinhua
maintenant
Les géants de la technologie se tournent vers
éditeur académique
articles universitaires comme
La cristallisation de la sagesse dans le domaine de la recherche scientifique
Devenez le « gâteau chaud » que les gens se précipitent pour acheter.
Prenons l'exemple du traitement du langage naturel
Par une formation dans un grand nombre de papiers
Les modèles d'IA peuvent mieux comprendre
connaissance du domaine académique
améliorer sa précision
Des géants de la technologie comme Google et Microsoft
Avoir investi massivement dans l'achat de corpus
Afin d'acquérir un avantage concurrentiel dans le domaine de l'IA
Le Financial Times a mis son propre contenu
à un prix respectable
Vendu à OpenAI
Site d'actualités sociales Reddit
A également conclu un accord similaire avec Google
Ces transactions reflètent
Les éditeurs tentent d'autoriser légalement
Évitez que votre contenu soit exploré gratuitement par des modèles d'IA
Dilemme des données de formation
Comment interrompre le jeu
Travailler avec des éditeurs
Seules les entreprises technologiques résolvent le problème
La quintessence du problème des données de formation insuffisantes
Récemment
Le magazine The Economist publie un article
"Les sociétés d'IA vont bientôt utiliser la plupart des données Internet"
Prédire ce qui est disponible sur Internet
Les données textuelles humaines seront épuisées dans quatre ans
Le 23 avril, à la foire industrielle de Hanovre en Allemagne, les visiteurs ont joué au jeu « pierre, papier, ciseaux » avec un robot intelligent.
Photo prise par Ren Pengfei, journaliste de l'agence de presse Xinhua
Face à un tel problème
Sam Altman, fondateur et PDG d'OpenAI
Une solution de contournement a été proposée :
Des entreprises comme OpenAI
À terme, il y aura une transition vers l'utilisation des données générées par l'IA
(également appelées données synthétiques) pour entraîner l'IA
Les développeurs créent des technologies de plus en plus puissantes tandis que
Cela réduirait également la dépendance à l'égard des données protégées par le droit d'auteur.
certainement
Cette voie technique est-elle réalisable ?
Il y a encore une controverse
Un article de couverture du magazine Nature affirmait que
Si le grand modèle est autorisé à
Entraînez-vous avec des données générées automatiquement
L'IA peut se dégrader
En seulement quelques générations, le contenu original
Itéré dans un non-sens irrémédiable
En plus des méthodes de données synthétiques
Poursuite du partage ouvert des données publiques
est également considéré comme une voie efficace
Le rapport d'Industrial Securities a souligné que
Renforcer le développement ouvert des données publiques
est la solution actuelle à la dispersion des données
Mesures importantes pour améliorer la qualité des données de formation
Écrit par :Li Fei, Ma Jingyuan composition:Li Wenjian Coordinateur:Li Zhengwei
RéférenceNature, Le papier, Financial Associated Press, 21st Century Business Herald
Produit par Guangming.com
Source : Conférence mondiale sur Internet