Περιλαμβάνει 170.000 βίντεο! Η NVIDIA και άλλοι γίγαντες εκτέθηκαν για παράνομη χρήση δεδομένων YouTube για την εκπαίδευση models

Περιλαμβάνει 170.000 βίντεο!Η NVIDIA και άλλοι γίγαντες εκτέθηκαν για παράνομη χρήση δεδομένων του YouTube για την εκπαίδευση μοντέλων

2024-07-17

Οι τεχνολογικοί γίγαντες εκτέθηκαν ότι χρησιμοποιούν μη εξουσιοδοτημένο περιεχόμενο του YouTube για να εκπαιδεύσουν μοντέλα AI (τεχνητής νοημοσύνης).

Στις 16 Ιουλίου, τοπική ώρα, ξένα μέσα ανέφεραν ότι ορισμένες μεγάλες εταιρείες τεχνολογίας, συμπεριλαμβανομένων των Apple, Nvidia, Salesforce και Anthrophic, εκτέθηκαν σε χρήση μη εξουσιοδοτημένων δεδομένων από το YouTube, έναν ιστότοπο βίντεο που ανήκει στην Google, κατά την εκπαίδευση μοντέλων AI. Οι εταιρείες χρησιμοποίησαν ένα σύνολο δεδομένων που παρείχε ένα τρίτο μέρος που περιείχε μεγάλες ποσότητες κειμένου υπότιτλων βίντεο από το YouTube, παραβιάζοντας τους κανόνες του YouTube για την απόσυρση περιεχομένου από την πλατφόρμα χωρίς άδεια.

Η έκθεση επεσήμανε ότι αυτές οι εταιρείες τεχνολογίας χρησιμοποίησαν ένα σύνολο δεδομένων που ονομάζεται "YouTube Subtitles" κατά την εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Έχει μέγεθος 5,7 GB και περιέχει 489 εκατομμύρια λέξεις από περισσότερα από 48.000 κανάλια στο Youtube. Αυτό το σύνολο δεδομένων αποτελείται από το απλό κείμενο των υπότιτλων βίντεο, συμπεριλαμβανομένου του τμήματος που ανέβηκε από τους vlogger και του κειμένου που μεταγράφεται αυτόματα από το Youtube, εκτός από τα αγγλικά, συνήθως συνοδεύεται από μεταφράσεις σε γλώσσες όπως ιαπωνικά, γερμανικά και Αραβικός.

Ο μη κερδοσκοπικός οργανισμός EleutherAI είναι ο δημιουργός του αμφιλεγόμενου συνόλου δεδομένων και η εταιρεία δεν έχει ακόμη απαντήσει σε αυτήν την ιστορία. Σύμφωνα με τον επίσημο ιστότοπο, στόχος της EleutherAI είναι «να χαμηλώσει το όριο για την ανάπτυξη της τεχνητής νοημοσύνης και να παρέχει σε όλους πρόσβαση σε τεχνολογία αιχμής AI μέσω της εκπαίδευσης και της κυκλοφορίας μοντέλων». Προηγουμένως, η EleutherAI κυκλοφόρησε μια συλλογή δεδομένων που ονομάζεται "Pile", τα περισσότερα από τα οποία είναι ανοιχτά στο κοινό, συμπεριλαμβανομένων των Υπότιτλων YouTube.

Τα δεδομένα δείχνουν ότι λίγες εβδομάδες πριν η Apple κυκλοφορήσει το μικρό μοντέλο OpenELM στην τελική πλευρά τον Απρίλιο του τρέχοντος έτους, η εταιρεία χρησιμοποίησε το Pile για εκπαίδευση. Ωστόσο, αξίζει να σημειωθεί ότι η ίδια η Apple δεν κατεβάζει αυτά τα δεδομένα. Έτσι, τεχνικά, ήταν το EleutherAI που παραβίασε τους όρους χρήσης του YouTube.

Ένας εκπρόσωπος της startup τεχνητής νοημοσύνης Anthropic επιβεβαίωσε ότι το σύνολο δεδομένων Pile είχε χρησιμοποιηθεί για την εκπαίδευση του βοηθού τεχνητής νοημοσύνης της εταιρείας Claude και ότι οι όροι του YouTube κάλυπταν μόνο την "άμεση χρήση της πλατφόρμας του" και συνέστησε να συζητηθούν τυχόν παραβιάσεις με τον αρχικό συντάκτη του YouTube Συμπεριφορά. Η Apple, η Nvidia, η Salesforce και άλλες εταιρείες δεν έχουν απαντήσει ακόμη στο θέμα.

Οι δημιουργοί που επηρεάζονται από αυτό το περιστατικό περιλαμβάνουν γνωστούς bloggers όπως οι Marques Brownlee, MrBeast και PewDiePie, καθώς και μεγάλοι εκδότες ειδήσεων όπως οι New York Times, η British Broadcasting Corporation (BBC) και το ABC News στις Ηνωμένες Πολιτείες. Επιπλέον, μέρος του υλικού στο σύνολο δεδομένων προωθεί θεωρίες συνωμοσίας όπως η "Επίπεδη Γη" και περιέχει ακόμη και περιεχόμενο από βίντεο που έχουν διαγραφεί. Τώρα, το Pile έχει αφαιρεθεί από τον επίσημο ιστότοπο λήψης, αλλά εξακολουθεί να είναι προσβάσιμο μέσω υπηρεσιών κοινής χρήσης αρχείων.

Από αυτή την άποψη, ο γνωστός τεχνολογικός blogger Marques Brownlee είπε στο Including my video Τεχνικά η Apple δεν «έκανε λάθος», δεν έσπασε προληπτικά τα δεδομένα, αλλά αυτό θα είναι ένα μακροχρόνιο πρόβλημα.

Tweet από τον Marques Brownlee.Πηγή: X platform

Παρόλο που η Apple και άλλες εταιρείες μπορεί να έχουν χρησιμοποιήσει δημόσια σύνολα δεδομένων και δεν υπήρξαν παραβιάσεις, αυτό το περιστατικό επέστησε για άλλη μια φορά την προσοχή στα ζητήματα δεδομένων πίσω από την εκπαίδευση AI. Στις αρχές του τρέχοντος έτους, η μητρική εταιρεία του YouTube, η Google εκτέθηκε στη χρήση των βίντεο της πλατφόρμας για την εκπαίδευση των μοντέλων της, η Google απάντησε τότε ότι αυτή η συμπεριφορά δεν παραβίαζε τη συμφωνία της πλατφόρμας με τους δημιουργούς.

Τον Μάρτιο του τρέχοντος έτους, η Διευθύντρια Τεχνολογίας του OpenAI, Mira Murati, ήταν ασαφής σχετικά με την πηγή των δεδομένων εκπαίδευσης για το μοντέλο βίντεο Vincent Sora σε μια συνέντευξη. Τον Απρίλιο, ο Διευθύνων Σύμβουλος του YouTube, Neal Mohan, είπε σε μια συνέντευξη ότι δεν είχε άμεσες αποδείξεις που να αποδεικνύουν ότι το OpenAI χρησιμοποίησε βίντεο του YouTube για να βελτιώσει το εργαλείο τεχνητής νοημοσύνης βίντεο Vincent, Sora Όροι χρήσης της πλατφόρμας YouTube.

Νέα

Περιλαμβάνει 170.000 βίντεο!Η NVIDIA και άλλοι γίγαντες εκτέθηκαν για παράνομη χρήση δεδομένων του YouTube για την εκπαίδευση μοντέλων

Εισαγωγή

τα στοιχεία επικοινωνίας μου