Νέα

Η Nvidia εκτέθηκε σε κλοπή δεδομένων, ανιχνεύοντας δεδομένα βίντεο για περισσότερα από 80 χρόνια κάθε μέρα και επηρεάστηκε επίσης το σύνολο ακαδημαϊκών δεδομένων του Πανεπιστημίου του Πεκίνου

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η NVIDIA φαίνεται να έχει εισέλθει σε μια προβληματική περίοδο πρόσφατα.
Αφού αποκαλύφθηκε ότι η μαζική παραγωγή του πιο ισχυρού τσιπ AI καθυστέρησε και η αγοραία αξία της εξατμίστηκε κατά περισσότερα από 300 δισεκατομμύρια δολάρια, η Nvidia εκτέθηκε από το 404 Media ότι άρπαξε περιεχόμενο βίντεο από πλατφόρμες όπως το YouTube και το Netflix χωρίς άδεια να το εκπαιδεύσει Μοντέλο βίντεο τεχνητής νοημοσύνης που δεν έχει κυκλοφορήσει ακόμη στο κοινό.
Τα εσωτερικά email και οι συνομιλίες Slack δείχνουν ότι παρόλο που οι υπάλληλοι της Nvidia έχουν εγείρει ερωτήματα σχετικά με τη νομιμότητα και την ηθική της χρήσης αυτών των συνόλων δεδομένων, η διοίκηση της εταιρείας είπε ότι αυτές οι ενέργειες είχαν εγκριθεί από τα ανώτερα στελέχη και υποστήριξε ότι οι ενέργειές τους ήταν σύμφωνες με τη νομοθεσία περί πνευματικών δικαιωμάτων.
Αξίζει να αναφέρουμε ότι σε εσωτερικές συζητήσεις στα τέλη Φεβρουαρίου, η NVIDIA ανέφερε πολλαπλά σύνολα δεδομένων που χρησιμοποιούσε, συμπεριλαμβανομένου του HD-VG-130M.
Το τελευταίο είναι ένα σύνολο δεδομένων 130 εκατομμυρίων βίντεο YouTube που κατασκευάστηκαν από ερευνητές στο Πανεπιστήμιο του Πεκίνου και η άδεια χρήσης του δηλώνει ρητά ότι περιορίζεται στην ακαδημαϊκή έρευνα.
Η προσέγγιση της Nvidia μοιάζει περισσότερο με έναν μικρόκοσμο των περισσότερων εταιρειών τεχνητής νοημοσύνης σήμερα.
Όταν οι χρήστες θεωρούνται «μηχανές ανάληψης μετρητών δεδομένων», εκτός και αν το εκθέσουν οι εμπιστευτικοί, είναι πραγματικά δύσκολο για τον έξω κόσμο να γνωρίζει εάν τα έργα σας και τα δικά μου έχουν γίνει τροφή για εκπαίδευση τεχνητής νοημοσύνης.
Εν ολίγοις, οι άνθρωποι εξακολουθούν να είναι καταναλωτές στην κορυφή της τροφικής αλυσίδας, αλλά αναπόφευκτα θα γίνουμε μέλος της αλυσίδας εφοδιασμού για την ανάπτυξη AI.
Ακολουθεί το πρωτότυπο κείμενο της είδησης από τα ξένα μέσα 404 Media, γραμμένο από GPT-4o Μετάφραση, απολαύστε το~
Τροφοδοτήστε το μοντέλο με βίντεο YouTube και κατεβάστε το αντίστοιχο βίντεο 80 ετών κάθε μέρα
Οι εσωτερικές συνομιλίες Slack, τα email και τα έγγραφα που ελήφθησαν από την 404 Media δείχνουν αυτό Η Nvidia αφαιρεί βίντεο από το YouTube και πολλές άλλες πηγές για να συγκεντρώσει δεδομένα εκπαίδευσης για τα προϊόντα τεχνητής νοημοσύνης της. Όταν ρωτήθηκε για τα νομικά και ηθικά ζητήματα της χρήσης περιεχομένου που προστατεύεται από πνευματικά δικαιώματα για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, η Nvidia υποστήριξε ότι η προσέγγισή της «συμμορφώνεται πλήρως με το γράμμα και το πνεύμα της νομοθεσίας περί πνευματικών δικαιωμάτων».
Οι εσωτερικές συνομιλίες στη Nvidia που εξετάστηκαν από το 404 Media δείχνουν ότι όταν οι υπάλληλοι έθεσαν ερωτήσεις σχετικά με πιθανές νομικές επιπτώσεις της χρήσης συνόλων δεδομένων και βίντεο YouTube που έχουν συγκεντρωθεί από ακαδημαϊκούς για ερευνητικούς σκοπούς, οι διευθυντές τους είπαν ότι ανώτεροι υπάλληλοι της εταιρείας είχαν εγκρίνει τη χρήση τους.
Ένας πρώην υπάλληλος της Nvidia (στον οποίο δόθηκε ανωνυμία από το 404 Media για να συζητήσει τις εσωτερικές διαδικασίες της Nvidia) είπε ότι ζητήθηκε από τους υπαλλήλους να σκάσουν βίντεο από το Netflix, το YouTube και άλλες πηγές για να εκπαιδεύσουν τη γεννήτρια κόσμου Omniverse 3D της Nvidia.Αυτόματος πιλότοςσυστήματα αυτοκινήτων και "ψηφιακός άνθρωπος«Μοντέλο AI του προϊόντος.
Το έργο, εσωτερικά γνωστό ως Cosmos (αλλά διαφορετικό από το υπάρχον προϊόν βαθιάς εκμάθησης Cosmos της εταιρείας), δεν έχει δημοσιοποιηθεί ακόμη.
Ένα email από τον επικεφαλής του έργου αποκάλυψε ότι η Cosmos στοχεύει να δημιουργήσει ένα μοντέλο υποδομής βίντεο τελευταίας τεχνολογίας που «συνδυάζει προσομοιώσεις μεταφοράς φωτός, φυσικής και νοημοσύνης σε ένα μέρος για να αναπτύξει μια ποικιλία εφαρμογών κατάντη κρίσιμων για τη Nvidia».
Ένα email που έλαβε η 404 Media δείχνει ένα διάγραμμα που δείχνει πώς εφαρμόζεται το μοντέλο Cosmos σε διαφορετικά προϊόντα Nvidia.
Τα χαλαρά μηνύματα στο κανάλι που δημιούργησε η εταιρεία για το έργο δείχνουν ότι οι εργαζόμενοι χρησιμοποιούν ένα πρόγραμμα λήψης βίντεο YouTube ανοιχτού κώδικα που ονομάζεται yt-dlp, σε συνδυασμό με μια εικονική μηχανή για να ανανεώσουν τη διεύθυνση IP για να αποφύγουν τον αποκλεισμό από το YouTube.
Σύμφωνα με την πηγή, προσπάθησαν να κατεβάσουν πλήρη βίντεο από πολλές πηγές, συμπεριλαμβανομένου του Netflix, αλλά επικεντρώθηκαν κυρίως σε βίντεο YouTube.
Τα μηνύματα ηλεκτρονικού ταχυδρομείου που εξετάστηκαν από το 404 Media δείχνουν ότι οι διαχειριστές έργων συζητούν τη χρήση 20 έως 30 εικονικών μηχανών του Amazon Web Services για λήψη βίντεο 80 ετών την ημέρα.
"Ολοκληρώνουμε τη γραμμή δεδομένων v1 και εξασφαλίζουμε επαρκείς υπολογιστικούς πόρους για να δημιουργήσουμε ένα εργοστάσιο δεδομένων βίντεο που μπορεί να παράγει το ισοδύναμο του 100% των δεδομένων βίντεο κάθε μέρα", δήλωσε ο Mingyu Liu, αντιπρόεδρος έρευνας της Nvidia και επικεφαλής του έργου Cosmos. σε ένα email τον Μάιο Ο όγκος των δεδομένων στην οπτική εμπειρία ενός ανθρώπου».
Οι συνομιλίες και οι οδηγίες στο εσωτερικό της Nvidia δείχνουν τους υπαλλήλους να συζητούν τα νομικά και ηθικά ζητήματα της εταιρείας στο σχεδιασμό των chip και των API που έχουν τροφοδοτήσει την άνοδο της γενετικής τεχνητής νοημοσύνης και την έχουν καταστήσει μια από τις πιο πολύτιμες δημόσιες εταιρείες στον κόσμο.
Αναδεικνύει επίσης τις μεγαλύτερες εταιρείες του κλάδου, όπως η Runway και OpenAI, υπάρχει μια ανικανοποίητη ζήτηση για περιεχόμενο ως δεδομένα για την εκπαίδευση μοντέλων AI.
Ένας εκπρόσωπος της Nvidia είπε σε ένα email στο 404 Media:
Σεβόμαστε τα δικαιώματα όλων των δημιουργών περιεχομένου και πιστεύουμε ακράδαντα ότι τα μοντέλα και το ερευνητικό μας έργο συμμορφώνονται πλήρως με το γράμμα και το πνεύμα της νομοθεσίας περί πνευματικών δικαιωμάτων. Η νομοθεσία περί πνευματικών δικαιωμάτων προστατεύει ορισμένες εκφράσεις αλλά όχι γεγονότα, απόψεις, δεδομένα ή πληροφορίες. Ο καθένας μπορεί να μάθει γεγονότα, ιδέες, δεδομένα ή πληροφορίες από άλλες πηγές και να τα χρησιμοποιήσει για να δημιουργήσει τη δική του έκφραση. Η δίκαιη χρήση προστατεύει επίσης το δικαίωμα χρήσης του έργου για μετασχηματιστικούς σκοπούς, όπως η εκπαίδευση μοντέλων.
Όταν ρωτήθηκε σχετικά με τη χρήση βίντεο YouTube από τη Nvidia ως δεδομένα εκπαίδευσης για τα μοντέλα της, ένας εκπρόσωπος της Google είπε στο 404 Media ότι τα «προηγούμενα σχόλια της εταιρείας εξακολουθούν να ισχύουν».
Μεταξύ αυτών, ο Διευθύνων Σύμβουλος του YouTube, Neal Mohan, δήλωσε ότι εάν το OpenAI χρησιμοποιεί βίντεο YouTube για να βελτιστοποιήσει τη συσκευή δημιουργίας βίντεο AI Sora, αυτό θα παραβιάζει σαφώς τους όρους χρήσης του YouTube.
Ένας εκπρόσωπος του Netflix είπε στο 404 Media ότι το Netflix δεν έχει συνάψει συμφωνία με τη Nvidia για την απόκτηση περιεχομένου και ότι οι όροι υπηρεσίας της πλατφόρμας δεν επιτρέπουν τη διαγραφή δεδομένων.
Ερωτήσεις σχετικά με τα νομικά ζητήματα που τέθηκαν από υπαλλήλους που συμμετείχαν στο έργο γενικά απορρίφθηκαν από τους διαχειριστές του έργου, οι οποίοι είπαν ότι η απόφαση να σκουπιστεί το βίντεο χωρίς άδεια ήταν μια "απόφαση υψηλού επιπέδου" και ότι οι εργαζόμενοι δεν είχαν τίποτα να ανησυχούν για το τι συνιστά παραβίαση περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα και το θέμα της δίκαιης και ηθικής χρήσης συνόλων δεδομένων για ακαδημαϊκή, μη εμπορική χρήση θεωρείται ένα «ανεπίλυτο νομικό ζήτημα» που θα επιλύσουν στο μέλλον.
Η έρευνά μας υπογραμμίζει τη στάση «μην ρωτάς» αυτών των εταιρειών τεχνολογίας για τη συλλογή τεράστιων ποσοτήτων περιεχομένου που προστατεύεται από πνευματικά δικαιώματα σε σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση ορισμένων από τα πιο πολύτιμα μοντέλα τεχνητής νοημοσύνης στον κόσμο.
Τα στελέχη της Nvidia πρότειναν ότι το σύνολο ακαδημαϊκών δεδομένων του Πανεπιστημίου του Πεκίνου έγινε επίσης κατάχρηση
Τον Φεβρουάριο του 2024, ο Francesco Ferroni, επικεφαλής επιστήμονας της Nvidia, έγραψε στο κανάλι Nvidia Slack που ονομάζεται #cosmos-dataset-creation:
«Γεια σε όλους, η @Sanja Fidler μού ανέφερε μια πρωτοβουλία για τη συγκέντρωση ενός μεγάλου αριθμού επιμελημένων συνόλων δεδομένων βίντεο για τη δημιουργία μοντέλων Θεωρήσαμε ότι η έναρξη με τη συγκέντρωση όλων των εσωτερικά διαθέσιμων συνόλων δεδομένων βίντεο (δημόσια ή εσωτερικά ληφθέντων) για την αποφυγή διπλών δεδομένων Labor. ”
(Σημείωση: Η Sanja Fidler είναι αντιπρόεδρος έρευνας AI της Nvidia.)
Στη συνέχεια, η Ferroni συνδέθηκε με ένα υπολογιστικό φύλλο με συνδέσμους σε σύνολα δεδομένων, όπως το MovieNet, μια βάση δεδομένων με 60.000 τρέιλερ ταινιών και το WebVid, ένα σύνολο δεδομένων βίντεο που συλλέχθηκε από εικόνες στο Github που αργότερα διαγράφηκε από τον δημιουργό του, αφού έλαβε μια ειδοποίηση -10M (ένα σύνολο δεδομένων 10 εκατομμυρίων αναγνωριστικών βίντεο YouTube στο Github) και πολλά σύνολα δεδομένων εσωτερικά ληφθέντων βίντεο παιχνιδιών. Το 404 Media έχει αφαιρέσει τα ονόματα των κατώτερων υπαλλήλων από στιγμιότυπα οθόνης συνομιλιών Slack.
Συμπεριλάβαμε τα ονόματα αρκετών ανώτερων μηχανικών και στελεχών που συμμετείχαν στο έργο λόγω της δημόσιας προβολής τους ως ηγέτες στον κλάδο της τεχνητής νοημοσύνης.
Το υπολογιστικό φύλλο που συνδέεται από τη Ferroni δείχνει τα σύνολα δεδομένων που χρησιμοποιούνται στο έργο
Σε μια επόμενη συζήτηση τον Φεβρουάριο, οι μηχανικοί μίλησαν για τα σύνολα δεδομένων που απέκτησαν, συμπεριλαμβανομένου του HD-VG-130M, ενός σετ 130 εκατομμυρίων βίντεο στο YouTube. Το σύνολο δεδομένων δημιουργήθηκε από ερευνητές στο Πανεπιστήμιο του Πεκίνου στην Κίνα και η άδεια χρήσης του αναφέρει ότι μπορεί να χρησιμοποιηθεί μόνο για ακαδημαϊκούς σκοπούς.
"Με τη λήψη ή τη χρήση των δεδομένων, κατανοείτε, αναγνωρίζετε και συμφωνείτε με όλους τους όρους της ακόλουθης συμφωνίας", αναφέρει η σελίδα Github για το σύνολο δεδομένων.
Η σελίδα τονίζει "Μόνο για ακαδημαϊκή χρήση. Οποιοδήποτε περιεχόμενο στο σύνολο δεδομένων HD-VG-130M προορίζεται μόνο για ακαδημαϊκή ερευνητική χρήση. Συμφωνείτε να μην αντιγράψετε, να ανταλλάξετε ή να χρησιμοποιήσετε για εμπορικούς σκοπούς. Απαγορεύεται η διανομή. Σεβαστείτε το απόρρητο των προσωπικές πληροφορίες της αρχικής πηγής." . Οποιαδήποτε μετάδοση, τροποποίηση ή οποιαδήποτε άλλη παρόμοια συμπεριφορά του περιεχομένου του συνόλου δεδομένων δεν επιτρέπεται χωρίς την άδεια του κατόχου των πνευματικών δικαιωμάτων.
Καθ' όλη τη διάρκεια του έργου, σύνολα δεδομένων που συγκεντρώθηκαν και έγιναν διαθέσιμα στο κοινό από ερευνητές και ακαδημαϊκούς θεωρήθηκαν ελεύθερα διαθέσιμα για χρήση σε μοντέλα NVIDIA. Οι ερευνητές της τεχνητής νοημοσύνης ανησυχούν όλο και περισσότερο για την κατάλληλη χρήση των συνόλων δεδομένων που δημοσιοποιούν, συμπεριλαμβανομένων των ηθικών και νομικών χρήσεων.
Ο Robert Mahari του MIT Data Provenance Initiative είπε στο 404 Media ότι έχουν δει σημαντική αύξηση στη χρήση αδειών μη εμπορικής χρήσης για ερευνητικά σύνολα δεδομένων τον περασμένο χρόνο, υποδηλώνοντας ότι οι ακαδημαϊκοί προσπαθούν να περιορίσουν την εμπορική χρήση της δουλειάς τους. Τα σύνολα δεδομένων που συλλέγονται για ερευνητική χρήση διαφέρουν σημαντικά ως προς τον σκοπό από τα σύνολα δεδομένων που έχουν συγκεντρωθεί για εμπορική χρήση.
"Όταν οι ακαδημαϊκοί δημοσιεύουν δημόσια σύνολα δεδομένων, ειδικά σύνολα δεδομένων για συγκεκριμένες εργασίες, ενδέχεται να μην εξετάζουμε συγκεκριμένα τα δεδομένα για θέματα όπως ορισμένους τύπους μεροληψίας ή δυτικοκεντρισμού, εάν αυτά δεν είναι το επίκεντρο της έρευνας, τότε δεν θα υπάρξουν επιθεωρήσεις." είπε ο Μαχάρης. "Επομένως, εάν ένας μελετητής αναφέρει στην άδεια "Μόνο ακαδημαϊκή χρήση" ή "Παρακαλώ μην χρησιμοποιείτε αυτά τα δεδομένα με ακούσιο τρόπο", υπάρχει καλός λόγος να συμμορφωθείτε με αυτούς τους κανονισμούς. Επειδή τα δεδομένα μπορεί να μην είναι εμπορικής ποιότητας , ενδέχεται να επίσης έχουν κακή απόδοση σε άλλους τύπους περιβαλλόντων."
Όπως πολλοί άλλοι τεχνολογικοί γίγαντες, η Nvidia απασχολεί άτομα που διεξάγουν και δημοσιεύουν ακαδημαϊκή έρευνα. Ωστόσο, οι εσωτερικές συνομιλίες στη Nvidia που εξετάστηκαν από το 404 Media δείχνουν ότι το Cosmos στοχεύει να υποστηρίξει τις προσπάθειες της εταιρείας να ενισχύσει τις εμπορικές της προσφορές στον εξαιρετικά ανταγωνιστικό κλάδο της τεχνητής νοημοσύνης.
Δημόσια σύνολα δεδομένων έρευνας διανέμονται συχνά ως διευθύνσεις URL ή αναγνωριστικά YouTube για δύο λόγους: πρώτον, για πρακτικούς λόγους - η κοινή χρήση εκατομμυρίων πλήρων αρχείων βίντεο ή εικόνων είναι πολύ δυσκίνητη, δεύτερον, για νομικούς και ηθικούς λόγους. Για παράδειγμα, εάν κάποιος διαγράψει το βίντεο ή το tweet του στο YouTube, ένα αντίγραφο δεν θα συνεχίσει να υπάρχει στο σύνολο δεδομένων χωρίς τη γνώση ή την άδεια του κατόχου.
«Είναι σαν να ξεπερνάς τους νομικούς περιορισμούς με το να μην διανέμεις το σύνολο δεδομένων σε τρίτους», είπε στο 404 Media η Έμιλι Μπέντερ, καθηγήτρια και διευθύντρια του Εργαστηρίου Υπολογιστικής Γλωσσολογίας στο Πανεπιστήμιο της Ουάσιγκτον. "Άλλοι μπορούν να δημιουργήσουν το σύνολο δεδομένων και να το χρησιμοποιήσουν για τους δικούς τους σκοπούς."
Οι λεπτομέρειες της συζήτησης αποκαλύφθηκαν, πώς η NVIDIA κλέβει δεδομένα στα όρια του νόμου;
Τον Μάρτιο, ένας ερευνητής ξεκίνησε μια συζήτηση για το Slack σχετικά με τη δυνατότητα της γεννήτριας βίντεο Sora του OpenAI να χρησιμοποιεί ταινίες του Χόλιγουντ όπως το "Avatar" και το "Lord of the Rings" ως δεδομένα εκπαίδευσης.
"Οι ταινίες είναι στην πραγματικότητα μια καλή πηγή δεδομένων για τρισδιάστατη συνέχεια που μοιάζει με παιχνίδι και φανταστικό περιεχόμενο, αλλά σε υψηλότερη ποιότητα. Οι χαρακτήρες είναι πλήρως CGI και πολλές από τις σκηνές ζωντανής δράσης είναι πλέον και CGI", είπαν. Κάποιος απάντησε ότι η ομάδα πρέπει να προπονηθεί στο σύνολο δεδομένων ταινιών του Discovery Channel.
Ο Liu Mingyu είπε: «Χρειαζόμαστε έναν εθελοντή για να κατεβάσει όλες τις ταινίες».
Ο ερευνητής που πρότεινε αρχικά την ταινία πρόσθεσε: «Αν και είναι πολύ ξεκάθαρο τι κάνουν, πρέπει να είμαστε πολύ προσεκτικοί ώστε το Χόλιγουντ να γίνει υπερευαίσθητο στην τεχνητή νοημοσύνη, όπως συνέβη στην κοινότητα των καλλιτεχνών μετά την κυκλοφορία του SD [Stable Diffusion ] και τώρα συμβαίνει στο Χόλιγουντ».
Στη συνέχεια δημοσίευσαν δύο συνδέσμους στη συνομιλία: ένα άρθρο του Hollywood Reporter σχετικά με τον Tyler Perry που σταμάτησε την επέκταση στούντιο 800 εκατομμυρίων δολαρίων αφού είδε το Sora του OpenAI και ένα άρθρο του Vanity Fair σχετικά με την απεργία SAG-AFTRA του 2023 οδηγεί σε άρθρα που περιλαμβάνουν τη γλώσσα AI σε συμβόλαια στούντιο.
Ο Liu Mingyu τόνισε: "Αυτό που κάνουμε εδώ δεν θα δημοσιεύσει κανένα ερευνητικό αποτέλεσμα. Θα χρησιμοποιήσουμε όλα τα δεδομένα με δυνατότητα λήψης για τη διεξαγωγή πειραμάτων. Εφόσον δεν θα δημοσιεύσουμε τίποτα, δεν θα υπάρξουν αρνητικά συναισθήματα στους 404 πρώην εργαζόμενους του Media." ότι το «δημοσίευση» αναφέρεται σε ερευνητικές δημοσιεύσεις.
Το άτομο που έθεσε την «υψηλή ευαισθησία» απάντησε: «Αν πραγματοποιήσουμε ένα τέτοιο έργο εντός της εταιρείας, θα πρέπει να κοινοποιηθεί ευρέως, γιατί η εμφάνιση παρόμοιων παραδειγμάτων μπορεί να προκαλέσει αντιδράσεις: «Ναι».
Τον Μάρτιο, ο Ferroni έγραψε σε ένα άλλο κανάλι Slack που σχετίζεται με το έργο: "Βρέθηκαν ορισμένα αρχεία υψηλής προτεραιότητας που έπρεπε να ληφθούν. Αποδείχθηκε ότι έλειπαν 2,3 εκατομμύρια ακατέργαστα βίντεο από το σύνολο δεδομένων HDVILA [Γλώσσα βίντεο υψηλής ανάλυσης] που είχαμε !» Αναφέρονταν στο HD-VILA-100M της Microsoft, ένα σύνολο δεδομένων γλωσσών βίντεο μεγάλης κλίμακας, υψηλής ανάλυσης. Έστειλαν έναν σύνδεσμο σε ένα έγγραφο του Google Drive και είπαν, "Εδώ είναι ο σύνδεσμος του YouTube που λείπει" και στη συνέχεια είπαν: "Ας το βάλουμε στη διαδικασία λήψης!"
Η δήλωση άδειας χρήσης για το HD-VILA-100M έχει ως εξής:
"Συμφωνείτε να χρησιμοποιείτε τα δεδομένα μόνο για υπολογιστικούς σκοπούς για μη εμπορική έρευνα. Αυτός ο περιορισμός σημαίνει ότι μπορείτε να συμμετέχετε σε μη εμπορικές ερευνητικές δραστηριότητες (συμπεριλαμβανομένης της μη εμπορικής έρευνας που διεξάγεται ή χρηματοδοτείται από εμπορική οντότητα), αλλά δεν μπορείτε να χρησιμοποιήσετε τα δεδομένα ή τυχόν αποτελέσματα για Οποιοδήποτε εμπορικό προϊόν, συμπεριλαμβανομένου του τμήματος ενός προϊόντος ή υπηρεσίας που χρησιμοποιείτε ή παρέχετε σε άλλους (ή για να βελτιώσετε οποιοδήποτε προϊόν ή υπηρεσία).
"Ας δημιουργήσουμε μια βάση δεδομένων με URL που έχουν ληφθεί", απάντησε ένας άλλος μηχανικός. "Τα βίντεο του YouTube έχουν μοναδικά αναγνωριστικά. Μπορούμε να χρησιμοποιήσουμε αυτά τα αναγνωριστικά ως αναφορές (τα αναγνωριστικά μετά το "?v="); Θα συγκρίνουμε και θα συγχωνεύσουμε διευθύνσεις URL πολλές φορές στο μέλλον. Ο Ferroni απάντησε: "Ναι, το χρησιμοποιούμε τώρα". εγκατάσταση υποδομής», που σημαίνει ότι το προσθέτουν στο εργαλείο διαχείρισης έργου Hive.
Το μέλος της ομάδας του Omniverse που επισήμαναν απάντησε: "Είμαστε σε AWS και η επανεκκίνηση μιας παρουσίας [εικονικής μηχανής] μας δίνει μια νέα δημόσια διεύθυνση IP, οπότε αυτό δεν αποτελεί πρόβλημα αυτή τη στιγμή."
Σε μια συζήτηση Slack στο κανάλι #cosmos-dataset-creation σχετικά με τον τρόπο εύρεσης των καλύτερων βίντεο, οι εργαζόμενοι κατά καιρούς ανέφεραν τα νομικά και ηθικά ζητήματα της δουλειάς τους. Τον Φεβρουάριο, αφού κάποιος ανέφερε ότι χρησιμοποιεί το YouTube-8M, ένα ερευνητικό σύνολο δεδομένων με αναγνωριστικά YouTube που συγκεντρώθηκε από την Google, ο Ferroni ρώτησε: "Ίσως δεν μπορούμε να χρησιμοποιήσουμε το [YT8M] για μη ερευνητικούς σκοπούς;"
Το έγγραφο και η σελίδα του έργου του YouTube-8M δεν αναφέρουν ζητήματα πνευματικών δικαιωμάτων, αλλά το έγγραφο δηλώνει ότι το σύνολο δεδομένων δημιουργήθηκε για να προωθήσει την έρευνα μηχανικής μάθησης: «Αναμένουμε ότι αυτό το σύνολο δεδομένων θα παρέχει ίσους όρους ανταγωνισμού για τους ερευνητές στον ακαδημαϊκό χώρο -Κλιμάκωση σχολιασμένων συνόλων δεδομένων βίντεο και σημαντική επιτάχυνση της έρευνας για την κατανόηση βίντεο.
Σε απάντηση στην ερώτηση του Ferroni σχετικά με τη χρήση του για το έργο Cosmos, ένας υπάλληλος της NVIDIA που προηγουμένως συνδημιούργησε το ACAV100M απάντησε:
"Ναι, η λήψη δεδομένων από την Google είναι πολύ ακριβή. Ωστόσο, ο προγραμματισμός 10.000 πυρήνων από τη NVIDIA ήταν μια πρόκληση.
Επιπλέον, οι περιορισμοί εύρους ζώνης της NVIDIA στο cloud προσθέτουν σημαντική μεταβλητότητα που μπορεί να προκαλέσει προβλήματα. Η λήψη στο Google Cloud σημαίνει ότι κάθε εργασία αποκτά σταθερή σύνδεση υψηλού εύρους ζώνης στο YouTube. "
"Το πιο σημαντικό, η λήψη βίντεο από το YouTube απαγορεύεται από τους όρους παροχής υπηρεσιών του YouTube. Επομένως, κατά τη λήψη του YouTube 8m, επικοινωνήσαμε με την Google και το YouTube εκ των προτέρων και χρησιμοποιήσαμε το Google Cloud για λήψη ως κίνητρο.Εξάλλου, συνήθως για 8 εκατομμύρια βίντεο, λαμβάνουν πολλές εμφανίσεις διαφημίσεων που κατεβαίνουν όταν χρησιμοποιούνται για εκπαίδευση και οδηγούν σε απώλεια εσόδων, επομένως θα πρέπει να έχουν κάποια έσοδα από αυτό. Η πληρωμή 0,00625 $ ανά λήψη βίντεο εξακολουθεί να είναι μια καλή συμφωνία. "
"Εντάξει, άρα αυτά τα δεδομένα αναμένεται να χρησιμοποιηθούν μόνο για ερευνητικούς σκοπούς; Από όσο γνωρίζω, το YouTube API της Google μπορεί να ρωτήσει τους όρους άδειας κάθε βίντεο", απάντησε ο Ferroni. "Μπορείτε επίσης να σχολιάσετε τους όρους άδειας χρήσης του ACAV100M και του YouTube8M;"
"Απ' όσο γνωρίζω, οι όροι υπηρεσίας του YouTube απαγορεύουν τη λήψη ανεξαρτήτως άδειας· ο περιορισμός αφορά τα χαμένα έσοδα από διαφημίσεις και όχι την άδεια", απάντησε ένας άλλος υπάλληλος. Συνέχισαν:
"Δεν ξέρω ποιους όρους αδειοδότησης φιλτράρισε η Google κατά τη δημιουργία του συνόλου δεδομένων. Απλώς κατεβάσαμε αυτά που ανέφεραν ότι περιλαμβάνονται στο σύνολο δεδομένων (δημοσίευσαν τις λειτουργίες, μαζί με συνδέσμους προς τα αρχικά βίντεο). Κατέβασα τα δεδομένα YouTube 8m Το σετ έρχεται με πλήρη μεταδεδομένα, επομένως, πρέπει να ελέγξω το σύνολο δεδομένων ACAV100M, ωστόσο, το CC ή ο δημόσιος τομέας είναι το καλύτερο, εάν υπάρχει διαθέσιμο υλικό με δικαιώματα πνευματικής ιδιοκτησίας Οι περισσότερες εταιρείες φαίνεται να θεωρούν ότι αυτό είναι δίκαιη χρήση.
«Πιστεύω ότι υπάρχει ένα τεράστιο χάσμα μεταξύ της εμπορευματοποίησης κάτι χωρίς τη συγκατάθεση κάποιου και της έρευνας των δυνατοτήτων της παραγωγικής τεχνητής νοημοσύνης με βάση το δημοσιευμένο περιεχόμενο», δήλωσε στο 404 Media η Shayne Longpre, διδακτορική φοιτήτρια στο MIT Media Lab. Οι ερωτήσεις σχετικά με τους όρους υπηρεσίας του YouTube στο κανάλι Cosmos Slack δεν ήταν η τελευταία φορά που προέκυψαν νομικά ζητήματα.
Αργότερα, ένας άλλος υπάλληλος είπε: "Γεια σου ομάδα. Χρησιμοποιούμε τη https://research.google.com/youtube8m/download.html για λήψη βίντεο; Εάν ναι, έχουμε νομική έγκριση; Σε ένα έργο, το νομικό τμήμα το αρνήθηκε χρησιμοποιήστε επειδή η άδεια για μεμονωμένα βίντεο είναι καλύτερη από την άδεια που κοινοποιήθηκε στο yt8m "Αυτή είναι μια διοικητική απόφαση. Έχουμε μια κύρια άδεια που καλύπτει όλα τα δεδομένα", απάντησε ο Liu Mingyu. «Εντάξει, ευχαριστώ το άτομο που έκανε την ερώτηση.
Ο Bender είπε στο 404 Media ότι η εταιρεία εκμεταλλεύεται την τρέχουσα νομική γκρίζα περιοχή γύρω από περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα που χρησιμοποιείται για δεδομένα εκπαίδευσης. «Μου φαίνεται ότι υπάρχει σίγουρα μια κουλτούρα «αν μπορούμε να το αποκτήσουμε, μπορούμε να το χρησιμοποιήσουμε»», είπε. «Βασίζεται σε μεγάλο βαθμό στους ανθρώπους που θέλουν να συμβεί, παρά σε μια προσεκτική μελέτη της νομιμότητάς του ή σε μια βαθιά σκέψη για τον αντίκτυπό του στους ανθρώπους».
Η χρήση περιεχομένου που προστατεύεται από πνευματικά δικαιώματα για εκπαίδευση τεχνητής νοημοσύνης είναι «σίγουρα μη καθιερωμένη νομοθεσία», είπε ο Mahari. Το νομικό σύστημα δεν έχει ακόμη καθορίσει εάν η απόκτηση δεδομένων εκπαίδευσης για την ανάπτυξη μοντέλων τεχνητής νοημοσύνης είναι αρκετά μεταμορφωτική, ειδικά αφού έχει αποδειχθεί ότι τα μοντέλα μπορούν να θυμούνται ή να ανακαλούν δεδομένα εκπαίδευσης ως έξοδο. «Η άποψή μου (που συνοψίζεται εν μέρει σε αυτό το άρθρο του Science) είναι ότι η εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης μπορεί πράγματι να συνιστά ορθή χρήση, αλλά αυτό δεν σημαίνει ότι η παραγωγή παρόμοιου αποτελέσματος με συγκεκριμένα στοιχεία στα δεδομένα εκπαίδευσης δεν παραβιάζει.
Σε αυτήν την περίπτωση, δεν είναι σαφές εάν ο πάροχος του υποκείμενου μοντέλου ή ο συγκεκριμένος χρήστης που δημιουργεί την έξοδο θα παραβιάζει (αυτό μπορεί να εξαρτάται από το πλαίσιο). "
Τον Μάιο, ένας επιστήμονας έριξε συνδέσμους σε ορισμένα κανάλια YouTube στο κανάλι Cosmos Slack και είπε: "Εάν είστε ακόμα ανοιχτοί σε προτάσεις για κανάλια YouTube που μπορείτε να κατεβάσετε, εδώ είναι μερικά που μπορεί να αξίζουν να ληφθούν υπόψη." Περιλαμβάνει τα επίσημα κανάλια Expedia και Architectural Digest, καθώς και μεμονωμένους δημιουργούς περιεχομένου, όπως το The Critical Drinker και το Marques Brownlee (MKBHD). Ένας διευθυντής έργου τους ευχαρίστησε για τις προτάσεις τους και είπε ότι θα τις διαβιβάσουν στην ομάδα, στην οποία ο Fidler απάντησε, "Μήπως συμπεριλάβατε και ένα εκπαιδευτικό βίντεο; Αστρονομία; Ιατρική;"
Το "εκκρεμές νομικό ζήτημα" της χρήσης έργων που προστατεύονται από πνευματικά δικαιώματα για εκπαίδευση εμπορικών βασικών μοντέλων ενδέχεται να μην παραμείνει άλυτο για πολύ.
Συσσωρεύονται αγωγές παραβίασης πνευματικών δικαιωμάτων που υποβάλλονται από κατόχους πνευματικών δικαιωμάτων εναντίον εταιρειών παραγωγής τεχνητής νοημοσύνης, συμπεριλαμβανομένης της αγωγής της Getty Images κατά του δημιουργού Stable Diffusion, του Stability AI, της αγωγής των New York Times κατά του OpenAI και καλλιτεχνών και δημιουργών κατά της Stability.Μεσοταξίδι , η DeviantArt και η Runway υπέβαλαν ομαδική αγωγή. Η ομάδα δεδομένων εκπαίδευσης του Cosmos συζήτησε επίσης τη χρήση του Netflix για την εκπαίδευση της γεννήτριας.
"Στη σημερινή συνάντηση, πήραμε την άδεια να κατεβάσουμε όλα τα είδη δεδομένων. Πρέπει να κατεβάσουμε ολόκληρο το Netflix; Πώς μπορούμε να το εφαρμόσουμε αυτό;" είπε ο Liu στο κανάλι Slack. "Θα πρέπει να κατεβάσουμε ολόκληρο το Discovery Channel!"
απάντησε κάποιος. "Χρειαζόμαστε έναν συντονιστή πληροφοριών έργου. Ποιος θέλει να κάνει λήψη οθόνης ενώ παρακολουθεί όλες τις ταινίες;" «Θα πρέπει να λάβουμε πολλά βίντεο προσώπων υψηλής ποιότητας από αυτό», συνέχισε ο Liu. Κάποιος από την ομάδα υποδομής του Omniverse επισημάνθηκε στο νήμα και σημείωσε ότι ήταν πρόθυμοι να βοηθήσουν στην "λειτουργία" επειδή είχαν "πείρα με άλλες μεγάλες εταιρείες που κατασκευάζουν μεγάλα σύνολα δεδομένων".
Η ομάδα εξέτασε επίσης τον καλύτερο τρόπο για να προσθέσει υλικό βιντεοπαιχνιδιών στα δεδομένα προπόνησης. Ο Jim Fan, ανώτερος ερευνητής στην Nvidia, ανέφερε ότι υπάρχουν «μηχανικά και ρυθμιστικά» εμπόδια στη λήψη ζωντανού βίντεο παιχνιδιού.
"Ενημέρωση: Συναντήθηκα με τους ανθρώπους στο GeForce Now (GFN) και θα συνεργαστώ μαζί τους για ένα σχέδιο δεδομένων. Θα συνεργαστούμε στενά με το GFN και τις σχετικές ομάδες μηχανικών για τη δημιουργία καταγραφής δεδομένων παιχνιδιών σε πραγματικό χρόνο, την κλιμάκωση του αγωγού και Επεξεργαστείτε αυτά τα δεδομένα για προπόνηση βίντεο παιχνιδιού υψηλής ποιότητας θα είναι μια πολύ χρήσιμη προσθήκη στο έργο Sora», έγραψε ο Fan. «Δεν έχουμε ακόμα στατιστικά στοιχεία ή αρχεία βίντεο, επειδή η υποδομή δεν έχει δημιουργηθεί για να καταγράψουμε τις τεράστιες ποσότητες ζωντανών βίντεο και δράσης που πρέπει να ξεπεράσουμε τα εμπόδια μηχανικής και κανονιστικών ρυθμίσεων, αφού τα δεδομένα GFN έχουν καθαριστεί και υποβληθεί σε επεξεργασία φτάνει, εμείς Θα προστεθεί στο team-vfm το συντομότερο δυνατό."
Τον Μάρτιο, το έργο έφτασε σε ορόσημο: 100.000 βίντεο κατέβηκαν σε δύο εβδομάδες. Ένας υπάλληλος ανέφερε σε ένα νήμα που συζητούσε το ορόσημο ότι η Ferroni έχει ένα πρόγραμμα λήψης που χρησιμοποιούν και ο Ferroni επιβεβαίωσε ότι κατέβαζε ήχο και βίντεο. "Καταπληκτική πρόοδος. Το ερώτημα τώρα είναι πώς λαμβάνουμε μεγάλο αριθμό URL υψηλής ποιότητας", απάντησε ο Liu.
Στα τέλη Μαΐου, στάλθηκε ένα email στρατηγικής δεδομένων για δεδομένα βίντεο στα μέλη της ομάδας του έργου, ανακοινώνοντας ότι είχαν συγκεντρώσει 38,5 εκατομμύρια διευθύνσεις URL βίντεο. «Με βάση τη διανομή του στόχου μας, η εστίαση για την ερχόμενη εβδομάδα παραμένει επικεντρωμένη σε ταινίες, πλάνα από drone, βίντεο πρώτου προσώπου και μερικά βίντεο από ταξίδια και φύση», αναφέρει το email. Το email περιλάμβανε επίσης ένα γράφημα που δείχνει το ποσοστό των τύπων περιεχομένου που κατέβασαν.
Σε αυτό το μήνυμα ηλεκτρονικού ταχυδρομείου, ένας διαχειριστής προϊόντων πρότεινε την προσθήκη τεσσάρων επιπλέον συνόλων δεδομένων στα δεδομένα εκπαίδευσης του μοντέλου. Αυτοί έγραψαν:

1. Ego-Exo4D: Ένα ποικίλο, μεγάλης κλίμακας πολυτροπικό σύνολο δεδομένων βίντεο πολλαπλών προβολών και σημείο αναφοράς που συλλέγεται από 740 χρήστες κάμερας σε 13 πόλεις σε όλο τον κόσμο, καταγράφοντας 1286,3 ώρες βίντεο από εξειδικευμένες ανθρώπινες δραστηριότητες.

2. Ego4D: Μια μεγάλης κλίμακας σύνολο δεδομένων προοπτικής πρώτου προσώπου και μια σουίτα συγκριτικής αξιολόγησης με πάνω από 3670 ώρες βίντεο καθημερινής δραστηριότητας που συλλέγονται σε 74 τοποθεσίες και 9 χώρες σε όλο τον κόσμο.

3. HOI4D: Μεγάλης κλίμακας τετραδιάστατο σύνολο δεδομένων πρώτης προβολής με πλούσιους σχολιασμούς για τη διευκόλυνση της μελέτης των αλληλεπιδράσεων ανθρώπου-αντικειμένου σε επίπεδο κατηγορίας.

4. GeForce Now: Δεδομένα παιχνιδιού.
Το HOI4D δημιουργήθηκε από ερευνητές από το Πανεπιστήμιο Tsinghua, το Πανεπιστήμιο του Πεκίνου και το Ερευνητικό Ινστιτούτο Shanghai Qizhi. Έχει άδεια χρήσης σύμφωνα με το CC BY-NC 4.0 και δεν επιτρέπεται η εμπορική χρήση.
"Κατά τη γνώμη μου, εάν μια εταιρεία λάβει ένα σύνολο δεδομένων που προορίζεται μόνο για ερευνητικούς σκοπούς και το χρησιμοποιεί για έρευνα, εξακολουθεί να συμμορφώνεται με την άδεια για αυτό το σύνολο δεδομένων", δήλωσε ο Bender.
«Αλλά για να διασφαλιστεί αυτό, πρέπει να είναι πολύ προσεκτικοί για να δημιουργήσουν τείχη προστασίας μεταξύ της έρευνας που κάνουν και της δουλειάς που κάνουν στην ανάπτυξη προϊόντων».
Σε άλλο μήνυμα ηλεκτρονικού ταχυδρομείου ενημέρωσης τον Μάιο, ο Liu είπε: "Η ερευνητική ομάδα εκπαιδεύει τώρα ένα μοντέλο με 1 δισεκατομμύριο παραμέτρους χρησιμοποιώντας πολλές διαφορετικές διαμορφώσεις, η καθεμία με 16 κόμβους. Αυτό είναι σημαντικός εντοπισμός σφαλμάτων πριν από περαιτέρω επέκταση. Βήματα. Σκοπεύουμε να βγάλουμε συμπεράσματα σε ένα λίγες εβδομάδες και στη συνέχεια να κλιμακωθεί σε ένα μοντέλο παραμέτρων 10 δισεκατομμυρίων».
Ο Διευθύνων Σύμβουλος της Nvidia, Jensen Huang, απάντησε σε αυτό το μήνυμα ηλεκτρονικού ταχυδρομείου, "Υπέροχη ενημέρωση. Πολλές εταιρείες πρέπει να κατασκευάσουν μοντέλα που βασίζονται σε βίντεο. Μπορούμε να παρέχουμε μια πλήρη επιτάχυνση".
Τον Ιούνιο, οι εργαζόμενοι συζήτησαν ποιοι τύποι περιεχομένου σε μοντέλα θα ήταν πιο χρήσιμοι για τα προϊόντα της Nvidia ώστε να παραμείνουν ανταγωνιστικά στον κλάδο της τεχνητής νοημοσύνης.
"Η NVIDIA διαθέτει ρομπότ, αυτοοδηγούμενα αυτοκίνητα, Omniverse και Avatar που δεν διαθέτουν οι περισσότερες εταιρείες περιεχομένου. Για να έχουν τον μεγαλύτερο αντίκτυπο στην εταιρεία, τα δεδομένα που επιμελούμε πρέπει να είναι καλά εφαρμόσιμα σε αυτές τις εφαρμογές δολοφονίας", είπε ο Liu.
"Κατανοώ τα δεδομένα που επηρεάζουν τα ρομπότ και τα αυτοοδηγούμενα αυτοκίνητα. Μπορεί κάποιος να μοιραστεί τις λεπτομέρειες των δεδομένων που επηρεάζουν τις περιπτώσεις χρήσης του Omniverse και του Avatar;" "Θα είναι ένα βίντεο για το πώς αλληλεπιδρούν οι άνθρωποι με αντικείμενα. Όπως η τοποθέτηση επίπλων, το κόψιμο των φρούτων, το δίπλωμα των ρούχων", απάντησε ο Liu.
Η πρόοδος των μοντέλων AI βασίζεται στις δικές μου δημιουργίες;
Ενώ η Nvidia συμβάλλει στην ακαδημαϊκή έρευνα, οι συνομιλίες και τα email που ελήφθησαν από την 404 Media δείχνουν ότι το μοντέλο που εργάζεται η ομάδα της Cosmos προορίζεται για εμπορική χρήση σε πολλά από τα προϊόντα της.
Έως ότου δημιουργηθεί νομικό προηγούμενο σχετικά με τον τρόπο με τον οποίο συγκεντρώνονται τα δεδομένα εκπαίδευσης ή έως ότου ζητηθεί από τις εταιρείες να είναι διαφανείς σχετικά με αυτά τα δεδομένα, οι εταιρείες θα συνεχίσουν να εκμεταλλεύονται τη νόμιμη γκρίζα περιοχή της απόρριψης δεδομένων εκπαίδευσης που προστατεύονται από πνευματικά δικαιώματα. Οι διαρροές εσωτερικών συνομιλιών όπως αυτή είναι ο μόνος τρόπος με τον οποίο οι άνθρωποι μπορούν να γνωρίζουν εάν η εργασία τους χρησιμοποιείται για την εκπαίδευση μοντέλων που κάνουν εταιρείες όπως η Nvidia ή η Runway ή η OpenAI δισεκατομμύρια δολάρια.
Ο κλάδος της τεχνητής νοημοσύνης πιέζει για περισσότερη διαφάνεια εδώ και χρόνια, είτε μέσω κυβερνητικών κανονισμών είτε μέσω των βιομηχανικών προτύπων.
Νωρίτερα αυτό το έτος, οι Jack Hardinges, Elena Simperl και Nigel Shadbolt του MIT έγραψαν: «Είναι σημαντικό να κατανοήσουμε τι υπάρχει στα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων και πώς συντάχθηκαν χωρίς αυτές τις πληροφορίες, οι προσπάθειες των προγραμματιστών, των ερευνητών και των ηθικών η μεροληψία ή η αφαίρεση επιβλαβούς περιεχομένου από δεδομένα θα παρεμποδιστεί.
Οι πληροφορίες σχετικά με τα δεδομένα εκπαίδευσης θα είναι επίσης ζωτικής σημασίας για τους νομοθέτες να αξιολογήσουν εάν τα υποκείμενα μοντέλα έλαβαν προσωπικά δεδομένα ή υλικό που προστατεύεται από πνευματικά δικαιώματα. Στη συνέχεια, οι προβλεπόμενοι χειριστές συστημάτων τεχνητής νοημοσύνης και εκείνοι που επηρεάζονται από τη χρήση τους είναι πιο πιθανό να εμπιστεύονται αυτά τα συστήματα εάν κατανοούν πώς αναπτύχθηκαν. "
Οι νομοθέτες εισήγαγαν αρκετά νομοσχέδια πέρυσι για να αντιμετωπίσουν το ζήτημα, συμπεριλαμβανομένου του νόμου περί διαφάνειας υποκείμενου μοντέλου AI τον Δεκέμβριο, ο οποίος θα απαιτούσε από τις εταιρείες που δημιουργούν υποκείμενα μοντέλα τεχνητής νοημοσύνης να συνεργάζονται με ομοσπονδιακούς οργανισμούς όπως η FTC και το Γραφείο Πνευματικών Δικαιωμάτων για να αναπτύξουν πρότυπα διαφάνειας, συμπεριλαμβανομένης της απαίτησης να αποκαλύπτουν ορισμένες πληροφορίες στους καταναλωτές.
Ο νόμος Generative AI Copyright Disclosure Act, που προτάθηκε τον Απρίλιο του τρέχοντος έτους, θα απαιτούσε από τους παραγωγούς δεδομένων να υποβάλουν «μια επαρκώς λεπτομερή περίληψη οποιουδήποτε έργου που προστατεύεται από πνευματικά δικαιώματα» στον καταχωρητή, διαφορετικά θα αντιμετωπίσουν πρόστιμα.
«Τεχνικά, είναι πραγματικά δύσκολο να προσδιορίσεις αν η δουλειά σου χρησιμοποιήθηκε για προπόνηση», είπε ο Mahari. "Εσωτερικά, η καλύτερη πολιτική είναι να μην λέτε στους ανθρώπους ποια εκπαίδευση χρησιμοποιείτε γιατί είναι πολύ δύσκολο για οποιονδήποτε τρίτο να ελέγξει και να το ανακαλύψει. Επομένως, εφόσον δεν το πείτε σε κανέναν, είναι πολύ δύσκολο να το αποδείξετε."
Επισυνάπτεται η αρχική διεύθυνση της αναφοράς:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/