Νέα

Το μυστηριώδες μοντέλο βάσης βίντεο της Nvidia "Cosmos" αποκαλύπτεται και όλα τα δεδομένα έχουν κλαπεί

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Για αυτό το μοντέλο βίντεο, η NVIDIA ανιχνεύει μανιωδώς το ισοδύναμο 80 ετών δεδομένων βίντεο κάθε μέρα.

Σήμερα, μια είδηση ​​σχετικά με την απόφαση της Nvidia να σταματήσει να δημιουργεί μοντέλα βίντεο εξερράγη στο Reddit.

Η πηγή των ειδήσεων προέρχεται από τα ξένα μέσα 404 Media Σύμφωνα με το Slack chat (εσωτερική πλατφόρμα συνομιλίας της Nvidia), τα μηνύματα ηλεκτρονικού ταχυδρομείου και τα έγγραφα που έλαβε, η Nvidia συλλέγει βίντεο από το Youtube και πολλές άλλες πηγές για τη συλλογή δεδομένων εκπαίδευσης για τα προϊόντα της.



Οι εσωτερικές συνομιλίες στη Nvidia που εξετάστηκαν από το 404 Media δείχνουν ότι όταν οι εργαζόμενοι που συμμετείχαν στο έργο εξέφρασαν ανησυχίες για πιθανά νομικά ζητήματα που προέκυπταν από τη χρήση "εμπορικά απαγορευμένων συνόλων δεδομένων έρευνας" και "βίντεο YouTube", οι διαχειριστές τους είπαν ότι είχαν έγκριση από τα υψηλότερα επίπεδα την εταιρεία, η οποία μπορεί να χρησιμοποιηθεί.

Ένας ανώνυμος πρώην υπάλληλος της Nvidia είπε ότι ζητήθηκε από τους υπαλλήλους να σκάσουν βίντεο από το Netflix, το YouTube και άλλες πηγές για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης για τη γεννήτρια Omniverse 3D world, συστήματα αυτοοδηγούμενων αυτοκινήτων και προϊόντα "ψηφιακού ανθρώπου".

Το έργο, που ονομάζεται Cosmos εσωτερικά (αλλά διαφέρει από το υπάρχον προϊόν βαθιάς εκμάθησης Cosmos της εταιρείας), δεν έχει κυκλοφορήσει ακόμη στο κοινό. Σύμφωνα με ένα email που εστάλη στους υπαλλήλους από την ηγεσία του έργου, στόχος της Cosmos είναι να οικοδομήσει ένα μοντέλο υποδομής βίντεο τελευταίας τεχνολογίας που «ενσωματώνει τη μεταφορά φωτός, τη φυσική και την έξυπνη προσομοίωση σε ένα μέρος για να ξεκλειδώσει τις διάφορες κατάντη πτυχές που είναι κρίσιμες για εφαρμογή Nvidia."

Για τη συλλογή εκπαιδευτικών βίντεο, οι υπάλληλοι της NVIDIA χρησιμοποίησαν ένα πρόγραμμα λήψης βίντεο YouTube ανοιχτού κώδικα που ονομάζεται "yt-dlp". Προσπαθούν να κατεβάσουν ολόκληρα βίντεο από διάφορες πηγές όπως το Netflix, αλλά επικεντρώνονται κυρίως στα βίντεο του YouTube. Τα μηνύματα ηλεκτρονικού ταχυδρομείου που εξετάστηκαν από την 404 Media δείχνουν ότι ο διαχειριστής του έργου επέλεξε να χρησιμοποιήσει 20 έως 30 εικονικές μηχανές στις Υπηρεσίες Ιστού της Amazon για τη λήψη βίντεο 80 ετών κάθε μέρα.

"Ολοκληρώνουμε τη γραμμή δεδομένων v1 και εξασφαλίζουμε τους απαραίτητους υπολογιστικούς πόρους για να δημιουργήσουμε ένα εργοστάσιο δεδομένων βίντεο που μπορεί να παράγει καθημερινά δεδομένα εκπαίδευσης ισοδύναμα με μια ανθρώπινη οπτική εμπειρία ζωής."

Όταν ρωτήθηκε σχετικά με τη χρήση βίντεο YouTube από τη Nvidia ως δεδομένα εκπαίδευσης για τα μοντέλα της, ένας εκπρόσωπος της Google είπε στο 404 Media ότι η «προηγούμενη θέση της εταιρείας παραμένει έγκυρη». Προηγουμένως, ο Διευθύνων Σύμβουλος του YouTube, Νιλ Μόχαν, είχε δηλώσει ότι εάν το OpenAI χρησιμοποιούσε βίντεο του YouTube για να βελτιώσει τη συσκευή δημιουργίας βίντεο τεχνητής νοημοσύνης Sora, θα αποτελούσε «σαφή παραβίαση» των όρων χρήσης του YouTube.

Ομοίως, ένας εκπρόσωπος του Netflix είπε στο 404 Media ότι η εταιρεία δεν έχει συνάψει συμφωνία με την Nvidia για την απόκτηση περιεχομένου και ότι οι όροι υπηρεσίας της πλατφόρμας δεν επιτρέπουν τη διαγραφή περιεχομένου.

Ωστόσο, η Nvidia δεν φαίνεται να ενδιαφέρεται. Οι νομικές ανησυχίες που εγείρονταν από υπαλλήλους που συμμετείχαν στο έργο συχνά απορρίπτονταν από τους διαχειριστές του έργου, οι οποίοι είπαν ότι η απόφαση να σκουπιστεί το βίντεο χωρίς άδεια ήταν μια "εκτελεστική απόφαση" για την οποία δεν χρειαζόταν να ανησυχούν και τι συνιστούσε δίκαιη και ηθική χρήση των πνευματικών δικαιωμάτων περιεχόμενο και το ζήτημα της ακαδημαϊκής, μη εμπορικής χρήσης του συνόλου δεδομένων θεωρούνται «εκκρεμή νομικά ζητήματα» που θα επιλύσουν στο μέλλον.

Η αρχή και το τέλος του έργου μοντέλου βίντεο NVIDIA

Παρόμοια με άλλους τεχνολογικούς γίγαντες, η Nvidia προσλαμβάνει ταλέντα ακαδημαϊκής έρευνας για τη δημοσίευση ακαδημαϊκών αποτελεσμάτων, αλλά από τα εσωτερικά email που λαμβάνονται από την 404 Media, μπορεί να φανεί ότι το Cosmos θα χρησιμοποιηθεί προφανώς για εμπορικούς σκοπούς.

Τον Μάρτιο του τρέχοντος έτους, ένας ερευνητής της NVIDIA δημοσίευσε στο Slack και πρότεινε ότι η χρήση ταινιών του Χόλιγουντ όπως το "Avatar" ή το "Lord of the Rings" για την εκπαίδευση του OpenAI Sora μπορεί να είναι πιο αποτελεσματική.

Στη συνέχεια, η πρότασή του αναγνωρίστηκε στην εταιρεία, αλλά πρόσθεσε επίσης ότι το Χόλιγουντ είναι ιδιαίτερα ευαίσθητο στο ενδεχόμενο η τεχνητή νοημοσύνη να παραβιάζει πνευματικά δικαιώματα. Τον Ιούλιο του 2023, το SAG-AFTRA, ένα από τα τρία μεγάλα εργατικά συνδικάτα στο Χόλιγουντ με 160.000 μέλη, ανακοίνωσε απεργία, με στόχο τα παραγωγικά προϊόντα τεχνητής νοημοσύνης όπως το ChatGPT και το Stable Diffusion Πριν από αυτό, η Ένωση Συγγραφέων της Αμερικής απεργούσε περισσότερες από 70 ημέρες. Υπάρχει μια κατάσταση στο Stable Diffusion Ακόμα κι αν δεν εισαγάγετε την αντίστοιχη λέξη προτροπής και εισαγάγετε μια αόριστη περιγραφή όπως "Animation style υδραυλικός", το Stable Diffusion θα δημιουργήσει απευθείας την κλασική εικόνα του Mario.

Κάτω από αυτήν την ανάρτηση, ένας υπάλληλος με το όνομα "Liu" (συγκεκριμένα ο Ming-Yu Liu (Liu Mingyu), αντιπρόεδρος έρευνας στην NVIDIA) απάντησε: "Εάν η εργασία δεν δημοσιευτεί δημόσια, δεν θα προκαλέσει τα παραπάνω αρνητικά ζητήματα. Θα πρέπει χρησιμοποιήστε πρώτα βίντεο με δυνατότητα λήψης για πειραματισμό."



Στη συνέχεια, ένας άλλος ερευνητής της NVIDIA δημοσίευσε μια δημοσίευση στο intranet. Βρήκε μια λίστα με αρχεία που θα έπρεπε να ληφθούν πρώτα για εκπαιδευτικά μοντέλα βίντεο. Αυτή η συνεχώς διευρυνόμενη λίστα περιλαμβάνει επίσης πρωτότυπα βίντεο από ορισμένους γνωστούς YouTubers, όπως ο Marques Brownlee (MKBHD), ένας blogger ψηφιακών κριτικών με φήμη στη Βόρεια Αμερική όπως "Γεια σε όλους, είμαι συμμαθητής αυτός".

Λόγω της προστασίας πνευματικών δικαιωμάτων, τα γενικά σύνολα δεδομένων βίντεο περιλαμβάνουν συχνά συνδέσμους URL ή αναγνωριστικά YouTube Μόλις ο συντάκτης διαγράψει το αρχικό βίντεο, αυτά τα περιεχόμενα δεν θα περιλαμβάνονται πλέον στο σύνολο δεδομένων, εκτός εάν ο δημιουργός του βίντεο συμφωνεί ρητά με τη διατήρηση και τη χρήση του περιεχομένου. .

Παρόλο που η Microsoft απαγορεύει ρητά όλες τις εμπορικές χρήσεις στη δήλωση χρήσης του συνόλου δεδομένων HD-VILA-100M, ο υπάλληλος της Nvidia που δημοσίευσε το μήνυμα δεν φάνηκε να τον ενδιαφέρει γρήγορα τον σύνδεσμο YouTube που αντιστοιχεί στη λίστα και τον μοιράστηκε με τους συναδέλφους του Συζητήσαμε μια λύση για τη χρήση εικονικών μηχανών AWS για την αλλαγή των IP για την παράκαμψη του μηχανισμού κατά του ανιχνευτή του YouTube.

Επιπλέον, οι υπάλληλοι της NVIDIA προσέγγισαν επίσης το YouTube-8M, ένα σύνολο δεδομένων κατανόησης βίντεο μεγάλης κλίμακας που κυκλοφόρησε από την Google. Αντί να συμπληρώσουν το σύνολο δεδομένων της Microsoft από μόνοι τους, κατέληξαν σε μια «συμφωνία» με το YouTube και την Google, η τρέχουσα μητρική εταιρεία του YouTube αγόρασε 800 βίντεο στην τιμή των 0,00625 $ (περίπου 4 σεντς) ανά βίντεο και θα γίνει λήψη μέσω Google Cloud. Ανεξάρτητα από το ζήτημα της πώλησης πνευματικών δικαιωμάτων, η Google μπορεί να πιστεύει ότι έχει κερδίσει πίσω τα διαφημιστικά τέλη αυτών των βίντεο, αλλά η Nvidia έχει ήδη κάποιους περιορισμούς στο εύρος ζώνης του cloud Η λήψη στο Google Cloud μπορεί να αποκτήσει μια πιο σταθερή και προβλέψιμη σύνδεση. Επομένως, όπως και να το δεις, αυτή η «συμφωνία» φαίνεται να είναι επωφελής για τη Nvidia.

Αυτό που προκαλεί ακόμη μεγαλύτερη έκπληξη είναι όταν ένας υπάλληλος της Nvidia ρώτησε στο intranet: "Είναι λογικό να κατεβάζουμε βίντεο από το YouTube όπως αυτό;"

"Αυτή είναι μια απόφαση υψηλού επιπέδου. Έχουμε πλήρη έγκριση για να χρησιμοποιήσουμε όλα τα δεδομένα."

Τα δεδομένα που επιτρέπονται για αυτήν την απόφαση περιλαμβάνουν επίσης παραγωγές βίντεο στο Netflix. Τα δεδομένα του Netflix περιέχουν πολλά δεδομένα προσώπων υψηλής ποιότητας Αφού εγκρίθηκαν, κάποιος ζήτησε από συναδέλφους στο εταιρικό δίκτυο που είχαν εμπειρία στη «δημιουργία μεγάλων συνόλων δεδομένων» σε άλλες μεγάλες εταιρείες.

Ταυτόχρονα, η ομάδα του Cosmos εξέτασε επίσης το θέμα του πώς να προσθέσει αποτελεσματικά πλάνα παιχνιδιού στα δεδομένα της προπόνησης. Ο ανώτερος ερευνητικός επιστήμονας της NVIDIA, Jim Fan, αντιμετώπισε επίσης «ρυθμιστικά» εμπόδια κατά τη λήψη πλάνα παιχνιδιού σε πραγματικό χρόνο.

Ο Jim Fan δημοσίευσε:

Ενημέρωση: Συναντιέμαι με τους ανθρώπους στο GeForce Now (GFN) και δουλεύω για σχέδια μαζί τους. Θα συνεργαστούμε στενά με το GFN και τις σχετικές ομάδες μηχανικών για την ανάπτυξη μεθόδων λήψης δεδομένων παιχνιδιών σε πραγματικό χρόνο, επέκτασης της κλίμακας του αγωγού και επεξεργασίας των δεδομένων για εκπαίδευση. Τα βίντεο παιχνιδιού υψηλής ποιότητας θα είναι μια πολύ χρήσιμη προσθήκη στο "μας Sora"... Δεδομένου ότι ο εξοπλισμός για τη λήψη ζωντανών βίντεο και ενεργειών παιχνιδιού δεν είναι ακόμη διαθέσιμος, δεν έχουν γίνει ακόμη στατιστικά στοιχεία, αλλά θα καθαρίσουμε και το επεξεργασμένο GFN δεδομένα προστίθενται στο team-vfm.

Τον Μάρτιο του τρέχοντος έτους, η συλλογή δεδομένων βίντεο του Project Cosmo έφτασε σε ένα ορόσημο: η Nvidia ολοκλήρωσε 100.000 λήψεις βίντεο σε δύο εβδομάδες.

"Η πρόοδος είναι εκπληκτική. Το ερώτημα τώρα είναι πώς μπορούμε να αποκτήσουμε έναν μεγάλο αριθμό διευθύνσεων URL υψηλής ποιότητας", απάντησε ο Liu.

Στα τέλη Μαΐου, τα μέλη της ομάδας του έργου έλαβαν ένα email σχετικά με τη στρατηγική δεδομένων βίντεο, ανακοινώνοντας ότι είχαν συγκεντρώσει 38,5 εκατομμύρια διευθύνσεις URL βίντεο. «Σύμφωνα με το σχέδιο, το επίκεντρο της συλλογής βίντεο της επόμενης εβδομάδας θα εξακολουθούν να είναι ταινίες, πλάνα από drone, πλάνα με προοπτική πρώτου προσώπου και φυσικά τοπία», ανέφερε το μήνυμα ηλεκτρονικού ταχυδρομείου που δείχνει τους τύπους περιεχομένου που κατέβασαν. ποσοστό.

Το email αποκάλυψε ορισμένες βασικές τεχνικές πληροφορίες, συμπεριλαμβανομένων τεσσάρων συνόλων δεδομένων από τα δεδομένα εκπαίδευσης του μοντέλου:

  • Ego-Exo4D: Ένα ποικίλο, μεγάλης κλίμακας, πολλαπλών τρόπων, πολλαπλών προβολών σύνολο δεδομένων βίντεο και σημείο αναφοράς που συλλέγεται από 740 χρήστες κάμερας σε 13 πόλεις σε όλο τον κόσμο, καταγράφοντας 1286,3 ώρες βίντεο από εξειδικευμένες ανθρώπινες δραστηριότητες.
  • Ego4D: Πρόκειται για μια μεγάλης κλίμακας, εγωκεντρικό σύνολο δεδομένων και συγκριτική αξιολόγηση που συλλέγει πάνω από 3.670 ώρες βίντεο καθημερινής δραστηριότητας σε 74 τοποθεσίες σε 9 χώρες σε όλο τον κόσμο.
  • HOI4D : Μεγάλης κλίμακας 4D εγωκεντρικό σύνολο δεδομένων με πλούσιους σχολιασμούς για τη διευκόλυνση της έρευνας αλληλεπίδρασης ανθρώπου-αντικειμένου σε επίπεδο κατηγορίας. Το HOI4D δημιουργήθηκε από ερευνητές από το Πανεπιστήμιο Tsinghua, το Πανεπιστήμιο του Πεκίνου και το Ερευνητικό Ινστιτούτο Shanghai Qizhi. Έχει άδεια χρήσης σύμφωνα με το CC BY-NC 4.0 και απαγορεύεται η εμπορική χρήση.
  • GeForce Τώρα: Δεδομένα παιχνιδιού.

Σε άλλο email, τα μέλη του έργου Cosmos είπαν: "Η ερευνητική ομάδα εκπαιδεύει τώρα ένα μοντέλο παραμέτρων 1 δισεκατομμυρίου με πολλαπλές διαμορφώσεις, η καθεμία με 16 κόμβους. Αυτό είναι ένα σημαντικό βήμα εντοπισμού σφαλμάτων πριν από την περαιτέρω κλιμάκωση. Σκοπεύουμε να έχουμε συμπεράσματα μέσα σε ένα λίγες εβδομάδες και στη συνέχεια να κλιμακωθεί σε ένα μοντέλο παραμέτρων 10 δισεκατομμυρίων».

«Αυτή η ενημέρωση είναι εξαιρετική!» απάντησε ο Διευθύνων Σύμβουλος της Nvidia, Jen-Hsun Huang, και είπε: «Πολλές εταιρείες έχουν θέσει ως στόχο την κατασκευή ενός βασικού μοντέλου βίντεο και σίγουρα μπορούμε να δημιουργήσουμε έναν ταχυδρομικό αγωγό».

Τον Ιούνιο, τα μέλη της ομάδας του έργου συζήτησαν ποιοι τύποι περιεχομένου στο μοντέλο θα ήταν πιο χρήσιμοι για τα προϊόντα της Nvidia στο πλαίσιο της διατήρησης της ανταγωνιστικότητας στον κλάδο της τεχνητής νοημοσύνης.

"Η NVIDIA διαθέτει ρομποτική, αυτόνομη οδήγηση, Omniverse και Avatar που δεν διαθέτουν οι περισσότερες εταιρείες περιεχομένου. Για να μεγιστοποιήσουμε την ανάπτυξη της εταιρείας, τα δεδομένα που οργανώνουμε πρέπει να είναι καλά εφαρμόσιμα σε αυτές τις "δολοφονικές" εφαρμογές", δήλωσε το μέλος του Cosmos Project.

Δεν υπάρχει αμφιβολία ότι το μοντέλο που αναπτύσσει η ομάδα της Cosmos προορίζεται για εμπορική χρήση στα πολλά προϊόντα της.

Έως ότου θεσπιστεί νομοθεσία που θα απαιτούσε από αυτές τις εταιρείες να αποκαλύπτουν πλήρως τα εκπαιδευτικά τους δεδομένα, θα συνεχίσουν να εκμεταλλεύονται τις νόμιμες γκρίζες ζώνες για να αφαιρέσουν δεδομένα που προστατεύονται από πνευματικά δικαιώματα. Χωρίς διαρροές εσωτερικών email ή συνομιλιών intranet, κανείς δεν θα ήξερε τι συμβαίνει στα παρασκήνια και ένα τέτοιο μοντέλο θα μπορούσε να κάνει τεχνολογικούς γίγαντες όπως η Nvidia, η Runway ή το OpenAI δισεκατομμύρια δολάρια.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/