Η έκδοση NVIDIA του Sora εκτέθηκε να συλλάβει παράνομα μεγάλο όγκο δεδομένων και ο επίσημος εξέφρασε δυσαρέσκεια

Η έκδοση NVIDIA του Sora εκτέθηκε να συλλάβει παράνομα μεγάλο όγκο δεδομένων και ο επίσημος εξέφρασε τη δυσαρέσκειά του

2024-08-06

Το Baijiao προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Η έκδοση NVIDIA του Sora εκτέθηκε——

Με την κωδική ονομασία Cosmos, ο Αντιπρόεδρος Έρευνας Liu Mingyu υπηρετεί ως υπεύθυνος.

Ωστόσο, με τη διαρροή πολλών εσωτερικών εγγράφων, εκτέθηκαν και σε παράνομη αρπαγή δεδομένων.

(Πράγματι, αυτό δεν είναι μόνο μία ή δύο φορές...)

Οι εργαζόμενοι επιτρέπεται σιωπηρά να ανιχνεύουν οποιαδήποτε μη εξουσιοδοτημένα και μη συναινετικά δεδομένα στο Διαδίκτυο καθημερινά, όπως το YouTube, το Netflix και άλλες πλατφόρμες.

Συνολικά, τα οπτικά δεδομένα που συλλέγονται καθημερινά είναι σχεδόν όσα μπορεί να αντιληφθεί ένας άνθρωπος σε 80 χρόνια.

Ως αποτέλεσμα, η Nvidia απάντησε: Αυτό που κάνουμε,Απόλυτα νόμιμο!

Έκθεση Nvidia έκδοση του Sora: κωδική ονομασία Cosmos

Σύμφωνα με έγγραφα που διέρρευσαν από το 404Media, η NVIDIA καταγράφει παράνομα δεδομένα κάθε μέρα για να εκπαιδεύει νέα μοντέλα.

Στόχος του Cosmos είναι να κατασκευάσει ένα μοντέλο βάσης βίντεο τελευταίας τεχνολογίας. Σύμφωνα με μηνύματα ηλεκτρονικού ταχυδρομείου που διέρρευσαν, το μοντέλο ενσωματώνει προσομοιώσεις μετάδοσης φωτός, φυσικής και νοημοσύνης για να ξεκλειδώσει διάφορες κατάντη εφαρμογές.

Για παράδειγμα, χρησιμοποιείται σε γεννήτρια κόσμου 3D Omniverse, σύστημα αυτοοδηγούμενων αυτοκινήτων και ψηφιακά ανθρώπινα προϊόντα.

Ο Ming-Yu Liu, αντιπρόεδρος έρευνας στην NVIDIA, υπηρετεί ως επικεφαλής του έργου του Cosmos.

Είναι επίσης Μέλος του IEEE. Ηγήθηκε της ερευνητικής ομάδας της NVIDIA Deep Imagination και λάνσαρε προϊόντα όπως τα NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] και NVIDIA Maxine [LivePortrait].

Ένα προηγούμενο email από τον Μάιο ανέφερε:

Ολοκληρώνουμε τη γραμμή δεδομένων v1 και εξασφαλίζουμε τους απαραίτητους υπολογιστικούς πόρους για να δημιουργήσουμε ένα εργοστάσιο δεδομένων βίντεο που μπορεί να δημιουργήσει ένα ημερήσιο ισοδύναμο μιας ανθρώπινης οπτικής εμπειρίας μιας ολόκληρης ζωής δεδομένων εκπαίδευσης.

Αυτή η εικόνα δείχνει τον επικεφαλής επιστήμονα της NVIDIA, Francesco Ferroni, να δίνει έναν σύνδεσμο σε έναν πίνακα που συγκεντρώνει διάφορα σύνολα δεδομένων βίντεο, όπως το MovieNet (μια βάση δεδομένων με 60.000 τρέιλερ ταινιών), το WebVid, το InternVid-10M και πολλά δεδομένα εσωτερικά τραβηγμένων βίντεο.

Τώρα, σύμφωνα με έναν πρώην υπάλληλο, οι εργαζόμενοι θα κληθούν να σκάσουν δεδομένα από πηγές όπως το YouTube και το Netflix.

Θα χρησιμοποιήσουν ένα πρόγραμμα λήψης βίντεο YouTube ανοιχτού κώδικα που ονομάζεται yt-dlp, το οποίο χρησιμοποιεί μια εικονική μηχανή για να ανανεώσει τις διευθύνσεις IP για να αποφύγει τον αποκλεισμό από το YouTube.

Για το σκοπό αυτό, η Nvidia απάντησε στην 404 Media:

Σεβόμαστε τα δικαιώματα όλων των δημιουργών περιεχομένου και πιστεύουμε ότι τα μοντέλα και το ερευνητικό μας έργο συμμορφώνονται πλήρως με το γράμμα και το πνεύμα της νομοθεσίας περί πνευματικών δικαιωμάτων.
Η νομοθεσία περί πνευματικών δικαιωμάτων προστατεύει ορισμένες εκφράσεις αλλά όχι γεγονότα, ιδέες, δεδομένα ή πληροφορίες. Οποιοσδήποτε είναι ελεύθερος να λάβει γεγονότα, ιδέες, δεδομένα ή πληροφορίες από άλλες πηγές και να τα χρησιμοποιήσει για να εκφράσει τις δικές του απόψεις. Η δίκαιη χρήση προστατεύει επίσης τη δυνατότητα χρήσης της εργασίας για μετασχηματιστικούς σκοπούς, όπως η εκπαίδευση μοντέλων. "

Η Google έστειλε έναν σύνδεσμο προς το 404 Media Τον Απρίλιο του τρέχοντος έτους, ο Διευθύνων Σύμβουλος του YouTube είπε ότι εάν το OpenAI χρησιμοποιεί βίντεο του YouTube για να εκπαιδεύσει τον Soraξεκάθαρη παραβίασηΌροι Χρήσης YouTube.

Το Netflix είπε ότι δεν είχε συμφωνία εξαγωγής περιεχομένου με τη Nvidia και ότι οι όροι υπηρεσίας της πλατφόρμας δεν επιτρέπουν την απόσυρση περιεχομένου.

Είναι ενδιαφέρον ότι την ίδια μέρα, οι bloggers του YouTube ζητούν ομαδική αγωγή κατά του OpenAI, κατηγορώντας την εταιρεία ότι χρησιμοποίησε εκατομμύρια εγγραφές βίντεο στο YouTube για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της χωρίς να ειδοποιήσει ή να αποζημιώσει τους κατόχους των βίντεο.

Δεν είναι ασυνήθιστο για αυτές τις μεγάλες εταιρείες να εκτίθενται σε παράνομη αρπαγή δεδομένων στο παρελθόν.

Αλλά πρέπει να πούμε ότι αυτού του είδους τα ακατέργαστα δεδομένα είναι πραγματικά χρήσιμα...

Προηγουμένως, η NVIDIA χρησιμοποιούσε επίσης βίντεο παιχνιδιών για τη βελτίωση της ποιότητας των δεδομένων προπόνησης.

Η μελέτη που εμφανίστηκε πρόσφατα στο εξώφυλλο του Nature δείχνει ότι αυτό το μεγάλο μοντέλο που εκπαιδεύεται με αυθεντικά δεδομένα Διαδικτύου έχει πλεονέκτημα πρώτης κίνησης, έχει την καλύτερη ποιότητα δεδομένων και η αντίστοιχη απόδοση μοντέλου είναι επίσης η καλύτερη.

Αργότερα, καθώς τα δεδομένα τεχνητής νοημοσύνης γίνονταν όλο και πιο άφθονα, ήταν εύκολο για τα μεγάλα μοντέλα να καταρρεύσουν.

Σκουπίδια μέσα, σκουπίδια έξω。

Τι πιστεύετε για αυτό το θέμα;

Σύνδεσμοι αναφοράς:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/

Νέα

Η έκδοση NVIDIA του Sora εκτέθηκε να συλλάβει παράνομα μεγάλο όγκο δεδομένων και ο επίσημος εξέφρασε τη δυσαρέσκειά του

Εισαγωγή

τα στοιχεία επικοινωνίας μου