Τα δεδομένα τεχνητής νοημοσύνης ξεσπούν "κρίση πετρελαίου", οι εταιρείες περιεχομένου μπορούν απλώς να μείνουν πίσω και να κερδίσουν money

Τα δεδομένα τεχνητής νοημοσύνης ξεσπούν "πετρελαϊκή κρίση", οι εταιρείες περιεχομένου μπορούν απλώς να μείνουν πίσω και να κερδίσουν χρήματα

2024-07-23

“

Εάν το μεγάλο μοντέλο AI συγκριθεί με ένα αυτοκίνητο, τα ακατέργαστα δεδομένα είναι αργό πετρέλαιο.

”

Συγγραφέας |

Εκδότης· Manmanzhou

Η εμφάνιση του ChatGPT και Μεσοταξίδι Η εκρηκτική υιοθέτηση της τεχνητής νοημοσύνης επέτρεψε στην τεχνητή νοημοσύνη να επιτύχει την πρώτη εφαρμογή μεγάλης κλίμακας, δηλαδή τη διάδοση μεγάλων μοντέλων.

Το λεγόμενο μεγάλο μοντέλο αναφέρεται σε ένα μοντέλο μηχανικής μάθησης με μεγάλο αριθμό παραμέτρων και πολύπλοκη δομή, το οποίο μπορεί να επεξεργαστεί τεράστια δεδομένα και να ολοκληρώσει διάφορες σύνθετες εργασίες.

Διαφωνίες πνευματικών δικαιωμάτων δεδομένων AI

Εάν τα τρέχοντα μεγάλα μοντέλα τεχνητής νοημοσύνης συγκριθούν με αυτοκίνητα, τα ακατέργαστα δεδομένα είναι αργό πετρέλαιο. Σε κάθε περίπτωση, πρώτα απ 'όλα, το μοντέλο AI χρειάζεται αρκετό "αργό πετρέλαιο".

Οι κύριες πηγές "αργού πετρελαίου" για εταιρείες τεχνητής νοημοσύνης περιλαμβάνουν τις ακόλουθες κατηγορίες:

●Ανοιχτές και δωρεάν πηγές δεδομένων στο Διαδίκτυο, όπως Wikipedia, ιστολόγια, φόρουμ, πληροφορίες ειδήσεων κ.λπ.

●Παλιά μέσα ενημέρωσης και εκδοτικοί οίκοι.

●Πανεπιστήμια και άλλα ερευνητικά ιδρύματα.

●Χρήστες από την πλευρά C που χρησιμοποιούν το μοντέλο.

Τα δικαιώματα ιδιοκτησίας του πετρελαίου στον πραγματικό κόσμο έχουν ήδη ώριμες νομικές ρυθμίσεις, ωστόσο, στο ακόμα χαοτικό πεδίο της τεχνητής νοημοσύνης, τα δικαιώματα εκμετάλλευσης του «ακατέργαστου πετρελαίου» δεν είναι ακόμη σαφή και οι διαφωνίες που προκύπτουν είναι πολλές.

Μόλις πρόσφατα, πολλές μεγάλες δισκογραφικές εταιρείες μήνυσαν εταιρείες παραγωγής μουσικής AISunoκαιUdio , κατηγορώντας την για παραβίαση πνευματικών δικαιωμάτων.Η αγωγή ακολουθεί μια αγωγή του Δεκεμβρίου από τους New York TimesOpenAIη δίκη είναι παρόμοια.

Πηγή: Billboard

Τον Ιούλιο του 2023, ορισμένοι συγγραφείς κατέθεσαν μήνυση κατά της εταιρείας, ισχυριζόμενοιChatGPTΜια περίληψη του έργου του συγγραφέα δημιουργείται από περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα.

Τον Δεκέμβριο του ίδιου έτους, ανέφεραν επίσης οι New York TimesMicrosoftκαιOpenAIΜια παρόμοια αγωγή για παραβίαση πνευματικών δικαιωμάτων κατατέθηκε κατηγορώντας τις δύο εταιρείες ότι χρησιμοποίησαν το περιεχόμενο της εφημερίδας για να εκπαιδεύσουν chatbot τεχνητής νοημοσύνης.

Επιπλέον, μια ομαδική αγωγή κατατέθηκε στην Καλιφόρνια, κατηγορώντας το OpenAI ότι έλαβε ιδιωτικές πληροφορίες χρηστών από το Διαδίκτυο για να εκπαιδεύσει το ChatGPT χωρίς τη συγκατάθεση του χρήστη.

Το OpenAI τελικά δεν πλήρωσε για την κατηγορία Δήλωσαν ότι δεν συμφωνούσαν με την κατηγορία των New York Times και δεν μπορούσαν να αναπαράγουν τα προβλήματα που αναφέρθηκαν από τους New York Times Οι York Times ήταν Δεν έχει σημασία για το OpenAI.

Πηγή: https://openai.com/index/openai-and-journalism/

Για το OpenAI, ίσως το μεγαλύτερο δίδαγμα από αυτό το περιστατικό είναι να χειριστεί σωστά τη σχέση με τους προμηθευτές δεδομένων και να αποσαφηνίσει τα δικαιώματα και τις ευθύνες και των δύο μερών. Ως αποτέλεσμα, είδαμε το OpenAI να επιτυγχάνει συνεργασίες με πολλούς παρόχους δεδομένων το περασμένο έτος, συμπεριλαμβανομένων, ενδεικτικά, των The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project κι αλλα.

Στο μέλλον, το OpenAI θα χρησιμοποιεί νόμιμα δεδομένα από αυτά τα μέσα και αυτά τα μέσα θα ενσωματώνουν επίσης την τεχνολογία του OpenAI στα προϊόντα τους.

Το AI οδηγεί τη δημιουργία εσόδων από την πλατφόρμα περιεχομένου

Ωστόσο, ο πιο θεμελιώδης λόγος για το OpenAI να συνάψει συνεργασίες με παρόχους δεδομένων δεν είναι ο φόβος της μήνυσης, αλλά η επικείμενη εξάντληση των δεδομένων που αντιμετωπίζει η μηχανική μάθηση. Ερευνητές όπως το MIT διεξήγαγαν μια μελέτη που εκτίμησε ότι τα σύνολα δεδομένων μηχανικής μάθησης μπορεί να εξαντλήσουν όλα τα "γλωσσικά δεδομένα υψηλής ποιότητας" έως το 2026.

Ως εκ τούτου, τα "δεδομένα υψηλής ποιότητας" έχουν γίνει ένα καυτό προϊόν για κατασκευαστές μοντέλων όπως το OpenAI και η Google. Οι εταιρείες περιεχομένου και οι κατασκευαστές μοντέλων τεχνητής νοημοσύνης έχουν επανειλημμένα συνεργαστεί για να ξεκινήσουν ένα μοντέλο σταθερού κέρδους.

Η παραδοσιακή πλατφόρμα πολυμέσων Shutterstock έχει συνεργαστεί διαδοχικά με εταιρείες τεχνητής νοημοσύνης όπως Meta, Alphabet, Amazon, Apple, OpenAI, Reka κ.λπ., και θα αυξήσει τα ετήσια έσοδά της στα 104 εκατομμύρια δολάρια ΗΠΑ με την αδειοδότηση περιεχομένου σε μοντέλα τεχνητής νοημοσύνης το 2023. Το Reddit αναμένεται να δημιουργήσει έσοδα 250 εκατομμυρίων δολαρίων ΗΠΑ έτος. Τα δικαιώματα που λαμβάνουν οι εταιρείες περιεχομένου από εταιρείες τεχνητής νοημοσύνης αυξάνονται με ετήσιο ρυθμό ανάπτυξης 450%.

Πηγή εικόνας: CX Scoop

Τα τελευταία χρόνια, ήταν δύσκολη η δημιουργία εσόδων από περιεχόμενο εκτός από τη ροή μέσων, το οποίο ήταν ένα σημαντικό σημείο πόνου στη βιομηχανία περιεχομένου. Σε σύγκριση με την εποχή της επιχειρηματικότητας στο Διαδίκτυο, η εμφάνιση της τεχνητής νοημοσύνης έφερε μεγαλύτερη φαντασία και ισχυρότερες προσδοκίες εσόδων στη βιομηχανία περιεχομένου.

Τα δεδομένα υψηλής ποιότητας παραμένουν σπάνια

Φυσικά, δεν ανταποκρίνεται όλο το περιεχόμενο στις ανάγκες του AI.

Όσον αφορά τη συζήτηση μεταξύ του OpenAI και των New York Times που αναφέρθηκαν παραπάνω, ένα άλλο φωτεινό σημείο είναι η ποιότητα των δεδομένων. Για τη διύλιση πετρελαίου από αργό πετρέλαιο, πρώτον, το ίδιο το λάδι πρέπει να είναι καλής ποιότητας και, δεύτερον, η τεχνολογία καθαρισμού πρέπει να είναι καλή.

Το OpenAI τονίζει συγκεκριμένα ότι το περιεχόμενο των New York Times δεν συνέβαλε σημαντικά στην εκπαίδευση μοντέλων του OpenAI, σε σύγκριση με το Shutterstock, το οποίο επιτρέπει στο OpenAI να ξοδεύει δεκάδες εκατομμύρια δολάρια κάθε χρόνο, μέσα κειμένου όπως οι New York Times. η επικαιρότητα δεν είναι η αγαπημένη της εποχής της AI. Το AI απαιτεί βαθιά και μοναδικά δεδομένα.

Ωστόσο, τα δεδομένα υψηλής ποιότητας είναι πολύ σπάνια και οι εταιρείες τεχνητής νοημοσύνης έχουν επίσης αρχίσει να εργάζονται σκληρά για την «τεχνολογία καθαρισμού» και την «εφαρμογή μιας στάσης».

Στις 25 Ιουνίου, η OpenAI εξαγόρασε την εταιρεία βάσης δεδομένων αναλύσεων σε πραγματικό χρόνο Rockset. Αυτή η εταιρεία παρέχει κυρίως λειτουργίες ευρετηρίασης δεδομένων και ερωτημάτων σε πραγματικό χρόνο, το OpenAI θα ενσωματώσει την τεχνολογία της Rockset στα προϊόντα της για να βελτιώσει την αξία χρήσης των δεδομένων σε πραγματικό χρόνο.

Πηγή εικόνας: DePIN Scan

Με την απόκτηση του Rockset, το OpenAI σχεδιάζει να επιτρέψει στην τεχνητή νοημοσύνη να χρησιμοποιεί και να έχει πρόσβαση σε δεδομένα σε πραγματικό χρόνο. Αυτό δίνει τη δυνατότητα στα προϊόντα του OpenAI να υποστηρίζουν πιο σύνθετες εφαρμογές, όπως συστήματα συστάσεων σε πραγματικό χρόνο, ρομπότ συνομιλίας με δυναμικά δεδομένα, συστήματα παρακολούθησης και συναγερμού σε πραγματικό χρόνο, κ.λπ.

Το Rocket είναι το ενσωματωμένο "πετροχημικό τμήμα" του OpenAI που μετατρέπει άμεσα τα συνηθισμένα δεδομένα σε δεδομένα υψηλής ποιότητας που απαιτούνται από τις εφαρμογές.

Είναι φαντασίωση η επιβεβαίωση των δικαιωμάτων δεδομένων δημιουργού;

Δεδομένα από πλατφόρμες πολυμέσων Διαδικτύου (Facebook, Reddit κ.λπ.) προέρχονται σε μεγάλο βαθμό απόUGC , δηλαδή περιεχόμενο που συνεισφέρουν οι χρήστες. Ενώ πολλές πλατφόρμες χρεώνουν υψηλές χρεώσεις δεδομένων σε εταιρείες τεχνητής νοημοσύνης, προσθέτουν επίσης αθόρυβα μια ρήτρα στους όρους χρήστη ότι «η πλατφόρμα έχει το δικαίωμα να χρησιμοποιεί δεδομένα χρήστη για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης».

Αν και οι όροι χρήστη υποδεικνύουν ξεκάθαρα τα δικαιώματα εκπαίδευσης μοντέλων τεχνητής νοημοσύνης, πολλοί συγγραφείς δεν γνωρίζουν ποια μοντέλα χρησιμοποιούν το περιεχόμενο που παράγουν, ούτε γνωρίζουν αν πληρώνουν για αυτό, ούτε μπορούν να αποκτήσουν τα σχετικά δικαιώματα και συμφέροντα που θα έπρεπε να ανήκουν σε αυτούς.

Κατά τη διάρκεια της τριμηνιαίας κλήσης κερδών της Meta τον Φεβρουάριο, ο Ζούκερμπεργκ κατέστησε σαφές ότι θα χρησιμοποιούσε εικόνες από το Facebook και το Instagram για να εκπαιδεύσει τα εργαλεία του που παράγουν AI.

Σύμφωνα με αναφορές, το Tumblr έχει επίσης συνάψει μυστηριωδώς συμφωνίες αδειοδότησης περιεχομένου με το OpenAi και το Midjourney, αλλά το συγκεκριμένο περιεχόμενο των συγκεκριμένων συμφωνιών δεν έχει αποκαλυφθεί.

Οι δημιουργοί της πλατφόρμας φωτογραφιών EyeEm έλαβαν επίσης πρόσφατα μια ειδοποίηση ότι οι φωτογραφίες που είχαν δημοσιεύσει θα χρησιμοποιηθούν για εκπαίδευση μοντέλων AI. Η ειδοποίηση ανέφερε ότι οι χρήστες μπορούν να επιλέξουν να μην χρησιμοποιήσουν το προϊόν ως αποτέλεσμα, αλλά δεν ανέφερε καμία πολιτική αποζημίωσης. Η μητρική εταιρεία της EyeEm Freepik είπε στο Reuters ότι είχε υπογράψει συμφωνίες με δύο μεγάλες εταιρείες τεχνολογίας για να αδειοδοτήσουν τις περισσότερες από τις 200 εκατομμύρια εικόνες της για περίπου 3 σεντς ανά εικόνα. Ο Διευθύνων Σύμβουλος Χοακίν Κουένκα Αμπέλα είπε ότι βρίσκονται στο στάδιο των εργασιών πέντε άλλες παρόμοιες συμφωνίες, αλλά αρνήθηκε να αποκαλύψει την ταυτότητα του αγοραστή.

Οι πλατφόρμες περιεχομένου που καθοδηγούνται από το UGC, όπως το Getty Images, το Adobe, το Photobucket, το Flickr και το Reddit, αντιμετωπίζουν παρόμοια προβλήματα Κάτω από τον τεράστιο πειρασμό της δημιουργίας εσόδων από δεδομένα, οι πλατφόρμες επιλέγουν να αγνοήσουν την ιδιοκτησία περιεχομένου των χρηστών και να συσκευάσουν τα δεδομένα και να τα πουλήσουν σε μοντέλο τεχνητής νοημοσύνης. εταιρείες.

Η όλη διαδικασία πραγματοποιήθηκε στο σκοτάδι και οι δημιουργοί δεν είχαν καμία ευκαιρία να αντισταθούν. Ακόμη και πολλοί δημιουργοί μπορεί να χρειαστεί να εκπαιδεύσουν περιεχόμενο παρόμοιο με τα δικά τους έργα σε ένα συγκεκριμένο μοντέλο μια μέρα στο μέλλον προτού να έχουν την ευκαιρία να υποψιαστούν ότι τα προηγούμενα έργα τους πωλήθηκαν από μια συγκεκριμένη πλατφόρμα σε μια εταιρεία τεχνητής νοημοσύνης για εκπαίδευση μοντέλων.

Το Web3 μπορεί να είναι μια καλή επιλογή για την επίλυση του προβλήματος της δυσκολίας στην προστασία των δικαιωμάτων δεδομένων και του εισοδήματος των δημιουργών. Όταν οι εταιρείες τεχνητής νοημοσύνης σημείωσαν νέα υψηλά στο χρηματιστήριο των ΗΠΑ, το νόμισμα της ιδέας της τεχνητής νοημοσύνης του web3 εκτινάχθηκε επίσης στα ύψη την ίδια στιγμή. Το Blockchain, με τα αποκεντρωμένα και μη παραποιήσιμα χαρακτηριστικά του, απολαμβάνει μοναδικά πλεονεκτήματα στην προστασία των δικαιωμάτων των δημιουργών.

Το περιεχόμενο πολυμέσων, όπως φωτογραφίες και βίντεο, ολοκλήρωσε την υιοθέτηση μεγάλης κλίμακας στην αλυσίδα στην ανοδική αγορά του 2021 και το περιεχόμενο UGC στις κοινωνικές πλατφόρμες εμφανίζεται επίσης αθόρυβα στην αλυσίδα. Ταυτόχρονα, πολλές πλατφόρμες μοντέλων web3 AI δίνουν ήδη κίνητρα στους απλούς χρήστες που συμβάλλουν στην εκπαίδευση μοντέλων, είτε είναι κάτοχοι δεδομένων είτε εκπαιδευτές.

Η εκθετική ανάπτυξη μοντέλων τεχνητής νοημοσύνης έχει θέσει μεγαλύτερες απαιτήσεις για επαλήθευση δεδομένων Οι δημιουργοί θα πρέπει να σκεφτούν: Γιατί πουλήθηκε η δουλειά μου σε μια εταιρεία μοντέλων τεχνητής νοημοσύνης για 5 σεντς το τεμάχιο χωρίς τη συγκατάθεσή μου; Γιατί αγνοούσα την όλη διαδικασία και δεν μπορούσα να αποκομίσω κανένα όφελος;

Οι προσπάθειες της πλατφόρμας πολυμέσων να πιάσει τα μεγάλα ψάρια δεν μπορούν να μετριάσουν το άγχος δεδομένων των εταιρειών μοντέλων τεχνητής νοημοσύνης Η προϋπόθεση για την επίτευξη δεδομένων υψηλής ποιότητας και υψηλής απόδοσης είναι η επιβεβαίωση των δικαιωμάτων δεδομένων, η οποία είναι μια λογική κατανομή των ενδιαφερόντων μεταξύ των δημιουργών, των πλατφορμών και της τεχνητής νοημοσύνης. μοντέλα εταιρειών.

Πηγές αναφοράς:

Η Shutterstock έκανε 104 εκατομμύρια δολάρια αδειοδοτώντας περιουσιακά στοιχεία σε προγραμματιστές AI πέρυσι (PetaPixel)
Όλες οι εταιρείες φωτογραφιών που έχουν συνάψει συμφωνίες αδειοδότησης με εταιρείες τεχνητής νοημοσύνης (PetaPixel)
Το Reddit έχει μια νέα συμφωνία εκπαίδευσης AI για την πώληση περιεχομένου χρηστών (TheEverge)
Το GPT-4 καταναλώνει όλα τα δεδομένα στο σύμπαν! Το OpenAI έχει εμπλακεί σε αγωγές η μία μετά την άλλη λόγω έλλειψης δεδομένων και ένας καθηγητής στο UC Berkeley εξέδωσε μια προειδοποίηση (Xinzhiyuan)
Η OpenAI εξαγοράζει τη Rockset (OpenAI)

Νέα

Τα δεδομένα τεχνητής νοημοσύνης ξεσπούν "πετρελαϊκή κρίση", οι εταιρείες περιεχομένου μπορούν απλώς να μείνουν πίσω και να κερδίσουν χρήματα

Εισαγωγή

τα στοιχεία επικοινωνίας μου