Οι ακαδημαϊκές εργασίες πωλούνται σε υψηλές τιμές για την εκπαίδευση μεγάλων μοντέλων, αλλά οι συγγραφείς λαμβάνουν μηδενικό εισόδημα

2024-08-16

·Ένας αυξανόμενος αριθμός ακαδημαϊκών εκδοτών πωλούν ερευνητικές εργασίες σε εταιρείες τεχνολογίας για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης (AI), ενώ οι συγγραφείς λαμβάνουν μηδενικό εισόδημα.

Τα μεγάλα γλωσσικά μοντέλα (LLM) προκάλεσαν για άλλη μια φορά διαμάχη λόγω προβλημάτων δεδομένων εκπαίδευσης. Πρόσφατα, η Elizabeth Gibney, συντάκτρια του διεθνούς φήμης περιοδικού Nature, δημοσίευσε ένα άρθρο με τίτλο "Χρησιμοποιήθηκε η εργασία σας για την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης;" Σχεδόν βέβαιο» άρθρο. Ο συγγραφέας του άρθρου δήλωσε ότι όλο και περισσότεροι ακαδημαϊκοί εκδότες αδειοδοτούν επί του παρόντος ερευνητικές εργασίες σε εταιρείες τεχνολογίας για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης (AI). Ένας ακαδημαϊκός εκδότης κέρδισε 23 εκατομμύρια δολάρια από αυτό, ενώ ο συγγραφέας κέρδισε μηδέν. Αυτές οι συναλλαγές, σε πολλές περιπτώσεις χωρίς διαβούλευση με τους συγγραφείς, έχουν προκαλέσει έντονη δυσαρέσκεια σε ορισμένους ερευνητές.

"Εάν η εργασία σας δεν έχει χρησιμοποιηθεί ακόμη ως δεδομένα εκπαίδευσης τεχνητής νοημοσύνης, είναι πιθανό να γίνει μέρος της εκπαίδευσης σύντομα, η Elizabeth Jipney επεσήμανε στο άρθρο ότι επί του παρόντος οι συγγραφείς ακαδημαϊκών εργασιών δεν έχουν σχεδόν καμία επιλογή όταν αντιμετωπίζουν εκδότες που πωλούν τα έργα τους που προστατεύονται από πνευματικά δικαιώματα." παρεμβολές. Για άρθρα που δημοσιεύονται δημόσια, δεν υπάρχει μηχανισμός που να επιβεβαιώνει εάν αυτά τα περιεχόμενα χρησιμοποιούνται ως δεδομένα εκπαίδευσης AI. Κατά τη χρήση μεγάλων γλωσσικών μοντέλων, το πώς να δημιουργηθεί ένας δικαιότερος μηχανισμός για την προστασία των δικαιωμάτων και των συμφερόντων των δημιουργών αξίζει εκτενούς συζήτησης στους ακαδημαϊκούς κύκλους και στους κύκλους πνευματικών δικαιωμάτων.

Τα μεγάλα γλωσσικά μοντέλα (LLM) βασίζονται συχνά σε μεγάλες ποσότητες δεδομένων που έχουν αφαιρεθεί από το Διαδίκτυο για εκπαίδευση. Αυτά τα δεδομένα περιλαμβάνουν δισεκατομμύρια κομμάτια γλωσσικών πληροφοριών (που ονομάζονται "tokens") και αναλύοντας τα μοτίβα μεταξύ αυτών των διακριτικών, το μοντέλο είναι σε θέση να δημιουργήσει ρέον κείμενο. Λόγω του πλούσιου περιεχομένου τους και της υψηλής πυκνότητας πληροφοριών, οι ακαδημαϊκές εργασίες είναι πιο πολύτιμες από μεγάλες ποσότητες συνηθισμένων δεδομένων και αποτελούν σημαντική πηγή δεδομένων στην εκπαίδευση τεχνητής νοημοσύνης. Ο αναλυτής δεδομένων Stefan Baack από τον παγκόσμιο μη κερδοσκοπικό οργανισμό Mozilla Foundation ανέλυσε ότι οι επιστημονικές εργασίες είναι πολύ χρήσιμες για την εκπαίδευση μεγάλων γλωσσικών μοντέλων, ειδικά όσον αφορά τις ικανότητες συλλογισμού σε επιστημονικά θέματα. Ακριβώς λόγω της υψηλής αξίας των δεδομένων, οι μεγάλες εταιρείες τεχνολογίας έχουν ξοδέψει τεράστια χρηματικά ποσά για την αγορά συνόλων δεδομένων.

Το άρθρο επεσήμανε ότι φέτος οι Financial Times κατέληξαν σε συμφωνία με την OpenAI για την άδεια χρήσης του περιεχομένου της στο τελευταίο, γνωστό ως "American Tieba", υπέγραψε επίσης μια παρόμοια συμφωνία με την Google. Αυτές οι συμφωνίες αντικατοπτρίζουν τις προσπάθειες των εκδοτών να αποφύγουν την ανίχνευση του περιεχομένου τους από μοντέλα τεχνητής νοημοσύνης δωρεάν μέσω νομικής εξουσιοδότησης.

Το άρθρο αποκάλυψε ότι τον περασμένο μήνα, ο Βρετανός ακαδημαϊκός εκδότης Taylor & Francis υπέγραψε συμφωνία 10 εκατομμυρίων δολαρίων με τη Microsoft, επιτρέποντας στη Microsoft να έχει πρόσβαση στα δεδομένα της για τη βελτίωση των συστημάτων τεχνητής νοημοσύνης. Τον Ιούνιο, ο Αμερικανός εκδότης Wiley κέρδισε έως και 23 εκατομμύρια δολάρια παρέχοντας περιεχόμενο σε μια εταιρεία για εκπαίδευση τεχνητής νοημοσύνης. Και αυτά τα τεράστια εισοδήματα δεν έχουν καμία σχέση με τους συντάκτες των εφημερίδων.

Επί του παρόντος, οι ερευνητές προσπαθούν να χρησιμοποιήσουν τεχνικά μέσα για να βοηθήσουν τους συγγραφείς να προσδιορίσουν εάν τα έργα τους έχουν χρησιμοποιηθεί για εκπαίδευση μοντέλων AI. Η Lucy Lu Wang, ερευνήτρια τεχνητής νοημοσύνης στο Πανεπιστήμιο της Ουάσιγκτον στο Σιάτλ, είπε ότι εάν ένα χαρτί έχει χρησιμοποιηθεί ως δεδομένα εκπαίδευσης για ένα μοντέλο, δεν μπορεί να αφαιρεθεί μετά την ολοκλήρωση της εκπαίδευσης του μοντέλου.

Ωστόσο, ακόμη και αν μπορεί να αποδειχθεί ότι το χαρτί χρησιμοποιείται για εκπαίδευση τεχνητής νοημοσύνης, εξακολουθεί να αντιμετωπίζει διαμάχες σε νομικό επίπεδο. Το άρθρο επισημαίνει ότι ο εκδότης πιστεύει ότι η χρήση μη εξουσιοδοτημένου περιεχομένου που προστατεύεται από πνευματικά δικαιώματα για εκπαίδευση αποτελεί παραβίαση.

Αξίζει να σημειωθεί ότι δεν είναι όλοι οι ερευνητές αντίθετοι στη χρήση της εργασίας τους για εκπαίδευση τεχνητής νοημοσύνης. Ο Stefan Back είπε ότι θα χαρεί να δει τα αποτελέσματα της έρευνάς του να χρησιμοποιούνται για τη βελτίωση της ακρίβειας της τεχνητής νοημοσύνης και δεν θα τον πείραζε αν το AI «μιμείται» το στυλ γραφής του. Ωστόσο, αναγνώρισε επίσης ότι δεν θα μπορέσουν όλοι να αντιμετωπίσουν αυτό το πρόβλημα εύκολα, ειδικά εκείνοι σε επαγγέλματα που αντιμετωπίζουν την πίεση του ανταγωνισμού από την τεχνητή νοημοσύνη, όπως οι καλλιτέχνες και οι συγγραφείς.

Στην πραγματικότητα, οι δικαστικές υποθέσεις σχετικά με τη χρήση πνευματικών έργων που προστατεύονται από πνευματικά δικαιώματα για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης έχουν προσελκύσει ευρεία προσοχή στο παρελθόν.

Στις 14 Αυγούστου, η Washington Post ανέφερε ότι μια ομαδική αγωγή που κατατέθηκε από πολλούς εικαστικούς καλλιτέχνες και εικονογράφους στις Ηνωμένες Πολιτείες κατά των εργαλείων δημιουργίας εικόνων AI έχει σημειώσει σημαντική πρόοδο. Κατηγόρησαν startups όπως το Midjourney και το Stability AI ότι χρησιμοποιούν έργα για να εκπαιδεύουν μοντέλα τεχνητής νοημοσύνης χωρίς συγκατάθεση. Η υπόθεση είχε σημαντικές εξελίξεις αυτή την εβδομάδα. Ο περιφερειακός δικαστής των ΗΠΑ, William Orrick, επέτρεψε σε βασικά μέρη της υπόθεσης να προχωρήσουν, πράγμα που σημαίνει ότι το δικαστήριο αποφάσισε ότι υπάρχουν αρκετά νομικά στοιχεία για να προχωρήσουν ορισμένες κατηγορίες, τα οποία θα μπορούσαν να αποκαλυφθούν καθώς προχωρούν οι εσωτερικές επικοινωνίες της εταιρείας καθώς αναπτύσσει AI εργαλεία.

νέα

Οι ακαδημαϊκές εργασίες πωλούνται σε υψηλές τιμές για την εκπαίδευση μεγάλων μοντέλων, αλλά οι συγγραφείς λαμβάνουν μηδενικό εισόδημα

Εισαγωγή

Τα στοιχεία επικοινωνίας μου