νέα

Η φύση αποκαλύπτει συγκλονιστικές πληροφορίες εκ των έσω: Τα χαρτιά πουλήθηκαν σε υψηλές τιμές για να τροφοδοτήσουν την τεχνητή νοημοσύνη! Οι εκδότες βγάζουν εκατοντάδες εκατομμύρια, οι συγγραφείς κερδίζουν μηδέν

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης
[Εισαγωγή στη Νέα Σοφία]Ένα άρθρο στο Nature αποκάλυψε: Η εργασία που δημοσιεύσατε μπορεί να χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου! Ορισμένοι εκδότες έχουν κερδίσει 23 εκατομμύρια δολάρια πουλώντας δεδομένα. Ωστόσο, οι συγγραφείς που εργάστηκαν σκληρά για να κωδικοποιήσουν το χαρτί δεν μπορούν να πάρουν μια δεκάρα Είναι λογικό;

Ο κόσμος βρίσκεται σε κρίση δεδομένων, τι πρέπει να κάνουμε;
Τα χαρτιά ενώνονται!
Πρόσφατα, ένα άρθρο στο Nature μας αποκάλυψε το γεγονός ότι ακόμη και επιστημονικές ερευνητικές εργασίες έχουν χρησιμοποιηθεί για την εκπαίδευση της τεχνητής νοημοσύνης...
Αναφέρεται ότι πολλοί ακαδημαϊκοί εκδότες έχουν εξουσιοδοτήσει εταιρείες τεχνολογίας να έχουν πρόσβαση στις δικές τους εργασίες για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Ένα χαρτί, από τον ιδεασμό μέχρι την οριστικοποίηση, περιλαμβάνει τη σκληρή δουλειά του συγγραφέα μέρα και νύχτα Τώρα, είναι πολύ πιθανό να γίνει δεδομένα για την εκπαίδευση της τεχνητής νοημοσύνης χωρίς να το γνωρίζει.
Είναι λογικό αυτό;
Αυτό που είναι ακόμα πιο ενοχλητικό είναι ότι το χαρτί του χρησιμοποιήθηκε από τον εκδότη για να αποκομίσει κέρδη.
Σύμφωνα με έκθεση του Nature, τον περασμένο μήνα ο Βρετανός ακαδημαϊκός εκδότης Taylor & Francis υπέγραψε συμφωνία 10 εκατομμυρίων δολαρίων με τη Microsoft, επιτρέποντας στη Microsoft να έχει πρόσβαση στα δεδομένα της για τη βελτίωση των συστημάτων AI.
Μια ενημέρωση επενδυτών τον Ιούνιο έδειξε ότι ο Αμερικανός εκδότης Wiley πραγματοποίησε τεράστιο κέρδος 23 εκατομμυρίων δολαρίων, αφού επέτρεψε σε μια εταιρεία να χρησιμοποιήσει το μοντέλο εκπαίδευσης περιεχομένου της!
Αλλά αυτά τα χρήματα δεν έχουν καμία σχέση με τους συγγραφείς των περισσότερων εγγράφων.
Επιπλέον, η Lucy Lu Wang, ερευνήτρια τεχνητής νοημοσύνης στο Πανεπιστήμιο της Ουάσιγκτον, είπε επίσης ότι ακόμα κι αν δεν βρίσκεται σε αποθετήριο ανοιχτής πρόσβασης, οποιοδήποτε περιεχόμενο μπορεί να διαβαστεί στο διαδίκτυο πιθανότατα έχει εισαχθεί στο LLM.
Αυτό που είναι ακόμη πιο τρομακτικό είναι ότι εάν ένα χαρτί έχει χρησιμοποιηθεί ως δεδομένα εκπαίδευσης για το μοντέλο, δεν μπορεί να διαγραφεί μετά την ολοκλήρωση της εκπαίδευσης του μοντέλου.
Εάν το χαρτί σας δεν έχει χρησιμοποιηθεί ακόμα για την εκπαίδευση της τεχνητής νοημοσύνης, μην ανησυχείτε – θα είναι σύντομα!

Τα σύνολα δεδομένων είναι σαν τον χρυσό και οι μεγάλες εταιρείες υποβάλλουν προσφορές για αυτά


Όλοι γνωρίζουμε ότι το LLM πρέπει να εκπαιδευτεί σε τεράστια δεδομένα, και αυτά τα δεδομένα συνήθως λαμβάνονται από το Διαδίκτυο.
Είναι από τα δισεκατομμύρια διακριτικά σε αυτά τα δεδομένα εκπαίδευσης που το LLM αντλεί μοτίβα για τη δημιουργία κειμένου, εικόνων και κώδικα.
Οι ακαδημαϊκές εργασίες είναι μεγάλες και έχουν υψηλή πυκνότητα πληροφοριών, επομένως είναι προφανώς ένα από τα πιο πολύτιμα δεδομένα που μπορούν να τροφοδοτηθούν στο LLM.
Επιπλέον, η εκπαίδευση των LLM σε μεγάλο όγκο επιστημονικών πληροφοριών μπορεί επίσης να βελτιώσει σημαντικά τις ικανότητές τους συλλογιστικής σε επιστημονικά θέματα.
Ο Wang συνδημιούργησε το S2ORC, ένα σύνολο δεδομένων που βασίζεται σε 81,1 εκατομμύρια ακαδημαϊκές εργασίες. Αρχικά, το σύνολο δεδομένων S2ORC αναπτύχθηκε για εξόρυξη κειμένου, αλλά αργότερα χρησιμοποιήθηκε για την εκπαίδευση του LLM.
Το Pile, που κατασκευάστηκε από τον μη κερδοσκοπικό οργανισμό Eleuther AI το 2020, είναι ένα από τα πιο ευρέως χρησιμοποιούμενα σύνολα δεδομένων ανοιχτού κώδικα μεγάλης κλίμακας στην έρευνα NLP, με συνολικό όγκο 800 GB. Περιέχει μεγάλο αριθμό κειμένων από ακαδημαϊκές πηγές, με το ποσοστό των εργασιών arXiv να είναι 8,96%.
Πριν από λίγο καιρό, το σύνολο δεδομένων ανοιχτού κώδικα 1T MINT ανακάλυψε επίσης τον θησαυρό arXiv, εξάγοντας συνολικά 870.000 έγγραφα και 9 δισεκατομμύρια μάρκες.
Από το παρακάτω διάγραμμα ροής επεξεργασίας δεδομένων, μπορούμε να δούμε πόσο υψηλή είναι η ποιότητα των δεδομένων του χαρτιού - δεν υπάρχει σχεδόν καμία ανάγκη για πολύ φιλτράρισμα και αντιγραφή και το ποσοστό χρήσης είναι εξαιρετικά υψηλό.
Τώρα, ως απάντηση σε διαφωνίες πνευματικών δικαιωμάτων, μεγάλες εταιρείες μοντελοποίησης έχουν αρχίσει να προσφέρουν πραγματικά χρήματα για να αγοράσουν σύνολα δεδομένων υψηλής ποιότητας.
Φέτος, οι Financial Times πούλησαν το περιεχόμενό τους στο OpenAI για μια σημαντική τιμή και το Reddit έχει καταλήξει σε παρόμοια συμφωνία με την Google.
Στο μέλλον, τέτοιες συναλλαγές θα γίνουν αναπόφευκτες.

Η απόδειξη ότι το χαρτί έχει χρησιμοποιηθεί από το LLM είναι εξαιρετικά δύσκολο


Ορισμένοι προγραμματιστές τεχνητής νοημοσύνης θα ανοίξουν τα δικά τους σύνολα δεδομένων, αλλά πολλές εταιρείες που αναπτύσσουν μοντέλα τεχνητής νοημοσύνης θα κρατήσουν εμπιστευτικά τα περισσότερα από τα εκπαιδευτικά τους δεδομένα.
Ο Stefan Baack, αναλυτής δεδομένων εκπαίδευσης τεχνητής νοημοσύνης στο Ίδρυμα Mozilla, είπε ότι κανείς δεν γνωρίζει ποια δεδομένα εκπαίδευσης έχουν αυτές οι εταιρείες.
Οι πιο δημοφιλείς πηγές δεδομένων μεταξύ των εμπειρογνωμόνων του κλάδου είναι αναμφίβολα περιλήψεις από το αποθετήριο ανοιχτού κώδικα arXiv και την ακαδημαϊκή βάση δεδομένων PubMed.
Επί του παρόντος, το arXiv φιλοξενεί το πλήρες κείμενο περισσότερων από 2,5 εκατομμυρίων εργασιών και το PubMed περιέχει έναν εκπληκτικό αριθμό αναφορών, που ξεπερνά τα 37 εκατομμύρια.
Αν και το πλήρες κείμενο ορισμένων εγγράφων σε ιστότοπους όπως το PubMed έχει paywall, οι περιλήψεις των εγγράφων είναι δωρεάν για περιήγηση και αυτό το μέρος μπορεί να έχει ανιχνευθεί από μεγάλες εταιρείες τεχνολογίας.
Λοιπόν, υπάρχει κάποια τεχνική μέθοδος για να διαπιστωθεί εάν έχει χρησιμοποιηθεί το χαρτί κάποιου;
Προς το παρόν, είναι ακόμα δύσκολο.
Ο Yves-Alexandre de Montjoye, ένας επιστήμονας υπολογιστών στο Imperial College του Λονδίνου, είπε: Είναι πολύ δύσκολο να αποδειχθεί ότι το LLM χρησιμοποίησε ένα συγκεκριμένο χαρτί.
Ένας τρόπος είναι να χρησιμοποιήσετε πολύ σπάνιες προτάσεις στο έντυπο κείμενο για να προτρέψετε το μοντέλο και να δείτε εάν η έξοδος του είναι η επόμενη λέξη στο αρχικό κείμενο.

Κάποτε κάποιοι μελετητές ώθησαν το GPT-3 με την αρχή του τρίτου κεφαλαίου του "Harry Potter and the Philosopher's Stone" και το μοντέλο γρήγορα και σωστά έφτυσε περίπου μια ολόκληρη σελίδα του περιεχομένου του βιβλίου.
Αν ναι, τότε έχει φύγει—το χαρτί βρίσκεται στο σετ εκπαίδευσης του μοντέλου.
Κι αν όχι; Αυτό δεν είναι απαραίτητα έγκυρη απόδειξη ότι το χαρτί δεν έχει χρησιμοποιηθεί.
Επειδή οι προγραμματιστές μπορούν να κωδικοποιήσουν τα LLM έτσι ώστε να φιλτράρουν τις απαντήσεις ώστε να μην ταιριάζουν πολύ με τα δεδομένα εκπαίδευσης.
Είναι πιθανό, παρά τις προσπάθειές μας, να μην μπορούμε ακόμα να το αποδείξουμε κατηγορηματικά.
Μια άλλη μέθοδος είναι η "επίθεση συμπερασμάτων μέλους".
Η αρχή αυτής της μεθόδου είναι ότι όταν το μοντέλο δει κάτι που έχει δει στο παρελθόν, θα είναι πιο σίγουρο για την έξοδο.
Για το σκοπό αυτό, η ομάδα του De Montjoye ανέπτυξε ειδικά μια «παγίδα πνευματικών δικαιωμάτων».
Για να δημιουργήσει την παγίδα, η ομάδα θα δημιουργούσε εύλογες αλλά χωρίς νόημα προτάσεις και θα τις έκρυβε στο έργο, όπως λευκό κείμενο σε λευκό φόντο ή πεδίο μηδενικού πλάτους σε μια ιστοσελίδα.
Εάν το μοντέλο είναι πιο μπερδεμένο από αχρησιμοποίητες προτάσεις ελέγχου παρά από προτάσεις ελέγχου που είναι κρυμμένες στο κείμενο, αυτό μπορεί να χρησιμοποιηθεί ως στατιστική απόδειξη ότι η παγίδα έχει δει.

Διαφωνία πνευματικών δικαιωμάτων


Ωστόσο, ακόμα κι αν μπορεί να αποδειχθεί ότι το LLM εκπαιδεύτηκε σε ένα συγκεκριμένο χαρτί, τι μπορούμε να κάνουμε;
Εδώ, υπάρχει μια μακροχρόνια διαμάχη.
Κατά την άποψη του εκδότη, εάν ένας προγραμματιστής χρησιμοποιεί κείμενο που προστατεύεται από πνευματικά δικαιώματα στην εκπαίδευση χωρίς να λάβει άδεια, είναι σίγουρα παραβίαση.
Αλλά το άλλο μέρος μπορεί να το διαψεύσει ως εξής: Το μεγάλο μοντέλο δεν είναι λογοκλοπή, άρα πώς μπορεί να υπάρξει οποιαδήποτε αξίωση για παραβίαση;
Πράγματι, το LLM δεν αντιγράφει τίποτα, απλώς παίρνει πληροφορίες από τα δεδομένα εκπαίδευσης, τα αποσυναρμολογεί και τα χρησιμοποιεί για να μάθει να δημιουργεί νέο κείμενο.
Το πιο περίπλοκο ζήτημα είναι πώς να χαράξουμε μια διαχωριστική γραμμή μεταξύ της εμπορικής και της ακαδημαϊκής χρήσης έρευνας.
Σύμφωνα με τους ισχύοντες όρους χρήσης στον ιστότοπο arXiv, η καταγραφή, αποθήκευση και χρήση όλων των ηλεκτρονικών προεκτυπωτικών εγγράφων και των μεταδεδομένων ιστότοπων συμμορφώνονται και υποστηρίζονται για προσωπικούς ή ερευνητικούς σκοπούς.
Ωστόσο, η εμπορική χρήση του arXiv απαγορεύεται αυστηρά.
Επομένως, το ερώτημα είναι, εάν μια εμπορική εταιρεία χρησιμοποιεί ένα σύνολο δεδομένων ανοιχτού κώδικα που κυκλοφόρησε από ένα ακαδημαϊκό ίδρυμα για να εκπαιδεύσει το επιχειρηματικό της μοντέλο και η πηγή δεδομένων περιλαμβάνει arXiv ή παρόμοια ακαδημαϊκά εκδοτικά ιδρύματα, πώς υπολογίζεται αυτό;
Επιπλέον, οι εκδότες συχνά δεν ορίζουν σαφώς στους όρους συνδρομής των χρηστών εάν τα έγγραφα μπορούν να χρησιμοποιηθούν ως δεδομένα εκπαίδευσης για μοντέλα.