Εάν τα δεδομένα AI δεν είναι αρκετά, μπορούμε να χρησιμοποιήσουμε χαρτιά για να το "φτιάξουμε";

2024-08-17

14 Αυγούστου

Ο επίσημος ιστότοπος Nature δημοσίευσε ένα άρθρο που αναφέρει ότι

Αρκετοί ακαδημαϊκοί εκδότες επενδύουν σε εταιρείες τεχνολογίας

Πώληση δικαιωμάτων χρήσης ερευνητικών εργασιών

Χρησιμοποιείται για την εκπαίδευση μοντέλων AI

Σε πολλές περιπτώσεις αυτές οι συναλλαγές

Δεν ζητήθηκε η γνώμη του συγγραφέα

Αυτό προκάλεσε έντονη δυσαρέσκεια σε ορισμένους ερευνητές.

Χαρτιά που «πρόδωσαν»

Κλίμακα φύσης

Βρετανοί ακαδημαϊκοί εκδότες

Τέιλορ Φράνσις

Έχει ήδη υπογράψει συμφωνία με τη Microsoft

Συμφωνία ύψους 10 εκατομμυρίων δολαρίων

Επιτρέψτε στη Microsoft να έχει πρόσβαση στα δεδομένα της

για τη βελτίωση των συστημάτων AI

Τον Ιούνιο, υπήρχαν νέα ότι

Αμερικανός εκδότης Wiley

Επιτρέψτε σε μια εταιρεία να χρησιμοποιεί το περιεχόμενό της για την εκπαίδευση μοντέλων

κερδίζοντας έτσι 23 εκατομμύρια δολάρια

Κλίμακα φύσης

Αυτά τα χαρτιά καλύπτουν

Φυσικές επιστήμες, κοινωνικές επιστήμες και άλλοι τομείς

Έχει γίνει ένα σημαντικό σώμα για την εκπαίδευση μοντέλων AI.

Ένα ρομπότ ζωγραφικής παρουσίασε ζωγραφική στην «Παγκόσμια Σύνοδο Κορυφής της Τεχνητής Νοημοσύνης για την Ανθρωπότητα» του 2024 στη Γενεύη της Ελβετίας.

Πηγή: Πρακτορείο Ειδήσεων Xinhua

Το άρθρο της φύσης σκέφτεται

Τρέχοντες συγγραφείς ακαδημαϊκών εργασιών

Όταν αντιμετωπίζουν εκδότες που πωλούν τα έργα τους που προστατεύονται από πνευματικά δικαιώματα

σχεδόν κανένα δικαίωμα παρέμβασης

Για δημοσιευμένα άρθρα

Δεν υπάρχει μηχανισμός επιβεβαίωσης αυτού του περιεχομένου

Είτε χρησιμοποιείται ως δεδομένα εκπαίδευσης AI

Στη χρήση μεγάλων γλωσσικών μοντέλων

Πώς να δημιουργήσετε έναν δικαιότερο μηχανισμό

Προστασία των δικαιωμάτων των δημιουργών

Αξίζει εκτενούς συζήτησης στον ακαδημαϊκό χώρο και στους κύκλους πνευματικών δικαιωμάτων

Δεν υπάρχουν αρκετά δεδομένα AI

Χαρτιά για "μακιγιάζ"

Τρία κύρια στοιχεία για την ανάπτυξη μεγάλων μοντέλων τεχνητής νοημοσύνης

Είναι δεδομένα, αλγόριθμοι και υπολογιστική ισχύς

Με την ταχεία ανάπτυξη της τεχνολογίας AI

Αυξανόμενη ζήτηση για δεδομένα εκπαίδευσης

Κάποια μέσα ενημέρωσης είπαν

τέλος του 2021

Εκπαίδευση OpenAI GPT-4

αντιμετώπισε ένα δύσκολο πρόβλημα

Η εκπαίδευσή του έχει εξαντληθεί στο διαδίκτυο

Αξιόπιστος πόρος αγγλικού κειμένου

τότε

Προκειμένου να αντιμετωπιστεί αυτό το πρόβλημα

Το OpenAI χρησιμοποιεί βίντεο και ήχο από την πλατφόρμα Youtube

Μεταγράψτε μεγάλους όγκους συνομιλητικού κειμένου

Εκπαίδευση μετά

Στις 2 Ιουλίου, τα μέλη του προσωπικού επικοινώνησαν με ψηφιακούς ανθρώπους στον τομέα της καθηλωτικής εμπειρίας της ψηφιακής οικονομίας του Παγκόσμιου Συνεδρίου Ψηφιακής Οικονομίας 2024.

Φωτογραφία από τον δημοσιογράφο του ειδησεογραφικού πρακτορείου Xinhua, Ρεν Τσάο

τώρα

Οι τεχνολογικοί γίγαντες στρέφουν την εστίασή τους σε

ακαδημαϊκός εκδότης

ακαδημαϊκές εργασίες όπως

Η αποκρυστάλλωση της σοφίας στον τομέα της επιστημονικής έρευνας

Γίνετε η «καυτή τούρτα» που ο κόσμος βιάζεται να αγοράσει.

Πάρτε ως παράδειγμα την επεξεργασία φυσικής γλώσσας

Μέσω της εκπαίδευσης σε μεγάλο αριθμό εργασιών

Τα μοντέλα AI μπορούν να κατανοήσουν καλύτερα

γνώσεις ακαδημαϊκού τομέα

βελτιώσει την ακρίβειά του

Κολοσσοί τεχνολογίας όπως η Google και η Microsoft

Έχουν επενδύσει πολλά στην αγορά corpora

Προκειμένου να αποκτήσει ανταγωνιστικό πλεονέκτημα στον τομέα της ΑΙ

Οι Financial Times έβαλαν το δικό τους περιεχόμενο

σε σεβαστή τιμή

Πωλήθηκε στο OpenAI

Ο ιστότοπος κοινωνικής ειδήσεων Reddit

Έκανε επίσης παρόμοια συμφωνία με την Google

Αυτές οι συναλλαγές αντανακλούν

Οι εκδότες προσπαθούν να εξουσιοδοτήσουν νόμιμα

Αποφύγετε την ανίχνευση του περιεχομένου σας από μοντέλα AI δωρεάν

Δίλημμα δεδομένων προπόνησης

Πώς να σπάσετε το παιχνίδι

Συνεργαστείτε με εκδότες

Μόνο οι εταιρείες τεχνολογίας το λύνουν

Η επιτομή του προβλήματος των ανεπαρκών προπονητικών δεδομένων

Πρόσφατα

Το περιοδικό Economist δημοσιεύει άρθρο

"Οι εταιρείες τεχνητής νοημοσύνης θα χρησιμοποιήσουν σύντομα τα περισσότερα από τα δεδομένα του Διαδικτύου"

Προβλέψτε τι είναι διαθέσιμο στο Διαδίκτυο

Τα δεδομένα ανθρώπινου κειμένου θα εξαντληθούν σε τέσσερα χρόνια

Στις 23 Απριλίου, στη Βιομηχανική Έκθεση του Αννόβερου στη Γερμανία, οι επισκέπτες έπαιξαν το παιχνίδι «πέτρα, χαρτί, ψαλίδι» με ένα έξυπνο ρομπότ.

Φωτογραφία από τον δημοσιογράφο του ειδησεογραφικού πρακτορείου Xinhua, Ρεν Πενγκφέι

Αντιμέτωποι με ένα τέτοιο πρόβλημα

Ο ιδρυτής και διευθύνων σύμβουλος του OpenAI Sam Altman

Έχει προταθεί μια λύση:

Εταιρείες όπως το OpenAI

Τελικά θα υπάρξει μια στροφή στη χρήση δεδομένων που δημιουργούνται από AI

(γνωστά και ως συνθετικά δεδομένα) για την εκπαίδευση της τεχνητής νοημοσύνης

Οι προγραμματιστές δημιουργούν όλο και πιο ισχυρές τεχνολογίες ενώ

Θα μείωνε επίσης την εξάρτηση από δεδομένα που προστατεύονται από πνευματικά δικαιώματα

σίγουρα

Είναι εφικτή αυτή η τεχνική διαδρομή;

Υπάρχει ακόμα διαμάχη

Ένα άρθρο εξωφύλλου στο περιοδικό Nature υποστήριξε αυτό

Εάν το μεγάλο μοντέλο επιτρέπεται να

Εκπαιδεύστε τον εαυτό σας με δεδομένα που δημιουργούνται αυτόματα

Η τεχνητή νοημοσύνη μπορεί να υποβαθμιστεί

Σε λίγες μόνο γενιές, το πρωτότυπο περιεχόμενο

Επαναλαμβάνεται σε ανεπανόρθωτη ανοησία

Εκτός από τις μεθόδους συνθετικών δεδομένων

Περαιτέρω ανοιχτή κοινή χρήση δημόσιων δεδομένων

θεωρείται επίσης αποτελεσματικό μονοπάτι

Έκθεση Industrial Securities επισήμανε ότι

Ενίσχυση της ανοιχτής ανάπτυξης των δημόσιων δεδομένων

είναι η τρέχουσα λύση για τη διασπορά δεδομένων

Σημαντικά μέτρα για τη βελτίωση της ποιότητας των δεδομένων εκπαίδευσης

Γράφτηκε από:Li Fei, Ma Jingyuan στοιχειοθεσία:Li Wenjian Συντονιστής:Λι Ζενγκγουέι

Αναφορά 丨Nature, The Paper, China Financial News Agency, 21st Century Business Herald

Παραγωγή Guangming.com

Πηγή: World Internet Conference

Αναφορά/Σχόλια

νέα

Εάν τα δεδομένα AI δεν είναι αρκετά, μπορούμε να χρησιμοποιήσουμε χαρτιά για να το "φτιάξουμε";

Εισαγωγή

Τα στοιχεία επικοινωνίας μου