Νέα

"Όλα τα δεδομένα κειμένου υψηλής ποιότητας στο Διαδίκτυο θα χρησιμοποιούνται έως το 2028"

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η εταιρεία ερευνών Epoch AI προβλέπει ότι όλα τα δεδομένα κειμένου υψηλής ποιότητας στο Διαδίκτυο θα χρησιμοποιούνται έως το 2028 και τα σύνολα δεδομένων μηχανικής εκμάθησης ενδέχεται να εξαντλήσουν όλα τα "δεδομένα γλώσσας υψηλής ποιότητας" έως το 2026.

Οι ερευνητές επισημαίνουν ότι η εκπαίδευση των μελλοντικών γενεών μοντέλων μηχανικής μάθησης σε σύνολα δεδομένων που παράγονται από την τεχνητή νοημοσύνη (AI) μπορεί να οδηγήσει σε «κατάρρευση μοντέλου». Το θέμα του αν υπάρχει έλλειψη δεδομένων εκπαίδευσης για μεγάλα μοντέλα τεχνητής νοημοσύνης έχει γίνει για άλλη μια φορά ένα καυτό θέμα στα μέσα ενημέρωσης πρόσφατα.

Πρόσφατα, το περιοδικό The Economist δημοσίευσε ένα άρθρο με τίτλο «Οι εταιρείες AI σύντομα θα εξαντλήσουν τα περισσότερα από τα δεδομένα του Διαδικτύου», επισημαίνοντας ότι καθώς τα δεδομένα υψηλής ποιότητας του Διαδικτύου στεγνώνουν, οι εταιρείες τεχνητής νοημοσύνης θα εξαντλήσουν σύντομα τα περισσότερα από τα δεδομένα του Διαδικτύου «τείχος δεδομένων». Για τις μεγάλες εταιρείες μοντέλων τεχνητής νοημοσύνης, η πρόκληση τώρα είναι να βρουν νέες πηγές δεδομένων ή βιώσιμες εναλλακτικές λύσεις.

Το άρθρο ανέφερε την πρόβλεψη της ερευνητικής εταιρείας Epoch AI ότι όλα τα δεδομένα κειμένου υψηλής ποιότητας στο Διαδίκτυο θα χρησιμοποιούνται έως το 2028 και τα σύνολα δεδομένων μηχανικής εκμάθησης ενδέχεται να εξαντλήσουν όλα τα "δεδομένα γλώσσας υψηλής ποιότητας" έως το 2026. Αυτό το φαινόμενο είναι γνωστό στη βιομηχανία ως «τείχος δεδομένων». Ο τρόπος αντιμετώπισης του "τείχους δεδομένων" είναι ένα από τα σημαντικότερα ζητήματα που αντιμετωπίζουν σήμερα οι εταιρείες τεχνητής νοημοσύνης και μπορεί επίσης να είναι το ζήτημα που είναι πιο πιθανό να επιβραδύνει την εκπαίδευσή τους. Το άρθρο επισημαίνει ότι καθώς τα δεδομένα προ-προπόνησης στο Διαδίκτυο στεγνώνουν, η μετεκπαίδευση γίνεται πιο σημαντική. Οι εταιρείες ετικετών όπως η Scale AI και η Surge AI κερδίζουν εκατοντάδες εκατομμύρια δολάρια κάθε χρόνο συλλέγοντας δεδομένα μετά την εκπαίδευση.


Το περιοδικό Economist παραθέτει το διάγραμμα Epoch AI

Στην πραγματικότητα, υπάρχουν εδώ και καιρό φωνές στον κλάδο σχετικά με την «εξάντληση δεδομένων». Το Paper έχει παρατηρήσει ότι στις αρχές Ιουλίου 2023, ο Stuart Russell, καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο της Καλιφόρνια, στο Berkeley και συγγραφέας του "Artificial Intelligence - Modern Approaches", προειδοποίησε ότι τα ρομπότ που βασίζονται σε τεχνητή νοημοσύνη, όπως το ChatGPT, ενδέχεται σύντομα να "εξαντλήσουν το κείμενο στο σύμπαν», η τεχνολογία για την εκπαίδευση ρομπότ με τη συλλογή μεγάλων ποσοτήτων κειμένου «αρχίζει να αντιμετωπίζει δυσκολίες.

Υπάρχουν όμως και διαφορετικές φωνές στον κλάδο. Σε μια συνέντευξη με την τεχνολογική δημοσιογράφο του Bloomberg Emily Chang τον Μάιο του 2024, η Li Feifei, διάσημη επιστήμονας υπολογιστών, συνδιευθύντρια του Εργαστηρίου Τεχνητής Νοημοσύνης του Πανεπιστημίου του Στάνφορντ και καθηγήτρια στο Πανεπιστήμιο του Στάνφορντ, κατέστησε σαφές ότι δεν συμφωνούσε με το «Τα μοντέλα AI εξαντλούνται από δεδομένα για εκπαίδευση» είναι μια πιο απαισιόδοξη άποψη. Ο Λι Φεϊφέι πιστεύει ότι αυτή η άποψη είναι πολύ στενή. Από την οπτική γωνία μόνο των μοντέλων γλώσσας, υπάρχει ακόμη μεγάλος αριθμός διαφοροποιημένων δεδομένων που περιμένουν να εξορυχθούν για τη δημιουργία πιο προσαρμοσμένων μοντέλων.

Σήμερα, μία από τις λύσεις στο πρόβλημα των περιορισμένων δεδομένων εκπαίδευσης είναι η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανή και επομένως απεριόριστα. Αλλά τα συνθετικά δεδομένα ενέχουν επίσης τον κίνδυνο συνθετικών δεδομένων Ένα έγγραφο επιστήμης υπολογιστών που δημοσιεύτηκε στο διεθνές ακαδημαϊκό περιοδικό Nature στις 24 Ιουλίου επισήμανε ότι η εκπαίδευση μελλοντικών γενιών μοντέλων μηχανικής μάθησης με σύνολα δεδομένων που παράγονται από τεχνητή νοημοσύνη (AI) μπορεί να μολύνει τα δεδομένα τους. Έξοδος, αυτή η έννοια ονομάζεται "κατάρρευση μοντέλου". Επειδή τα μοντέλα εκπαιδεύονται σε μολυσμένα δεδομένα, καταλήγουν να παρερμηνεύουν την πραγματικότητα.

Η ερευνητική ομάδα έδειξε στη μελέτη ότι στην εργασία εκμάθησης μεγάλων γλωσσικών μοντέλων, η ουρά της υποκείμενης διανομής είναι σημαντική. Στο μέλλον, οι άνθρωποι θα είναι ολοένα και πιο πολύτιμα δεδομένα για αλληλεπιδράσεις μεγάλων γλωσσικών μοντέλων. Ωστόσο, η ερευνητική ομάδα ανέφερε επίσης ότι τα δεδομένα που δημιουργούνται από την τεχνητή νοημοσύνη δεν είναι εντελώς ανεπιθύμητα, αλλά τα δεδομένα πρέπει να φιλτράρονται αυστηρά. Για παράδειγμα, στα δεδομένα εκπαίδευσης κάθε μοντέλου γενιάς, κρατήστε το 10% ή το 20% των αρχικών δεδομένων, μπορείτε επίσης να χρησιμοποιήσετε διαφορετικά δεδομένα, όπως δεδομένα που δημιουργούνται από ανθρώπους ή να μελετήσετε πιο ισχυρούς αλγόριθμους εκπαίδευσης.