Νέα

Ο Jia Yangqing κέρδισε το βραβείο Time Test για μία από τις εργασίες του, αλλά δεν προκρίθηκε για τις 10 καλύτερες εργασίες στην Κίνα και το βραβείο ICML 2024

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Το πλήρες όνομα του ICML είναι International Conference on Machine Learning Διοργανώνεται από την International Machine Learning Society (IMLS) και είναι το κορυφαίο συνέδριο στον τομέα της τεχνητής νοημοσύνης υπολογιστών.

Το φετινό συνέδριο της ICML είναι το 41ο και αυτή τη στιγμή διεξάγεται στη Βιέννη της Αυστρίας. Στην τελετή έναρξης που μόλις διεξήχθη, η ICML, η οποία γίνεται όλο και πιο δημοφιλής κάθε χρόνο, ανακοίνωσε τα δεδομένα του φετινού συνεδρίου και τις πληροφορίες για τα βραβεία.



Αυτό το κύριο συνέδριο έλαβε συνολικά 9473 έγκυρες εργασίες, από τις οποίες έγιναν δεκτές 2610 εργασίες, με ποσοστό αποδοχής 27,5%, συμπεριλαμβανομένων 144 προφορικών εργασιών και 191 ανακοινώσεων.



Οι θεματικές λέξεις-κλειδιά των αποδεκτών εργασιών είναι: μεγάλο γλωσσικό μοντέλο, ενισχυτική μάθηση, βαθιά μάθηση, νευρωνικό δίκτυο γραφημάτων, μηχανική μάθηση, ομοσπονδιακή μάθηση, μοντέλο διάχυσης, Transformer, LLM, μάθηση αναπαράστασης, γενετικό μοντέλο... Αυτές οι λέξεις-κλειδιά αντιπροσωπεύουν επίσης το τρέχον Η πιο δημοφιλής ερευνητική κατεύθυνση στον τομέα της AI.

Εκτός από αυτά τα δεδομένα, στο συνέδριο ανακοινώθηκαν και τα φετινά Time Test Awards και Best Papers. Το DeCAF, μια εργασία που η Jia Yangqing συνολοκλήρωσε ενώ ήταν στο Berkeley πριν από δέκα χρόνια, κέρδισε το φετινό Time Test Award. Σε σύγκριση με 6 πέρυσι, 10 μελέτες κέρδισαν την καλύτερη εργασία φέτος, συμπεριλαμβανομένου του παγκόσμιου μοντέλου Google DeepMind Genie, του μοντέλου βίντεο VideoPoet κ.λπ. που έγινε δημοφιλής πριν από λίγο καιρό.

Βραβείο Time Tested

Σχετικά με το DeCAF που κέρδισε το βραβείο, η Jia Yangqing είπε στον κύκλο των φίλων, "Από τη σημερινή ορολογία, το DeCAF πρέπει να είναι τα βασικά χαρακτηριστικά και η βαθιά ενσωμάτωση στο οπτικό πεδίο, και επίσης έδωσε στο πεδίο της όρασης υπολογιστή ένα γενικευμένο χαρακτηριστικό. Η δουλειά του DeCAF αργότερα γέννησε το General The object detection framework R-CNN, το υψηλής απόδοσης ετερογενές υπολογιστικό πλαίσιο Caffe, συνέβαλε έμμεσα στη συνεργασία του Berkeley και της NVidia για τη συγγραφή του πλαισίου επιτάχυνσης πρώτης γενιάς CuDNN, του μεγάλης κλίμακας κατανεμημένης εκπαίδευσης CaffeOnSpark που δημιουργήθηκε από την Yahoo Labs και μια σειρά από άλλα έργα, που καθιερώνουν την ηγετική θέση του Μπέρκλεϊ στο κύμα βαθιάς μάθησης».



论文:DeCAF: Μια λειτουργία βαθιάς συνελικτικής ενεργοποίησης για γενική οπτική αναγνώριση

Ηθοποιοί: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Ιδρυμα: UC Berkeley & ICSI, Berkeley, CA, USA

Σύνδεσμος χαρτιού: https://arxiv.org/pdf/1310.1531

Η ερευνητική ομάδα αξιολόγησε εάν τα χαρακτηριστικά που εξάγονται από ενεργοποιήσεις βαθιάς συνελικτικών δικτύων που εκπαιδεύονται με πλήρως εποπτευόμενο τρόπο σε μεγάλης κλίμακας, σταθερό σύνολο εργασιών αναγνώρισης αντικειμένων μπορούν να επανατοποθετηθούν για νέες εργασίες γενικού σκοπού. Αυτές οι γενικές εργασίες μπορεί να διαφέρουν σημαντικά από εκείνες για τις οποίες εκπαιδεύτηκαν αρχικά και ενδέχεται να μην υπάρχουν αρκετά δεδομένα με ετικέτα ή χωρίς ετικέτα για την τακτική εκπαίδευση ή προσαρμογή αρχιτεκτονικών σε βάθος σε νέες εργασίες. Μελετούν και οπτικοποιούν τη σημασιολογική ομαδοποίηση των βαθιών συνελικτικών χαρακτηριστικών σε μια ποικιλία εργασιών, συμπεριλαμβανομένης της αναγνώρισης σκηνής, της προσαρμογής τομέα και των λεπτομερών προκλήσεων αναγνώρισης. Οι ερευνητές συνέκριναν τα αποτελέσματα της στήριξης σε διαφορετικά επίπεδα του δικτύου για τον καθορισμό σταθερών χαρακτηριστικών και ανέφεραν νέα αποτελέσματα που ξεπερνούν σημαντικά τις υπάρχουσες τεχνικές σε πολλές σημαντικές οπτικές προκλήσεις. Κυκλοφόρησαν το DeCAF, μια εφαρμογή ανοιχτού κώδικα χαρακτηριστικών ενεργοποίησης βαθιάς συνελικτικής ενεργοποίησης που περιέχει όλες τις σχετικές παραμέτρους δικτύου για να επιτρέψει στους ερευνητές της όρασης να πειραματιστούν με βαθιές αναπαραστάσεις σε μια σειρά οπτικών παραδειγμάτων εκμάθησης εννοιών.

καλύτερο χαρτί

Paper 1: Scaling Rectified Flow Transformers for High Resolution Image Synthesis

Πρωταγωνιστούν: Πάτρικ Έσερ, Σάμιθ Κούλαλ, Αντρέας Μπλατμάν, Ραχίμ Εντεζάρι, Γιόνας Μύλλερ, Χάρι Σαϊνί, Γιαμ Λέβι, Ντομινίκ Λόρεντζ, Άξελ Σάουερ, Φρέντερικ Μπόσελ, Ντάστιν Πόντελ, Τιμ Ντόκχορν, Σιόν Ιγγλικά, Ρόμπιν Ρόμπαχ

Οργάνωση: Stability AI

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/esser24a.html

Αναφορά Machine Heart: Το χαρτί Stable Diffusion 3 κυκλοφόρησε επιτέλους και αποκαλύφθηκαν οι λεπτομέρειες της αρχιτεκτονικής Θα βοηθήσει στην αναπαραγωγή του Sora;

Αυτό το χαρτί είναι ακριβώς το χαρτί Stable Diffusion 3. Σε σύγκριση με την προηγούμενη έκδοση, η ποιότητα των εικόνων που δημιουργούνται από το Stable Diffusion 3 έχει βελτιωθεί σημαντικά, υποστηρίζει προτροπές πολλαπλών θεμάτων και το εφέ γραφής κειμένου είναι επίσης καλύτερο.



Αρχιτεκτονική του μοντέλου Stable Diffusion 3.

Τα μοντέλα διάχυσης, τα οποία δημιουργούν δεδομένα από το θόρυβο αναστρέφοντας την εμπρός διαδρομή του σε θόρυβο, έχουν αναδειχθεί ως μια ισχυρή τεχνική γενετικής μοντελοποίησης για αισθητήρια δεδομένα υψηλών διαστάσεων, όπως εικόνες και βίντεο. Η Rectified Flow (RF) είναι μια πρόσφατη σύνθεση μοντέλου παραγωγής που συνδέει δεδομένα και θόρυβο σε ευθεία γραμμή. Παρά τις καλύτερες θεωρητικές του ιδιότητες και την εννοιολογική του απλότητα, δεν έχει ακόμη καθιερωθεί σαφώς ως τυπική πρακτική.

Αυτή η έρευνα βελτιώνει τις υπάρχουσες τεχνικές δειγματοληψίας θορύβου εκπαιδεύοντας μοντέλα ραδιοσυχνοτήτων ωθώντας τα προς αντιληπτικά σχετικές κλίμακες. Μέσω μιας μεγάλης κλίμακας μελέτης, αυτή η μελέτη καταδεικνύει την ανώτερη απόδοση αυτής της προσέγγισης σε σύγκριση με τις υπάρχουσες συνθέσεις διάχυσης για σύνθεση κειμένου σε εικόνα υψηλής ανάλυσης.

Επιπλέον, η έρευνα προτείνει επίσης μια νέα αρχιτεκτονική βασισμένη σε μετασχηματιστή για τη δημιουργία κειμένου σε εικόνα, η οποία χρησιμοποιεί ξεχωριστά βάρη για τις δύο λειτουργίες και επιτρέπει αμφίδρομη ροή πληροφοριών μεταξύ των διακριτικών εικόνας και κειμένου, βελτιώνοντας έτσι την κατανόηση κειμένου, τις αξιολογήσεις ανθρώπινων προτιμήσεων κ.λπ. . Η μελέτη δείχνει ότι η αρχιτεκτονική ακολουθεί μια προβλέψιμη τάση κλιμάκωσης και παρατηρεί ότι η απώλεια επικύρωσης μειώνεται ομαλά με την αύξηση του μεγέθους του μοντέλου και τα βήματα εκπαίδευσης.



Βελτιωμένος πολυτροπικός μετασχηματιστής διάχυσης: μπλοκ MMDiT.

Paper 2: Genie: Generative Interactive Environments

Πρωταγωνιστούν: Τζέικ Μπρους, Μάικλ Ντένις, Άσλεϊ Έντουαρντς, Τζακ Πάρκερ-Χόλντερ, Γιούγκε Σι, Έντουαρντ Χιουζ 等

Ιδρυμα: Google DeepMind, Πανεπιστήμιο Βρετανικής Κολομβίας

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2402.15391.pdf

Αυτή η εργασία ορίζει ένα νέο παράδειγμα γενετικής AI - Generative Interactive Environments - Genie (Generative Interactive Environments). Το Genie είναι ένα βασικό παγκόσμιο μοντέλο 11 δισεκατομμυρίων παραμέτρων που μπορεί να δημιουργήσει διαδραστικά περιβάλλοντα με δυνατότητα αναπαραγωγής από ένα μόνο μήνυμα προτροπής εικόνας.

Αναφορά Machine Heart: Μόλις τώρα, η Google κυκλοφόρησε ένα βασικό παγκόσμιο μοντέλο: 11B παραμέτρους, οι οποίες μπορούν να δημιουργήσουν έναν διαδραστικό εικονικό κόσμο

Πολλά στοιχεία στην αρχιτεκτονική Genie είναι χτισμένα στο Vision Transformer (ViT). Αξίζει να σημειωθεί ότι λόγω του κόστους δευτερεύουσας μνήμης του Transformer, που φέρνει προκλήσεις στο πεδίο του βίντεο, τα βίντεο μπορούν να περιέχουν έως και (10^4) διακριτικά. Επομένως, η Google χρησιμοποιεί την αρχιτεκτονική του μετασχηματιστή ST με απόδοση μνήμης σε όλα τα στοιχεία του μοντέλου για να εξισορροπήσει τη χωρητικότητα του μοντέλου και τους υπολογιστικούς περιορισμούς.



Το Genie αποτελείται από τρία βασικά συστατικά (όπως φαίνεται στο παρακάτω σχήμα):

1) Latent Action Model (LAM), που χρησιμοποιείται για να αιτιολογήσει πιθανές ενέργειες μεταξύ κάθε ζεύγους πλαισίων.

2) Video tokenizer (Tokenizer), που χρησιμοποιείται για τη μετατροπή των αρχικών καρέ βίντεο σε διακριτά διακριτικά.

3) Το δυναμικό μοντέλο, λαμβάνοντας υπόψη πιθανές ενέργειες και διακριτικά προηγούμενων καρέ, χρησιμοποιείται για την πρόβλεψη του επόμενου καρέ του βίντεο.



Προκειμένου να επιτευχθεί ελεγχόμενη δημιουργία βίντεο, η Google χρησιμοποιεί τις ενέργειες που έγιναν στο προηγούμενο πλαίσιο ως προϋποθέσεις για την πρόβλεψη μελλοντικών καρέ. Ωστόσο, τέτοιες ετικέτες ενεργειών είναι σπάνια διαθέσιμες σε βίντεο στο Διαδίκτυο και το κόστος απόκτησης σχολιασμών ενεργειών μπορεί να είναι υψηλό. Αντίθετα, η Google μαθαίνει πιθανές ενέργειες με εντελώς ανεπιτήρητο τρόπο.



Κείμενο 3: Θεωρήσεις για Διαφορική Ιδιωτική Μάθηση με Δημόσια Προκατάρτιση Μεγάλης Κλίμακας

Συγγραφείς: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Ιδρύματα: ETH Zurich, University of Waterloo, Google DeepMind

Διεύθυνση χαρτιού: https://arxiv.org/abs/2212.06470

Η απόδοση της διαφορικά ιδιωτικής μηχανικής εκμάθησης μπορεί να βελτιωθεί σημαντικά με την αξιοποίηση των δυνατοτήτων μεταφοράς εκμάθησης μη ιδιωτικών μοντέλων προεκπαιδευμένων σε μεγάλα δημόσια σύνολα δεδομένων. Το έγγραφο διερωτάται κατά πόσον η χρήση μεγάλων συνόλων δεδομένων με απόξεση ιστού θα πρέπει να θεωρείται διαφορετικά απόρρητη.

Η μελέτη πιστεύει ότι ο ορισμός αυτών των μοντέλων προεκπαιδευμένων σε δεδομένα δικτύου ως «ιδιωτικών» μοντέλων μπορεί να βλάψει και να αποδυναμώσει την εμπιστοσύνη του κοινού στο διαφορικό απόρρητο. Εκτός από τα ζητήματα απορρήτου της χρήσης δημόσιων δεδομένων, η μελέτη αμφισβητεί περαιτέρω τη χρησιμότητα αυτού του παραδείγματος. Η μελέτη εξετάζει αν τα υπάρχοντα σημεία αναφοράς μηχανικής μάθησης είναι κατάλληλα για τη μέτρηση της ικανότητας των προεκπαιδευμένων μοντέλων να γενικεύονται σε ευαίσθητους τομείς που μπορεί να είναι δύσκολο να αναπαρασταθούν σε δεδομένα δημόσιου δικτύου.

Επιπλέον, η μελέτη σημειώνει ότι η ανάπτυξη μεγάλων μοντέλων μπορεί να οδηγήσει σε καθαρή απώλεια απορρήτου λόγω της ανάγκης ανάθεσης ιδιωτικών δεδομένων σε τρίτους με μεγαλύτερη υπολογιστική ισχύ.

Κείμενο 4: Μοντελοποίηση διακριτής διάχυσης με εκτίμηση των αναλογιών της κατανομής δεδομένων

Συγγραφέας: Aaron Lou, Chenlin Meng, Stefano Ermon

Ιδρυμα: Πανεπιστήμιο Stanford, Pika Labs

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/lou24a.html

Αν και τα μοντέλα διάχυσης αποδίδουν καλά σε πολλές εργασίες γενετικής μοντελοποίησης, αποτυγχάνουν να αποδώσουν όπως αναμένεται σε διακριτούς τομείς δεδομένων, όπως η φυσική γλώσσα. Τα τυπικά μοντέλα διάχυσης βασίζονται σε καθιερωμένη θεωρία αντιστοίχισης βαθμολογίας, αλλά οι προσπάθειες γενίκευσης αυτής σε διακριτές δομές δεν έχουν οδηγήσει στα ίδια εμπειρικά κέρδη.

Σε αυτή την εργασία, η ερευνητική ομάδα γεφυρώνει αυτό το χάσμα προτείνοντας μια νέα απώλεια που ονομάζεται βαθμολογημένη εντροπία. Η βαθμολογημένη εντροπία επεκτείνει φυσικά την αντιστοίχιση βαθμολογίας σε διακριτό χώρο, ενσωματώνεται απρόσκοπτα για τη δημιουργία διακριτών μοντέλων διάχυσης και βελτιώνει σημαντικά την απόδοση.

Στα πειράματά τους, δοκίμασαν το Scored Entropy Discrete Diffusion Model (SEDD) σε μια τυπική εργασία μοντελοποίησης γλώσσας. Σε συγκρίσιμα μεγέθη μοντέλων, το SEDD υπερέχει των υφιστάμενων παραδειγμάτων διάχυσης της γλώσσας (μείωση της αμηχανίας 25-75%) και ανταγωνίζεται τα αυτοπαλινδρομικά μοντέλα, ιδιαίτερα με την καλύτερη απόδοση του GPT-2. Επιπλέον, σε σύγκριση με τα αυτοπαλινδρομικά μοντέλα, το SEDD είναι σε θέση να δημιουργήσει πραγματικό κείμενο (δημιουργώντας αμηχανία περίπου 6-8 φορές μεγαλύτερη από το μη ανόπτη GPT-2) χωρίς την ανάγκη κατανεμημένων τεχνικών ανόπτησης (όπως η κλίμακα θερμοκρασίας) και μπορεί να χρησιμοποιηθεί σε Tradeoffs μεταξύ υπολογιστικής προσπάθειας και ποιότητας (επίτευξη παρόμοιας ποιότητας με 32 φορές λιγότερες αξιολογήσεις δικτύου) και υποστηρίζει ελεγχόμενη συμπλήρωση (αντίστοιχη ποιότητα δειγματοληψίας πυρήνα, επιτρέποντας παράλληλα άλλες στρατηγικές εκτός από τις υποδείξεις από αριστερά προς τα δεξιά).

Κείμενο 5: Πιθανοτική συμπέρασμα σε γλωσσικά μοντέλα μέσω συνεστραμμένου διαδοχικού Monte Carlo

Ηθοποιοί: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Ιδρυμα: University of Toronto, Vector Institute

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/zhao24c.html

Οι πολυάριθμες δυνατότητες και τεχνικές ασφάλειας των μεγάλων γλωσσικών μοντέλων (LLMs), συμπεριλαμβανομένου του RLHF, των αυτοματοποιημένων δοκιμών κόκκινων ομάδων, της μηχανικής υποδείξεων και της επένδυσης, μπορούν να θεωρηθούν ως δειγματοληψία από μια αποκανονικοποιημένη κατανομή στόχου που ορίζεται από μια δεδομένη ανταμοιβή ή λανθάνουσα συνάρτηση. Σε αυτό το έργο, οι συγγραφείς εκμεταλλεύονται την πλούσια εργαλειοθήκη του Sequential Monte Carlo (SMC) για να χειριστούν αυτά τα πιθανοτικά προβλήματα συμπερασμάτων. Συγκεκριμένα, χρησιμοποιούν μια συνάρτηση παραμόρφωσης εκμάθησης για να εκτιμήσουν τις πιθανές αναμενόμενες μελλοντικές τιμές σε κάθε χρονικό βήμα, επιτρέποντας στον υπολογισμό κατά τον χρόνο συμπερασμάτων να επικεντρωθεί σε πολλά υποσχόμενα μέρη της ακολουθίας.

Προτείνουμε μια νέα αντιθετική προσέγγιση για την εκμάθηση των συναρτήσεων στρέβλωσης και κάνουμε συνδέσεις με την πλούσια βιβλιογραφία για την ήπια ενισχυτική μάθηση. Ως συμπληρωματική εφαρμογή του συνεστραμμένου πλαισίου SMC, προτείνουν μια μέθοδο για την αξιολόγηση της ακρίβειας των τεχνικών συμπερασμάτων γλωσσικών μοντέλων σε συναρτήσεις κατατμήσεων καταγραφής χρησιμοποιώντας ένα νέο αμφίδρομο δεσμευμένο SMC. Αυτά τα όρια μπορούν να χρησιμοποιηθούν για την εκτίμηση της αμφίδρομης απόκλισης KL μεταξύ της κατανομής συμπερασμάτων και της κατανομής στόχου. Εφαρμόζοντας τεχνικές αξιολόγησης συμπερασμάτων, αποδεικνύουν ότι το Twisted SMC είναι αποτελεσματικό στη δειγματοληψία ανεπιθύμητων αποτελεσμάτων από προεκπαιδευμένα μοντέλα (χρήσιμο για αβλαβή εκπαίδευση και αυτοματοποιημένες δοκιμές κόκκινων ομάδων), δημιουργώντας κριτικές με διαφορετικά συναισθήματα και εκτελώντας εργασίες padding.

Κείμενο 6: Η συζήτηση με πιο πειστικά LLMs οδηγεί σε πιο αληθινές απαντήσεις

Πρωταγωνιστούν: Άκμπιρ Χαν, Τζον Χιουζ, Νταν Βαλεντάιν, Λόρα Ρούις, Κσιτίτζ Σάχαν, Ανς Ραντακρίσναν, Έντουαρντ Γκρεφενστέτ, Σάμιουελ Μπάουμαν, Τιμ Ρόκτσελ, Ίθαν Πέρεζ

Ιδρύματα: University College London, Speechmatics, MATS, Anthropic, FAR AI

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/khan24a.html

Οι κοινές προσεγγίσεις για την ευθυγράμμιση μεγάλων γλωσσικών μοντέλων (LLM) με επιθυμητές συμπεριφορές βασίζονται σε μεγάλο βαθμό σε δεδομένα που έχουν επισημανθεί από τον άνθρωπο. Ωστόσο, καθώς τα μοντέλα γίνονται πιο περίπλοκα, θα υπερβαίνουν την ανθρώπινη τεχνογνωσία και ο ρόλος των ανθρώπινων αξιολογητών θα εξελιχθεί σε αυτόν των μη ειδικών που επιβλέπουν εμπειρογνώμονες. Με βάση αυτή την προσδοκία, οι ερευνητές έθεσαν ένα ερώτημα: Μπορεί ένα πιο αδύναμο μοντέλο να αξιολογήσει την ορθότητα ενός ισχυρότερου μοντέλου; Μελέτησαν αυτό το πρόβλημα δημιουργώντας ένα παρόμοιο σενάριο: ένα στο οποίο το ισχυρότερο μοντέλο (ο ειδικός) είχε τις βασικές πληροφορίες που απαιτούνται για να απαντήσει στην ερώτηση, ενώ το ασθενέστερο μοντέλο (το μη ειδικό) δεν είχε αυτές τις πληροφορίες. Οι ερευνητές επέλεξαν τη συζήτηση ως μέθοδο δοκιμής - δηλαδή, αφήνοντας δύο ειδικούς LLM να υπερασπίζονται διαφορετικές απαντήσεις και τους μη ειδικούς να επιλέξουν την τελική απάντηση.

Η ερευνητική ομάδα διαπίστωσε ότι η συζήτηση βοήθησε αποτελεσματικά τα μη έμπειρα μοντέλα και τους ανθρώπους να απαντήσουν σε ερωτήσεις, επιτυγχάνοντας ακρίβεια 76% και 88% αντίστοιχα (η αρχική βασική γραμμή ήταν 48% και 60% αντίστοιχα).



Επιπλέον, η βελτιστοποίηση της πειστικότητας των ειδικών συζητητών με τρόπο χωρίς επίβλεψη βελτιώνει την ικανότητα των μη ειδικών να εντοπίζουν την αλήθεια στις συζητήσεις. Αυτό το αποτέλεσμα παρέχει μια αναφορά συζητώντας τη σκοπιμότητα των ευθυγραμμισμένων μοντέλων απουσία ετικετών βασικής αλήθειας.

论文 7: Πολυπλοκότητα πληροφοριών της στοχαστικής κυρτής βελτιστοποίησης: Εφαρμογές στη γενίκευση, την απομνημόνευση και την ανίχνευση

Ηθοποιοί: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Ιδρύματα: Πανεπιστήμιο Ben-Gurion, Πανεπιστήμιο του Τορόντο, DeepMind κ.λπ.

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/attias24a.html

Σε αυτή την εργασία, οι συγγραφείς μελετούν την αλληλεπίδραση μεταξύ μνήμης και μάθησης στο πλαίσιο της στοχαστικής κυρτής βελτιστοποίησης (SCO). Ορίζουν τη μνήμη μαθαίνοντας τις πληροφορίες που αποκαλύπτει ο αλγόριθμος για τα σημεία δεδομένων εκπαίδευσης και ποσοτικοποιούν αυτές τις πληροφορίες χρησιμοποιώντας το πλαίσιο αμοιβαίας πληροφόρησης υπό όρους (CMI) που προτείνεται από τους Steinke και Zakynthinou (2020).

Το κύριο αποτέλεσμα αυτής της μελέτης είναι να χαρακτηρίσει με ακρίβεια την αντιστάθμιση μεταξύ της ακρίβειας ενός αλγορίθμου μάθησης και του CMI του, απαντώντας σε μια ανοιχτή ερώτηση που έθεσε ο Livni (2023). Αυτό το έγγραφο δείχνει ότι κάτω από τη ρύθμιση L² Lipschitz-οριοθετημένο και τις συνθήκες ισχυρής κυρτότητας, το CMI κάθε εκπαιδευόμενου με υπερβολικό σφάλμα ϵ είναι χαμηλότερο οριοθετημένο από Ω(1/ϵ²) και Ω(1/) αντίστοιχα. Οι συγγραφείς αποδεικνύουν περαιτέρω τον απαραίτητο ρόλο της μνήμης στο πρόβλημα SCO σχεδιάζοντας έναν αντίπαλο που μπορεί να αναγνωρίσει με ακρίβεια μεγάλο αριθμό δειγμάτων εκπαίδευσης σε ένα συγκεκριμένο πρόβλημα SCO. Τέλος, αναφέρουν αρκετές επιπτώσεις των αποτελεσμάτων, όπως περιορισμούς των ορίων γενίκευσης που βασίζονται στο CMI και την ασυμπίεση των δειγμάτων στο πρόβλημα SCO.

Βιβλίο 8: Μετρήστε τη διαφορετικότητα των συνόλων δεδομένων, μην το διεκδικείτε απλώς

Ηθοποιοί: Ντόρα Ζάο, Τζέρον Άντριους, Ορέστης Παπακυριακόπουλος, Άλις Σιάνγκ

Ιδρύματα: Πανεπιστήμιο Στάνφορντ, Sony AI (Λονδίνο, Ηνωμένο Βασίλειο), Τεχνικό Πανεπιστήμιο του Μονάχου, Sony AI (Σιάτλ, ΗΠΑ)

Διεύθυνση χαρτιού: https://arxiv.org/html/2407.08188v1

Τα σύνολα δεδομένων μηχανικής μάθησης (ML) θεωρούνται συχνά ουδέτερα, αλλά περιέχουν εγγενώς αφηρημένες και αμφισβητούμενες κοινωνικές κατασκευές. Οι επιμελητές συνόλων δεδομένων χρησιμοποιούν συχνά όρους με βαρύτητα, όπως ποικιλομορφία, μεροληψία και ποιότητα για να περιγράψουν σύνολα δεδομένων. Αν και αυτοί οι όροι χρησιμοποιούνται ευρέως, δεν έχουν σαφή ορισμό και επικύρωση. Η μελέτη της ερευνητικής ομάδας διερεύνησε τον αντίκτυπο αυτού του ζητήματος αναλύοντας την «διαφορετικότητα» σε 135 σύνολα δεδομένων εικόνας και κειμένου. Αντλώντας από τις κοινωνικές επιστήμες, οι αρχές από τη θεωρία μετρήσεων εφαρμόζονται για τον εντοπισμό προβληματισμών και την παροχή συστάσεων για την εννοιολόγηση, τη λειτουργικότητα και την αξιολόγηση της διαφορετικότητας στα σύνολα δεδομένων. Τα ευρήματά τους έχουν ευρείες επιπτώσεις για την έρευνα ML, υποστηρίζοντας μια πιο λεπτή και ακριβή προσέγγιση κατά τον χειρισμό των χαρακτηριστικών με βαρύτητα στην κατασκευή συνόλων δεδομένων.

Paper 9: VideoPoet: A Large Language Model for Zero-Shot Video Generation

Πρωταγωνιστούν: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu,HaonYalish Yong Cheng, Joshua V Dillon 、Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsangu, Ming-Hsuang 、Bryan Seybold、Lu Jiang

Οργάνωση: Google, Πανεπιστήμιο Carnegie Mellon

Διεύθυνση χαρτιού: https://proceedings.mlr.press/v235/kondratyuk24a.html

Σύνδεσμος έργου: http://sites.research.google/videopoet/

Αναφορά Machine Heart: Μπορεί η παραγωγή βίντεο να είναι απείρως μεγάλη;Το μεγάλο μοντέλο Google VideoPoet είναι online, χρήστες του Διαδικτύου: επαναστατική τεχνολογία

Η ερευνητική ομάδα κυκλοφόρησε το VideoPoet, ένα μοντέλο γλώσσας ικανό να συνθέτει βίντεο υψηλής ποιότητας από πολλαπλά σήματα υπό όρους. Το VideoPoet χρησιμοποιεί μια αρχιτεκτονική Transformer μόνο για αποκωδικοποιητή για να χειριστεί εισόδους πολλαπλών τρόπων, συμπεριλαμβανομένων εικόνων, βίντεο, κειμένου και ήχου.



Το πρωτόκολλο εκπαίδευσης ακολουθεί τη γραμμή των μεγάλων γλωσσικών μοντέλων (LLM) και αποτελείται από δύο στάδια: προ-εκπαίδευση και προσαρμογή για συγκεκριμένη εργασία. Στο στάδιο της προεκπαίδευσης, το VideoPoet συνδυάζει στόχους παραγωγής πολλαπλών τρόπων μέσα σε ένα αυτοπαλινδρομικό πλαίσιο Transformer. Το προεκπαιδευμένο LLM χρησιμεύει ως βάση και μπορεί να προσαρμοστεί σε μια σειρά εργασιών παραγωγής βίντεο. Επιδεικνύουν τις υπερσύγχρονες δυνατότητες του μοντέλου στη δημιουργία βίντεο μηδενικής λήψης, συγκεκριμένα την ικανότητα δημιουργίας κίνησης υψηλής πιστότητας.

Κείμενο 10: Κλοπή μέρους ενός μοντέλου γλώσσας παραγωγής

Πρωταγωνιστούν: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Ιδρύματα: OpenAI, Google DeepMind, ETH Zurich, University of Washington, McGill University

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2403.06634

Αυτό το έγγραφο προτείνει μια νέα μέθοδο επίθεσης σε μοντέλα AI. Μπορεί να εξάγει με ακρίβεια πληροφορίες από το μοντέλο γλώσσας δημιουργίας μαύρου κουτιού του ChatGPT του OpenAI ή του PaLM-2 της Google. Αυτή η μέθοδος μπορεί να εισχωρήσει στο ενσωματωμένο επίπεδο προβολής του Transformer (το οποίο είναι βασικό μέρος της κατανόησης της γλώσσας από το μοντέλο) και απαιτεί μόνο πρόσβαση στο API, μέσω ιστότοπου ή εφαρμογής, και συνομιλία με το μοντέλο για να το "νικήσει". Με βάση τη μέθοδο της δημοσίευσης, οι ερευνητές έσπασαν ολόκληρο τον πίνακα προβολής των δύο βασικών μοντέλων της σειράς GPT, του Ada και του Babbage, όπως οι κρυφές διαστάσεις: το ένα ήταν 1024 και το άλλο ήταν 2048. Έσπασαν επίσης τις κρυφές διαστάσεις του gpt-3.5-turbo και αν θέλετε να επαναφέρετε ολόκληρο τον πίνακα προβολής του μοντέλου, το κόστος δεν θα ξεπεράσει τα $2000. Οι ερευνητές έχουν προτείνει μια σειρά από αμυντικά μέτρα και στρατηγικές μετριασμού για την πρόληψη τέτοιων επιθέσεων.