Το δεκάχρονο κλασικό της Jia Yangqing κέρδισε το βραβείο Time Test! ICML 2024 δέκα καλύτερων εγγράφων κλήρωση βραβείων, δημοφιλές SD3, Gu

Το δεκάχρονο κλασικό της Jia Yangqing κέρδισε το βραβείο Time Test! ICML 2024 δέκα κλήρωση βραβείων καλύτερου χαρτιού, δημοφιλές SD3, Gu

2024-07-24

Νέα Έκθεση Σοφίας

Εκδότης: Ο Taozi είναι τόσο νυσταγμένος

[Εισαγωγή στη Νέα Σοφία] Επιτέλους ανακοινώθηκε το ετήσιο κορυφαίο βραβείο ICML! Φέτος, συνολικά δέκα εργασίες κέρδισαν το Βραβείο Καλύτερου Χαρτιού και τρεις από αυτές είναι επώνυμες - το μοντέλο παραγωγής εικόνας SD3, το μοντέλο παραγωγής βίντεο VideoPoet και το βασικό παγκόσμιο μοντέλο Genie. Επιπλέον, το Time Test Award απονεμήθηκε στο πλαίσιο DeCAF που πρότεινε ο Jia Yangqing και η ομάδα του πριν από δέκα χρόνια.

Τα βραβεία ICML 2024 ανακοινώθηκαν πρόσφατα!

Μόλις τώρα πραγματοποιήθηκε επίσημα η τελετή έναρξης της ICML Τα 10 καλύτερα βραβεία χαρτιού ανακοινώθηκαν στη συνάντηση και μια εργασία πριν από δέκα χρόνια κέρδισε το βραβείο Time Test.

Μεταξύ των καλύτερων εγγράφων, υπάρχουν αρκετά δημοφιλή έργα στον τομέα της δημιουργίας εικόνων και βίντεο με τεχνητή νοημοσύνη, όπως η τεχνική αναφορά SD3, το μοντέλο βίντεο CMU Google AI VideoPoet και το βασικό παγκόσμιο μοντέλο της Google Genie.

Αξίζει να αναφέρουμε ότι η εργασία DeCAF που δημοσιεύτηκε από τον γκουρού της τεχνητής νοημοσύνης Jia Yangqing και άλλους τον Οκτώβριο του 2013 κέρδισε το βραβείο Time Test.

Μόλις τώρα, έγραψε ότι ήταν βαθιά τιμή που έλαβε αυτή την τιμή.

Ο Russ Salakhutdinov, καθηγητής στο CMU και αντιπρόεδρος του Meta GenAI, έδωσε μια περίληψη των συνολικών αποτελεσμάτων πρόσληψης του ICML 2024:

Το συνέδριο αυτό έλαβε συνολικά 9.473 εργασίες, από τις οποίες έγιναν δεκτές 2.610, με ποσοστό αποδοχής 27,55%. 144 άρθρα είναι προφορικά και 191 άρθρα είναι Spotlight.

Έγγραφα θέσεων παρουσιάστηκαν πρόσφατα φέτος 286 εργασίες και έγιναν δεκτές 75 (26%). 15 άρθρα είναι προφορικά και 11 άρθρα είναι Spotlight.

Επιπλέον, στο Εργαστήριο υπήρξαν 145 προτάσεις, εκ των οποίων οι 30 έγιναν δεκτές. Το Tutorial είχε 55 προτάσεις και 12 έγιναν δεκτές.

Φέτος, είναι το 41ο ετήσιο συνέδριο του ICML 2024 (μία φορά το χρόνο), το οποίο θα πραγματοποιηθεί στη Βιέννη της Αυστρίας από τις 21 έως τις 27 Ιουλίου.

8.675 άτομα ήρθαν να παρακολουθήσουν τη συνάντηση το ένα μετά το άλλο και δεν υπήρχαν θέσεις στο κοινό.

Επισκόπηση συνόδου κορυφής ICML 2024

Πριν την απονομή των βραβείων, η οργανωτική επιτροπή παρουσίασε αρχικά τη συνολική κατάσταση του φετινού συνεδρίου:

· 9 Πίνακες Ομιλίας EXPO

· 12 σεμινάρια

· 6 προσκεκλημένοι ομιλητές

· 2.610 εργασίες (κύριο συνέδριο)

· 30 εργαστήρια

· 12.345 συγγραφείς και ομιλητές

· Το 39% των συμμετεχόντων είναι φοιτητές

· 10 κοινωνικές δραστηριότητες εκτός σύνδεσης

· 3 συμβάντα συγγένειας

· 52 εθελοντές

· 97 Senior Area Chairs (SAC), 492 Area Chairs (AC), 7473 reviewers

· 9.406 εγγεγραμμένοι συμμετέχοντες (8.675 από τους οποίους παρακολούθησαν επιτόπου)

Με βάση τις αποδεκτές εργασίες, η ICML συνόψισε τις λέξεις υψηλής συχνότητας που εμφανίστηκαν, οι οποίες είναι και οι καυτές λέξεις της φετινής χρονιάς:

Τα μεγάλα μοντέλα εμφανίζονται πιο συχνά, περισσότερες από 600+ φορές.

Ακολουθούν ενισχυτική μάθηση, βαθιά μάθηση, νευρωνικό δίκτυο γραφημάτων, μηχανική μάθηση, ομοσπονδιακή μάθηση, μοντέλο διάχυσης, Transformer, LLM, μάθηση αναπαράστασης, παραγωγικό μοντέλο κ.λπ.

Όσον αφορά τις εγγεγραμμένες χώρες/περιοχές, οι Ηνωμένες Πολιτείες έχουν 2.463 άτομα και η Κίνα κατατάσσεται δεύτερη με περισσότερα από 1.100 άτομα.

Βραβείο Time Tested

Σε γενικές γραμμές, το βραβείο Time Test απονέμεται σε ακαδημαϊκές εργασίες που είχαν σημαντικό και διαρκή αντίκτυπο για περισσότερα από 10 χρόνια.

Αυτή η εργασία είναι επίσης ένα κλασικό έργο που ολοκληρώθηκε από τον Jia Yangqing, τον πατέρα του Caffe, ο οποίος σπούδασε στο UC Berkeley και συνεργάστηκε με την ομάδα κατά τη διάρκεια της πρακτικής του στη Google.

Κάποτε είπε σε μια συνέντευξή του ότι ήπιε πάρα πολύ καφέ ενώ έκανε πρακτική στο Google το 2013, οπότε το ονόμασε DeCAF για να παροτρύνει τον εαυτό του να σταματήσει να πίνει καφέ.

Ενώ εργαζόταν υπερωρίες, δημοσίευσε, "Το DeCAF θα πρέπει να είναι θεμελιώδη χαρακτηριστικά και βαθιά ενσωμάτωση στο οπτικό πεδίο, και επίσης να δίνει στο πεδίο της όρασης υπολογιστή ένα γενικεύσιμο χαρακτηριστικό..."

Ο αντίκτυπος της έρευνας DeCAF είναι ότι γέννησε το γενικό πλαίσιο ανίχνευσης αντικειμένων R-CNN, το ετερογενές υπολογιστικό πλαίσιο υψηλής απόδοσης Caffe και συνέβαλε έμμεσα στη συνεργασία μεταξύ Berkeley και NVIDIA για τη σύνταξη του πλαισίου επιτάχυνσης πρώτης γενιάς CuDNN, και η μεγάλης κλίμακας διανομή της δημιουργίας Yahoo Labs Μια σειρά εργασιών όπως η εκπαίδευση CaffeOnSpark έχει καθιερώσει την ηγετική θέση του Berkeley στο κύμα βαθιάς μάθησης.

题目：DeCAF: Μια λειτουργία βαθιάς συνελικτικής ενεργοποίησης για γενική οπτική αναγνώριση

Ηθοποιοί: Τζεφ Ντοναχιού, Γιανγκίνγκ Τζια, Οριόλ Βίνιαλς, Τζούντι Χόφμαν, Νινγκ Ζανγκ, Έρικ Τζενγκ, Τρέβορ Ντάρελ

Ιδρυμα: University of California, Berkeley

Διεύθυνση χαρτιού: https://arxiv.org/abs/1310.1531

Προκειμένου να χρησιμοποιηθεί ένα καλύτερο πιθανό πλαίσιο για την έκφραση της ανθρώπινης συμπεριφοράς, η ομάδα έγραψε προσωπικά το πρώτο πλαίσιο-DeCAF.

Σε αυτή την εργασία, οι συγγραφείς αξιολογούν εάν τα χαρακτηριστικά που εξάγονται από ένα βαθύ συνελικτικό δίκτυο που εκπαιδεύεται με πλήρως εποπτευόμενο τρόπο σε ένα μεγάλο σύνολο εργασιών αναγνώρισης σταθερών αντικειμένων μπορούν να επανατοποθετηθούν σε νέες εργασίες γενικής χρήσης.

Αυτές οι γενικές εργασίες μπορεί να διαφέρουν σημαντικά από τις αρχικές εργασίες εκπαίδευσης και μπορεί να στερούνται αρκετά σχολιασμένων δεδομένων ή καθόλου σχολιασμένων δεδομένων, έτσι ώστε οι συμβατικές μέθοδοι να μην μπορούν να χρησιμοποιηθούν για την εκπαίδευση ή τη λεπτομέρεια του δικτύου βαθιάς προσαρμογής στη νέα εργασία.

Επιπλέον, ο συγγραφέας οπτικοποίησε επίσης τη σημασιολογική ομαδοποίηση των βαθιών συνελικτικών χαρακτηριστικών σε εργασίες όπως η αναγνώριση σκηνής, η προσαρμογή τομέα και η ακριβής αναγνώριση και συγκρίνοντας τα αποτελέσματα του καθορισμού σταθερών χαρακτηριστικών που εξαρτώνται από διαφορετικά επίπεδα του δικτύου, πρότεινε πολλά σημαντική Νέα SOTA που επιτεύχθηκε στις οπτικές προκλήσεις.

Τέλος, οι συγγραφείς δημοσιεύουν μια εφαρμογή ανοιχτού κώδικα αυτών των χαρακτηριστικών ενεργοποίησης βαθιάς συνελικτικής ενεργοποίησης - DeCA, μαζί με όλες τις σχετικές παραμέτρους δικτύου. Αυτό βοηθά τους οπτικούς συγγραφείς να πειραματιστούν με βαθιές αναπαραστάσεις σε διάφορα οπτικά παραδείγματα εκμάθησης εννοιών.

Τα δέκα καλύτερα χαρτιά

Φέτος, υπάρχουν δέκα καλύτερες εργασίες.

Οι παραπάνω βαθμολογίες είναι όλες κατά σειρά προφορικής προβολής.

论文一：Μοντελοποίηση διακριτής διάχυσης με εκτίμηση των αναλογιών της κατανομής δεδομένων

Συγγραφέας: Aaron Lou, Chenlin Meng, Stefano Ermon

Ιδρυμα: Πανεπιστήμιο Stanford, Pika Labs

Διεύθυνση χαρτιού: https://arxiv.org/abs/2310.16834

Αυτή η έρευνα προτείνει ένα νέο μοντέλο μηχανικής μάθησης SEDD (Score Entropy Discrete Diffusion), το οποίο στοχεύει κυρίως σε εργασίες δημιουργίας διακριτών δεδομένων.

Επί του παρόντος, τα μοντέλα διάχυσης παρουσιάζουν πρωτοποριακή απόδοση σε πολλές εργασίες γενετικής μοντελοποίησης, αλλά αποδίδουν ελάχιστα σε διακριτά πεδία δεδομένων, όπως η φυσική γλώσσα.

Στην εργασία, ο συγγραφέας πρότεινε την έννοια της εντροπίας βαθμολογίας για να γεφυρώσει αυτό το χάσμα.

Αυτή είναι μια νέα συνάρτηση απώλειας που επεκτείνει φυσικά την αντιστοίχιση βαθμολογίας σε διακριτό χώρο, ενσωματώνεται απρόσκοπτα για τη δημιουργία διακριτών μοντέλων διάχυσης και βελτιώνει σημαντικά την απόδοση.

Κατά τη διάρκεια της πειραματικής διαδικασίας αξιολόγησης, το SEDD απέδωσε καλύτερα από τα υπάρχοντα μοντέλα διάχυσης γλώσσας (η αμηχανία μειώθηκε κατά 25-75%).

Επιπλέον, ξεπερνά και τα αυτοπαλινδρομικά μοντέλα όπως το GPT-2 σε ορισμένες πτυχές.

Συνοπτικά, τα πλεονεκτήματα του SEDD είναι:

- Κείμενο υψηλής ποιότητας μπορεί να δημιουργηθεί χωρίς τη χρήση τεχνικών όπως η κλιμάκωση θερμοκρασίας (η δημιουργία αμηχανίας είναι περίπου 6-8 φορές καλύτερη από το μη ανοπτημένο GPT-2)

- Ευέλικτη αντιστάθμιση μεταξύ υπολογιστικών πόρων και ποιότητας εξόδου (χρησιμοποιεί 32 φορές λιγότερες αξιολογήσεις δικτύου για την επίτευξη παρόμοιας απόδοσης)

- Υποστηρίζει ελεγχόμενη πλήρωση κειμένου, παρέχοντας μεγαλύτερη ευελιξία. (αντίστοιχη ποιότητα δειγματοληψίας πυρήνα, ενώ υποστηρίζονται στρατηγικές άλλες από την προτροπή από αριστερά προς τα δεξιά).

Paper 2: Scaling Rectified Flow Transformers for High Resolution Image Synthesis

Παίζουν: Πάτρικ Έσερ, Σούμιθ Κούλαλ, Αντρέας Μπλατμάν, Ραχίμ Εντεζάρι, Τζόνας Μύλλερ, Χάρι Σαϊνί, Γιαμ Λέβι, Ντόμινικ Λόρεντς, Άξελ Σάουερ, Φρέντερικ Μπόσελλεϊν Χορνίντ, Φρέντερικ Μπόσελλεν Χορνίντ Lacey, Alex Goodwin, Yannik Marek, Ρόμπιν Ρόμπαχ

Οργάνωση: Stability AI

Διεύθυνση χαρτιού: https://arxiv.org/abs/2403.03206

Όπως αναφέρθηκε στην αρχή, αυτή η εργασία είναι μια τεχνική αναφορά για το δημοφιλές Stable Diffusion 3.

Παρόμοια με το Sora, το SD3 χρησιμοποιεί μια βελτιωμένη έκδοση του μοντέλου Diffusion και μια νέα αρχιτεκτονική που βασίζεται στο Vincentian γράφημα του DiT.

Συγκεκριμένα, οι συγγραφείς χρησιμοποίησαν τρεις διαφορετικούς κωδικοποιητές κειμένου—δύο μοντέλα CLIP και ένα T5—για την επεξεργασία πληροφοριών κειμένου, ενώ χρησιμοποίησαν ένα πιο προηγμένο μοντέλο αυτόματης κωδικοποίησης για την επεξεργασία πληροφοριών εικόνας.

Η πρόσφατα προτεινόμενη αρχιτεκτονική πολυτροπικής διάχυσης μετασχηματιστή (MMDiT) χρησιμοποιεί ανεξάρτητα σύνολα βάρους για την αναπαράσταση εικόνας και γλώσσας αντίστοιχα, σε σύγκριση με την πρώιμη έκδοση του SD3, βελτιώνει σημαντικά τις δυνατότητες κατανόησης και ορθογραφίας κειμένου.

Τα αποτελέσματα της αξιολόγησης δείχνουν ότι το SD3 αγγίζει ή υπερβαίνει την τρέχουσα τεχνολογία παραγωγής διαγραμμάτων Vincentian όσον αφορά την ακρίβεια στην παρακολούθηση των προτροπών, τη σαφή παρουσίαση του κειμένου και την οπτική ομορφιά των εικόνων.

论文三：Πιθανολογικό συμπέρασμα σε γλωσσικά μοντέλα μέσω συνεστραμμένου διαδοχικού Monte Carlo

Ηθοποιοί: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Ιδρυμα: University of Toronto, Vector Institute

Διεύθυνση χαρτιού: https://arxiv.org/abs/2404.17546

Αυτή η έρευνα εστιάζει σε ζητήματα δειγματοληψίας και συμπερασμάτων σε μεγάλα μοντέλα.

Πολλές από τις δυνατότητες και τις τεχνολογίες ασφαλείας του LLM, όπως το RLHF, οι αυτοματοποιημένες δοκιμές ομάδας κόκκινων ομάδων, η άμεση μηχανική και το padding, μπορούν να ληφθούν υπόψη:

Δεδομένης μιας ανταμοιβής ή μιας πιθανής συνάρτησης, δείγμα από την καθορισμένη μη κανονικοποιημένη κατανομή στόχου. Αυτή η κατανομή ορίζεται για την πλήρη ακολουθία.

Στην εργασία, ο συγγραφέας προτείνει τη χρήση της διαδοχικής μεθόδου Monte Carlo (SMC) για την επίλυση αυτών των προβλημάτων πιθανότητας δειγματοληψίας.

Από αυτή την άποψη, ο συγγραφέας πρότεινε συναρτήσεις συστροφής για την εκτίμηση πιθανών μελλοντικών τιμών σε κάθε χρονικό βήμα για τη βελτιστοποίηση της διαδικασίας δειγματοληψίας.

Επιπλέον, πρότειναν επίσης μια μέθοδο για τη χρήση νέων αμφίδρομων ορίων SMC για την αξιολόγηση της ακρίβειας των τεχνικών συμπερασμάτων LLM.

Τα τελικά αποτελέσματα δείχνουν ότι το Twisted SMC παρουσιάζει ισχυρή αποτελεσματικότητα στη δειγματοληψία κακών αποτελεσμάτων από προεκπαιδευμένα μοντέλα, στη δημιουργία κριτικών με διαφορετικά συναισθήματα και στην εκτέλεση εργασιών πλήρωσης.

Κείμενο 4: Θέση: Μετρήστε τη διαφορετικότητα συνόλου δεδομένων, μην το διεκδικείτε απλώς

Ηθοποιοί: Dora Zhao, Jerone TA Andrews, Ορέστης Παπακυριακόπουλος, Alice Xiang

Ιδρύματα: Πανεπιστήμιο Στάνφορντ, Τεχνικό Πανεπιστήμιο Μονάχου, Sony AI

Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.08188

Επί του παρόντος, πολλά σύνολα δεδομένων χαρακτηρίζουν τον εαυτό τους ποικιλομορφία, αλλά στην πραγματικότητα ενσωματώνουν αφηρημένες και αμφιλεγόμενες κοινωνικές έννοιες.

Σε αυτό το έργο, οι συγγραφείς διερευνούν αυτό το ερώτημα αναλύοντας την «διαφορετικότητα» σε 135 σύνολα δεδομένων εικόνας και κειμένου.

Όπως φαίνεται παρακάτω, οι συγγραφείς βασίζονται στη θεωρία μέτρησης από τη θεωρία των κοινωνικών επιστημών ως παράγοντες που πρέπει να ληφθούν υπόψη και παρέχουν προτάσεις για την εννοιολόγηση, τη λειτουργικότητα και την αξιολόγηση της διαφορετικότητας στα σύνολα δεδομένων.

Ο απώτερος σκοπός αυτής της έρευνας είναι να ζητήσει από τους μελετητές της τεχνητής νοημοσύνης να υιοθετήσουν πιο λεπτομερείς και ακριβείς μεθόδους επεξεργασίας για δεδομένα χαρακτηριστικών με κρίσεις αξίας στην έρευνα μηχανικής μάθησης, ειδικά στη διαδικασία κατασκευής συνόλων δεδομένων.

Paper 5: Stealing Part of a Production Language Model

Ηθοποιοί: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Ιδρύματα: ETH Zurich, University of Washington, McGill University, Google DeepMind, OpenAI

Διεύθυνση χαρτιού: https://arxiv.org/abs/2403.06634

Σε αυτό το έργο, οι συγγραφείς παρουσιάζουν την πρώτη επίθεση κλοπής μοντέλων ικανή να εξάγει ακριβείς και σύνθετες πληροφορίες από μοντέλα γλώσσας μαύρου κουτιού, όπως το ChatGPT του OpenAI ή το PaLM-2 της Google.

Συγκεκριμένα, αυτή η επίθεση είναι σε θέση να ανακατασκευάσει το ενσωματωμένο επίπεδο προβολής του μοντέλου Transformer (υπό συνθήκες συμμετρίας) μέσω κανονικής πρόσβασης API.

Και, για λιγότερο από 20 $, μπορείτε να εξαγάγετε ολόκληρο τον πίνακα προβολής των μοντέλων γλώσσας Ada και Babbage του OpenAI. Αυτό επιβεβαίωσε για πρώτη φορά ότι αυτά τα δύο μοντέλα μαύρου κουτιού έχουν κρυφές διαστάσεις 1024 και 2048 αντίστοιχα.

Επιπλέον, ο συγγραφέας αποκατέστησε επίσης το ακριβές μέγεθος κρυφής διάστασης του μοντέλου gpt-3.5-turbo. Αυτή τη φορά, το κόστος εξαγωγής ολόκληρου του πίνακα προβολής ήταν μόνο 2.000 $ ΗΠΑ.

Τέλος, οι συγγραφείς προτείνουν πιθανά μέτρα άμυνας και μετριασμού και συζητούν τις επιπτώσεις για μελλοντικές εργασίες.

论文六：Πολυπλοκότητα πληροφοριών της Στοχαστικής Κυρτής Βελτιστοποίησης: Εφαρμογές στη γενίκευση και την απομνημόνευση

Ηθοποιοί: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Ιδρύματα: Πανεπιστήμιο Ben Gurion, Northeastern University, Tel Aviv University, University of Toronto, Vector Institute, Google DeepMind

Διεύθυνση χαρτιού: https://arxiv.org/abs/2402.09327

Σε αυτή την εργασία, οι συγγραφείς μελετούν την αλληλεπίδραση μεταξύ απομνημόνευσης και μάθησης στο πλαίσιο των προβλημάτων στοχαστικής κυρτής βελτιστοποίησης (SCO).

Πρώτον, η απομνημόνευση ορίζεται από αλγόριθμους εκμάθησης για την αποκάλυψη πληροφοριών σχετικά με τα σημεία δεδομένων εκπαίδευσης. Στη συνέχεια, το πλαίσιο αμοιβαίας πληροφόρησης υπό όρους (CMI) χρησιμοποιείται για ποσοτικοποίηση. Έτσι, επιτυγχάνεται μια ακριβής περιγραφή της αντιστάθμισης μεταξύ της ακρίβειας ενός αλγορίθμου εκμάθησης και του CMI του.

Τα αποτελέσματα δείχνουν ότι κάτω από την οριοθετημένη ρύθμιση L^2 Lipschitz και τις συνθήκες ισχυρής κυρτότητας, το CMI κάθε μαθητή με υπερβολικό σφάλμα ε έχει χαμηλότερα όρια στα Ω(1/ε^2) και Ω(1/ε) αντίστοιχα.

Επιπλέον, οι συγγραφείς καταδεικνύουν τον σημαντικό ρόλο της απομνημόνευσης στα μαθησιακά προβλήματα SCO σχεδιάζοντας έναν αντίπαλο που μπορεί να αναγνωρίσει με ακρίβεια τα περισσότερα από τα δείγματα εκπαίδευσης σε ένα συγκεκριμένο πρόβλημα SCO.

Τέλος, οι συγγραφείς αναφέρουν αρκετές σημαντικές συνέπειες, όπως οι περιορισμοί των ορίων γενίκευσης που βασίζονται στο CMI και η ασυμπίεση του δείγματος στο πρόβλημα SCO.

论文七：Θέση: Θέματα για διαφοροποιημένη ιδιωτική μάθηση με δημόσια προκατάρτιση μεγάλης κλίμακας

Συγγραφείς: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Ιδρύματα: ETH Zurich, University of Waterloo, Vector Institute, Google DeepMind

Διεύθυνση χαρτιού: https://arxiv.org/abs/2212.06470

Η απόδοση της διαφορικά ιδιωτικής μηχανικής εκμάθησης μπορεί να βελτιωθεί σημαντικά με την αξιοποίηση των δυνατοτήτων μεταφοράς εκμάθησης μη ιδιωτικών μοντέλων προεκπαιδευμένων σε μεγάλα δημόσια σύνολα δεδομένων.

Σε αυτήν την εργασία, οι συγγραφείς διερωτώνται εάν η χρήση μεγάλων συνόλων δεδομένων που έχουν αφαιρεθεί από τον ιστό συνάδει με τη διαφορική προστασία απορρήτου. Προειδοποίησε επίσης ότι το να αποκαλούμε "ιδιωτικά" αυτά τα μοντέλα προεκπαιδευμένα σε δεδομένα δικτύου μπορεί να επιφέρει πολλές βλάβες, όπως η αποδυνάμωση της εμπιστοσύνης του κοινού στην έννοια του διαφορικού απορρήτου.

Εκτός από τα ζητήματα απορρήτου της χρήσης δημόσιων δεδομένων, οι συγγραφείς αμφισβητούν περαιτέρω την πρακτικότητα αυτής της προσέγγισης.

Ο αντίκτυπος της προεκπαίδευσης είναι ιδιαίτερα αξιοσημείωτος για τα μοντέλα που είναι πολύ μεγάλα για να μπορούν οι τελικοί χρήστες να λειτουργούν στις δικές τους συσκευές. Επειδή αυτό θα απαιτούσε την εξωτερική ανάθεση ιδιωτικών δεδομένων σε τρίτο μέρος με μεγαλύτερη υπολογιστική ισχύ, η ανάπτυξη ενός τέτοιου μοντέλου θα είχε ως αποτέλεσμα την καθαρή απώλεια του απορρήτου.

Τέλος, οι συγγραφείς συζητούν πιθανές διαδρομές ανάπτυξης για τον τομέα της μάθησης της ιδιωτικής ζωής, καθώς η δημόσια προκατάρτιση γίνεται πιο δημοφιλής και ισχυρή.

Κείμενο 8: Η συζήτηση με πιο πειστικά LLMs οδηγεί σε πιο αληθινές απαντήσεις

Ηθοποιός: Άκμπιρ Καν, Τζον Χιουζ, Νταν Βαλεντάιν, Λόρα Ρούις, Κσιτίτζ Σάχαν, Ανς Ραντακρίσναν, Έντουαρντ Γκρέφενστετ, Σάμιουελ Ρ. Μπάουμαν, Τιμ Ρόκτσελ, Ίθαν Πέρεζ

Ιδρύματα: University College London, Speechmatics, MATS, Anthropic, FAR AI

Διεύθυνση χαρτιού: https://arxiv.org/abs/2402.06782

Επί του παρόντος, οι μέθοδοι ευθυγράμμισης LLM που χρησιμοποιούνται συνήθως βασίζονται σε μεγάλο βαθμό σε χειροκίνητα σχολιασμένα δεδομένα.

Ωστόσο, καθώς τα μοντέλα γίνονται πιο περίπλοκα, θα ξεπερνούν την ανθρώπινη τεχνογνωσία και ο ρόλος των ανθρώπινων αξιολογητών θα εξελιχθεί σε αυτόν των μη ειδικών που επιβλέπουν εμπειρογνώμονες.

Με βάση αυτό, ο συγγραφέας έθεσε ένα ερώτημα: Μπορεί ένα πιο αδύναμο μοντέλο να αξιολογήσει την ορθότητα ενός ισχυρότερου μοντέλου;

Σχεδιαστικά, τα ισχυρότερα μοντέλα (ειδικοί) έχουν τις απαραίτητες πληροφορίες για να απαντήσουν στην ερώτηση, ενώ τα πιο αδύναμα μοντέλα (μη ειδικοί) στερούνται αυτές τις πληροφορίες.

Η μέθοδος αξιολόγησης είναι η συζήτηση, στην οποία δύο ειδικοί LLM υπερασπίζονται ο καθένας διαφορετικές απαντήσεις, αντί να επιλέγουν οι ειδικοί τις απαντήσεις.

Τα αποτελέσματα έδειξαν ότι η συζήτηση βοήθησε σταθερά τα μη εξειδικευμένα μοντέλα και τους ανθρώπους να απαντήσουν καλύτερα σε ερωτήσεις, επιτυγχάνοντας ακρίβεια 76% και 88% αντίστοιχα (η βασική γραμμή ήταν 48% και 60% αντίστοιχα).

Επιπλέον, η βελτιστοποίηση της πειστικότητας των ειδικών συζητητών μέσω μη εποπτευόμενων μέσων βελτιώνει την ικανότητα των μη ειδικών να εντοπίζουν την αλήθεια στις συζητήσεις.

Paper 9: Genie: Generative Interactive Environments

Πρωταγωνιστούν: Τζέικ Μπρους, Μάικλ Ντένις, Άσλεϊ Έντουαρντς, Τζακ Πάρκερ-Χόλντερ, Γιουγκ Σι, Έντουαρντ Χιουζ, Μάθιου Λάι, Άντι Μαβαλανκάρ, Ρίτσι Στάιγκερβαλντ, Κρίς Αϊχάνιουφ Στέφανι Τσαν, Νίκολας Χις, Λούσι Γκονζάλες, Σάιμον Οσιντέρο, Σέρτζιλ Οζάιρ, Σκοτ Ριντ, Τζινγκγουέι Ζανγκ, Κόνραντ Ζόλνα, Τζεφ Κλάουν, Νάντο ντε Φρέιτας, Σατίντερ Σινγκ, Τιμ Ρόκτσελ

Ιδρυμα: Πανεπιστήμιο Κολούμπια, Google DeepMind

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2402.15391

Το βασικό παγκόσμιο μοντέλο που κυκλοφόρησε από την ομάδα Google DeepMind - Genie "Elf".

Από μια εικόνα, μια φωτογραφία, ένα σκίτσο, μπορεί να δημιουργήσει έναν ατελείωτο κόσμο.

Το τρελό με το Genie είναι ότι έμαθε από 200.000 ώρες βίντεο χωρίς ετικέτα στο Διαδίκτυο και εκπαιδεύτηκε χωρίς επίβλεψη.

Χωρίς σχολιασμούς δράσης, είναι δυνατό να προσδιοριστεί ποιος είναι ο πρωταγωνιστής και να δοθεί στον χρήστη ο έλεγχος πάνω του στον κόσμο που δημιουργείται.

Συγκεκριμένα, υλοποιείται μέσω τριών βασικών συνιστωσών: λανθάνον μοντέλο δράσης, τμηματοποιητής βίντεο και αυτοπαλινδρομικό δυναμικό μοντέλο.

Ο προκύπτων χώρος εκμάθησης λανθάνουσας δράσης όχι μόνο επιτρέπει την αλληλεπίδραση των χρηστών, αλλά βοηθά επίσης στην εκπαίδευση των πρακτόρων να μιμούνται συμπεριφορές σε βίντεο που δεν εμφανίζονται.

Συνολικά, το Genie ανοίγει έναν νέο δρόμο για την καλλιέργεια μελλοντικών γενικών πρακτόρων και αναδιαμορφώνει το τοπίο των διαδραστικών γενετικών περιβαλλόντων.

Paper 10: VideoPoet: A Large Language Model for Zero-Shot Video Generation

Πρωταγωνιστούν: Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiunaish, Hionaipali Γιονγκ Τσενγκ, Τζος Ντίλον, Άγκριμ Γκούπτα, Μίρα Χαν, Άνια Χάουθ, Ντέιβιντ Χέντον, Αλόνσο Μαρτίνεθ, Ντέιβιντ Μίνεν, Μιχαήλ Σιροτένκο, Κιχιούκ Σον, Σουάν Γιανγκ, Χάρτβιχ Άνταμ, Μινγκ-Χουάν Γιανγκίς, Β. Ροσάνγκυ ένας Seybold, ο Lu Jiang

Ιδρυμα: Πανεπιστήμιο Carnegie Mellon, Google

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2312.14125

Πριν από την κυκλοφορία του Sora, η Google και η ομάδα CMU παρουσίασαν το VideoPoet, μια τεχνολογία παραγωγής βίντεο παρόμοια με τη Sora, σε έναν τεχνικό οδικό χάρτη τον Δεκέμβριο του 2023.

Το VideoPoet μπορεί να δημιουργήσει 10 δευτερόλεπτα εξαιρετικά μεγάλου, συνεκτικού βίντεο μεγάλης δράσης κάθε φορά και δεν απαιτούνται συγκεκριμένα δεδομένα για τη δημιουργία του βίντεο.

Συγκεκριμένα, το VideoPoet περιλαμβάνει κυρίως τα ακόλουθα στοιχεία:

- Το προεκπαιδευμένο tokenizer βίντεο MAGVIT V2 και το SoundStream audio clip μπορούν να μετατρέψουν εικόνες, βίντεο και ηχητικά κλιπ διαφορετικού μήκους σε διακριτές ακολουθίες κώδικα σε ένα ενοποιημένο λεξιλόγιο. Αυτοί οι κώδικες είναι συμβατοί με μοντέλα γλώσσας κειμένου και μπορούν εύκολα να συνδυαστούν με άλλους τρόπους, όπως το κείμενο.

- Το μοντέλο αυτοπαλινδρομικής γλώσσας μπορεί να εκτελέσει διατροπική εκμάθηση μεταξύ βίντεο, εικόνας, ήχου και κειμένου και να προβλέψει το επόμενο διακριτικό βίντεο ή ήχου στη σειρά με αυτοπαλινδρομικό τρόπο.

- Εισάγεται μια ποικιλία μαθησιακών στόχων πολλαπλών τρόπων γενιάς στο πλαίσιο εκπαίδευσης μεγάλων γλωσσικών μοντέλων, όπως κείμενο σε βίντεο, κείμενο σε εικόνα, εικόνα σε βίντεο, συνέχεια καρέ βίντεο, επισκευή/επέκταση βίντεο, διαμόρφωση βίντεο και βίντεο σε ήχο κ.λπ. . Επιπλέον, αυτές οι εργασίες μπορούν να συνδυαστούν μεταξύ τους για την επίτευξη πρόσθετων δυνατοτήτων μηδενικού δείγματος (π.χ. κείμενο σε ήχο).

Διαφορετικό από τα κορυφαία μοντέλα, το VideoPoet δεν βασίζεται σε ένα μοντέλο διάχυσης, αλλά σε ένα μεγάλο πολυτροπικό μοντέλο, το οποίο μπορεί να έχει T2V, V2A και άλλες δυνατότητες.

Εν ολίγοις, το VideoPoet έχει τρία σημαντικά πλεονεκτήματα: τη δημιουργία βίντεο μεγαλύτερης διάρκειας, την επίτευξη πιο ακριβούς ελέγχου και τις ισχυρές κινήσεις της κάμερας.

Βραβείο Καλύτερης Κριτικής

Το καλύτερο από όλα, στο συνέδριο ICML 2024, ανακοινώθηκε και το Βραβείο Καλύτερης Κριτικής.

Βιβλιογραφικές αναφορές:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

Νέα

Το δεκάχρονο κλασικό της Jia Yangqing κέρδισε το βραβείο Time Test! ICML 2024 δέκα κλήρωση βραβείων καλύτερου χαρτιού, δημοφιλές SD3, Gu

Εισαγωγή

τα στοιχεία επικοινωνίας μου