Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]
Στον τομέα της τεχνητής νοημοσύνης, η αύξηση των παραμέτρων του μοντέλου συχνά σημαίνει βελτίωση της απόδοσης. Ωστόσο, καθώς η κλίμακα του μοντέλου επεκτείνεται, η υπολογιστική ισχύς και οι απαιτήσεις μνήμης της τερματικής συσκευής αυξάνονται επίσης. Η τεχνολογία κβαντοποίησης χαμηλών bit έχει γίνει μια από τις βασικές τεχνολογίες που επιτρέπουν στα μεγάλα μοντέλα να λειτουργούν αποτελεσματικά σε συσκευές περιορισμένων πόρων, επειδή μπορεί να μειώσει σημαντικά το κόστος αποθήκευσης και υπολογισμού και να βελτιώσει την αποτελεσματικότητα των συμπερασμάτων. Ωστόσο, εάν η συσκευή υλικού δεν υποστηρίζει τη λειτουργία κβαντισμένων δεδομένων χαμηλών bit, τότε τα πλεονεκτήματα της κβαντοποίησης χαμηλών bit δεν θα γίνουν αντιληπτά.
Προκειμένου να λύσει αυτό το πρόβλημα, η Microsoft Research Asia κυκλοφόρησε έναν νέο μεταγλωττιστή δεδομένων Ladder και αλγόριθμο T-MAC, ο οποίος επιτρέπει στο υλικό που υποστηρίζει μόνο συμμετρικούς υπολογισμούς ακριβείας να εκτελεί απευθείας πολλαπλασιασμό πινάκων μικτής ακρίβειας. Τα αποτελέσματα των δοκιμών δείχνουν ότι το Ladder μπορεί να επιτύχει μέγιστη ταχύτητα 14,6 φορές στην υποστήριξη προσαρμοσμένων τύπων δεδομένων που η GPU δεν υποστηρίζει αρχικά το T-MAC επιτρέπει σε εφαρμογές τεχνητής νοημοσύνης μεγάλης κλίμακας που εκτελούνται στη CPU να εκτελούνται σε υπολογιστή Surface AI εξοπλισμένο με την πιο πρόσφατη έκδοση. Η απόδοση του μοντέλου Qualcomm Snapdragon X Elite είναι διπλάσια από την αποκλειστική NPU του επιταχυντή. Επιπλέον, οι ερευνητές σχεδίασαν επίσης την αρχιτεκτονική υλικού LUT Tensor Core Αυτή η βελτιωμένη σχεδίαση επιτρέπει στο υλικό να υποστηρίζει άμεσα διάφορους υπολογισμούς μεικτής ακρίβειας χαμηλού bit, παρέχοντας νέες ιδέες για το σχεδιασμό υλικού τεχνητής νοημοσύνης.
Μεγάλα μοντέλα έχουν αναπτυχθεί ολοένα και περισσότερο σε τελικές συσκευές όπως smartphone, φορητούς υπολογιστές και ρομπότ για να παρέχουν προηγμένες υπηρεσίες ευφυΐας και απόκρισης σε πραγματικό χρόνο. Ωστόσο, μεγάλα μοντέλα που περιέχουν εκατοντάδες εκατομμύρια παραμέτρους θέτουν εξαιρετικά υψηλές απαιτήσεις στη μνήμη και την υπολογιστική ισχύ των τερματικών συσκευών, περιορίζοντας έτσι την ευρεία εφαρμογή τους. Η τεχνολογία κβαντοποίησης χαμηλού bit μπορεί να συμπιέσει σημαντικά το μέγεθος του μοντέλου και να μειώσει τη ζήτηση για υπολογιστικούς πόρους. Έχει γίνει ένα αποτελεσματικό μέσο για την ανάπτυξη μεγάλων μοντέλων από την πλευρά της συσκευής και την επίτευξη αποτελεσματικών συμπερασμάτων.
Με την ανάπτυξη της τεχνολογίας κβαντοποίησης χαμηλών bit, οι τύποι δεδομένων διαφοροποιούνται ολοένα και περισσότερο, όπως int4, int2, int1 και άλλα δεδομένα χαμηλών bit, κάνοντας τα μεγάλα μοντέλα να χρησιμοποιούν όλο και περισσότερο πολλαπλασιασμό μήτρας μικτής ακρίβειας με βάρος χαμηλού και μεγάλου bit. υπολογισμοί σε συμπέρασμα (πολλαπλασιασμός μήτρας μικτής ακρίβειας, mpGEMM). Ωστόσο, οι υπάρχουσες υπολογιστικές μονάδες υλικού, όπως οι CPU και οι GPU συνήθως υποστηρίζουν μόνο συμμετρικές λειτουργίες υπολογισμού και δεν είναι συμβατές με αυτόν τον πολλαπλασιασμό μήτρας μικτής ακρίβειας.
Πώς διαφέρει ο πολλαπλασιασμός πινάκων μικτής ακρίβειας από τον παραδοσιακό πολλαπλασιασμό πινάκων;
Στον παραδοσιακό πολλαπλασιασμό πίνακα, οι τιμές και στα δύο άκρα που εμπλέκονται στη λειτουργία είναι συμμετρικές, όπως FP16*FP16, int8*int8. Αλλά η κβαντοποίηση σε χαμηλά bit μεγάλων μοντέλων σπάει αυτή τη συμμετρία, καθιστώντας το ένα άκρο του πολλαπλασιασμού σε υψηλό bit και το άλλο άκρο σε χαμηλό bit, όπως int8*int1 ή int8*int2 που υλοποιούνται στο μοντέλο BitNet 1 bit και κινητή υποδιαστολή Μικτός πολλαπλασιασμός με ακέραιους αριθμούς FP16*int4.
Προκειμένου να δοθεί πλήρης σημασία στα πλεονεκτήματα της κβαντοποίησης χαμηλών bit, να επιτραπεί στις συσκευές υλικού να υποστηρίζουν απευθείας πολλαπλασιασμό πινάκων μικτής ακρίβειας και να διασφαλιστεί η υψηλή ταχύτητα και αποτελεσματική λειτουργία μεγάλων μοντέλων σε συσκευές τελικής πλευράς, επικεντρώθηκαν οι ερευνητές από τη Microsoft Research Asia. σχετικά με τους υπάρχοντες χειριστές υπολογιστών CPU και GPU και την καινοτομία αρχιτεκτονικής υλικού:
Ladder: μετατροπή προσαρμοσμένων τύπων δεδομένων χωρίς απώλειες σε τύπους δεδομένων που υποστηρίζονται από υλικό
Επί του παρόντος, οι επιταχυντές αιχμής ενσωματώνουν τις λειτουργίες υπολογιστικών μονάδων χαμηλότερου bit, όπως τα FP32, FP16, ακόμη και FP8, σε αρχιτεκτονικές νέας γενιάς. Ωστόσο, περιορισμένος από την περιοχή του τσιπ και το υψηλό κόστος υλικού, κάθε επιταχυντής μπορεί να παρέχει περιορισμένους τύπους υπολογιστικών μονάδων για τυπικούς τύπους δεδομένων. Για παράδειγμα, η GPU NVIDIA V100 TENSOR CORE υποστηρίζει μόνο FP16, ενώ ο A100 έχει προσθέσει υποστήριξη για int2, int4. , υποστήριξη int8, αλλά δεν καλύπτει νεότερες μορφές δεδομένων όπως FP8 ή OCP-MXFP. Επιπλέον, υπάρχει ένα κενό μεταξύ της ταχείας επανάληψης μεγάλων μοντέλων και του αργού ρυθμού των αναβαθμίσεων υλικού, με αποτέλεσμα πολλοί νέοι τύποι δεδομένων να μην υποστηρίζονται από υλικό, γεγονός που με τη σειρά του επηρεάζει την επιτάχυνση και τη λειτουργία μεγάλων μοντέλων.
Ερευνητές της Microsoft Research Asia διαπίστωσαν ότι παρόλο που ο επιταχυντής υλικού δεν διαθέτει υπολογιστικές οδηγίες για προσαρμοσμένους τύπους δεδομένων, το σύστημα μνήμης του μπορεί να τις μετατρέψει σε αδιαφανή μπλοκ δεδομένων σταθερού πλάτους για αποθήκευση αυθαίρετων τύπων δεδομένων. Ταυτόχρονα, οι περισσότεροι προσαρμοσμένοι τύποι δεδομένων μπορούν να μετατραπούν χωρίς απώλειες σε τυπικούς τύπους δεδομένων υψηλότερου bit που υποστηρίζονται από υπάρχουσες υπολογιστικές μονάδες υλικού. Για παράδειγμα, οι τανυστές NF4 μπορούν να μετατραπούν σε FP16 ή FP32 για να εκτελέσουν λειτουργίες κινητής υποδιαστολής.
Με βάση αυτά τα ευρήματα, οι ερευνητές πρότειναν αΜια μέθοδος για την υποστήριξη όλων των προσαρμοσμένων τύπων δεδομένων διαχωρίζοντας την αποθήκευση και τον υπολογισμό δεδομένων και ανέπτυξε τον μεταγλωττιστή δεδομένων Ladder για να γεφυρώσει το χάσμα μεταξύ των αναδυόμενων προσαρμοσμένων τύπων δεδομένων και των εγγενών μορφών ακριβείας που υποστηρίζονται από το τρέχον υλικό.
Το Ladder καθορίζει ένα σύστημα τύπων δεδομένων, συμπεριλαμβανομένων των αφαιρέσεων για μετατροπή χωρίς απώλειες μεταξύ τύπων δεδομένων. Μπορεί να αντιπροσωπεύει διάφορους τύπους δεδομένων που υποστηρίζονται από αλγόριθμους και υλικό και ορίζει κανόνες μετατροπής μεταξύ τύπων δεδομένων. Όταν ασχολείται με εφαρμογές αλγορίθμων χαμηλών bit, το Ladder μεταφράζει δεδομένα χαμηλών bit στην πιο αποτελεσματική μορφή εκτέλεσης στο τρέχον υλικό μέσω μιας σειράς βελτιστοποιήσεων, συμπεριλαμβανομένης της βελτιστοποίησης υπολογιστών και αποθήκευσης - αντιστοίχιση του αλγορίθμου σε αντίστοιχες οδηγίες υπολογισμού και δεδομένων σε διαφορετικές μορφές αποθηκεύονται σε διαφορετικά επίπεδα μονάδων αποθήκευσης για την επίτευξη των πιο αποτελεσματικών λειτουργιών.
Εικόνα 1: Αρχιτεκτονική συστήματος κλίμακας
Η αξιολόγηση απόδοσης συμπερασμάτων DNN που εκτελείται σε NVIDIA A100, NVIDIA V100, NVIDIA RTX A6000, NVIDIA RTX 4090 και GPU AMD Instinct MI250 δείχνει ότι το Ladder ξεπερνά τους υπάρχοντες μεταγλωττιστές DNN στην εγγενή υποστήριξη τύπων δεδομένων GPU καλά σε προσαρμοσμένους τύπους δεδομένων που δεν υποστηρίζονταν αρχικά, με μέγιστη ταχύτητα έως και 14,6 φορές.
Το Ladder είναι το πρώτο σύστημα που υποστηρίζει συστηματικά την αναπαράσταση δεδομένων ακριβείας χαμηλού bit σε προσαρμοσμένους τύπους δεδομένων κατά την εκτέλεση DNN σε σύγχρονους επιταχυντές υλικού.Αυτό παρέχει στους ερευνητές μοντέλων μια πιο ευέλικτη μέθοδο βελτιστοποίησης τύπων δεδομένων και επιτρέπει επίσης στους προγραμματιστές αρχιτεκτονικής υλικού να υποστηρίζουν ένα ευρύτερο φάσμα τύπων δεδομένων χωρίς αλλαγή του υλικού.
T-MAC: Καθολικός υπολογισμός πολλαπλασιασμού μήτρας μικτής ακρίβειας χαμηλού bit χωρίς πολλαπλασιασμό
Προκειμένου να επιτραπεί σε υπάρχουσες συσκευές υλικού να υποστηρίζουν διαφορετικούς τρόπους λειτουργίας δεδομένων και πολλαπλασιασμό πινάκων μικτής ακρίβειας, κατά την ανάπτυξη μεγάλων μοντέλων στην τελική πλευρά, μια κοινή προσέγγιση είναι η αντίστροφη κβαντοποίηση του μοντέλου χαμηλού bit. Ωστόσο, υπάρχουν δύο σημαντικά προβλήματα με αυτήν την προσέγγιση: πρώτον, από την άποψη της απόδοσης, τα γενικά έξοδα μετατροπής στη διαδικασία αποκβάντωσης μπορεί να αντισταθμίσουν τη βελτίωση της απόδοσης που προκαλείται από την κβαντοποίηση χαμηλών bit διάταξη δεδομένων και πυρήνας υπολογισμού για μικτή ακρίβεια. Οι ερευνητές της Microsoft Research Asia πιστεύουν ότι το κλειδί για την ανάπτυξη κβαντισμένων μεγάλων μοντέλων χαμηλού bit σε συσκευές έγκειται στον τρόπο διάσπασης της εφαρμογής του παραδοσιακού πολλαπλασιασμού μητρών που βασίζεται σε χαρακτηριστικά χαμηλών bit.
Για το σκοπό αυτό, οι ερευνητές έχουν προτείνει από τα επίπεδα συστήματος και αλγορίθμωνΤο T-MAC, μια μέθοδος που βασίζεται στον πίνακα αναζήτησης (LUT, Look-Up Table), βοηθά τα μεγάλα μοντέλα με κβαντισμό χαμηλού bit να επιτύχουν αποτελεσματικά συμπεράσματα στη CPU.Η βασική ιδέα του T-MAC είναι να επωφεληθεί από το χαρακτηριστικό ότι το ένα άκρο του πολλαπλασιασμού μήτρας μικτής ακρίβειας είναι πολύ χαμηλά bit (όπως 1 bit ή 2 bit). Τα αποτελέσματα εξόδου είναι μόνο 2 στην ισχύ 1 και 2 στην ισχύ 2 Αυτά τα μικρότερα αποτελέσματα μπορούν να υπολογιστούν εκ των προτέρων και να αποθηκευτούν στον πίνακα Κατά τη διάρκεια της λειτουργίας, τα αποτελέσματα πρέπει να διαβαστούν μόνο από τον πίνακα Η ανάγκη για επαναλαμβανόμενους υπολογισμούς μειώνει σημαντικά τον αριθμό των πράξεων πολλαπλασιασμού και πρόσθεσης.
Ειδικά,Το T-MAC μετατρέπει τον παραδοσιακό πολλαπλασιασμό με επίκεντρο τον τύπο δεδομένων σε λειτουργίες πίνακα αναζήτησης που βασίζονται σε bit, επιτρέποντας μια ενοποιημένη και επεκτάσιμη λύση πολλαπλασιασμού μήτρας μεικτής ακρίβειας που μειώνει το μέγεθος του πίνακα και το διατηρεί στο ελάχιστο σε μονάδες γρήγορης μνήμης, το κόστος της τυχαίας πρόσβασης οι πίνακες μειώνονται.Αυτή η καινοτομία ανοίγει το δρόμο για την ανάπτυξη κβαντισμένων μεγάλων μοντέλων χαμηλού bit σε συσκευές άκρων με περιορισμένους πόρους.
Εικόνα 2: Σχηματικό διάγραμμα T-MAC
Σε δοκιμές έναντι μοντέλων κβαντισμένων Llama χαμηλών bit και μεγάλων γλωσσών BitNet 1 bit, το T-MAC έδειξε σημαντικά πλεονεκτήματα απόδοσης. Στο Surface Laptop 7 εξοπλισμένο με τον πιο πρόσφατο Qualcomm Snapdragon, ο ρυθμός παραγωγής του μοντέλου 4bit 7B Llama μπορεί να φτάσει τα 20 tokens ανά δευτερόλεπτο, τα οποία είναι πολύ πιο γρήγορα από τη μέση ταχύτητα ανάγνωσης από τον άνθρωπο. Σε σύγκριση με το αρχικό πλαίσιο Llama.cpp, είναι 4 έως 5 φορές ταχύτερο και ακόμη και δύο φορές ταχύτερο από τον αποκλειστικό επιταχυντή NPU.
Ακόμη και σε συσκευές χαμηλότερης απόδοσης όπως το Raspberry Pi 5, το T-MAC επιτρέπει στο μοντέλο 3B BitNet-b1.58 να επιτύχει ρυθμό παραγωγής 11 tokens ανά δευτερόλεπτο. Το T-MAC έχει επίσης σημαντικά πλεονεκτήματα ισχύος, επιτυγχάνοντας τους ίδιους ρυθμούς παραγωγής σε συσκευές με περιορισμένους πόρους, ενώ απαιτεί μόνο το 1/4 έως το 1/6 του αριθμού πυρήνων του αρχικού Llama.cpp.
Αυτά τα αποτελέσματα δείχνουν ότι το T-MAC παρέχει μια πρακτική λύση που καθιστά πιο αποτελεσματική την ανάπτυξη μεγάλων μοντέλων γλώσσας σε συσκευές αιχμής που χρησιμοποιούν CPU γενικής χρήσης χωρίς να βασίζονται σε GPU, επιτρέποντας έτσι την ανάπτυξη μεγάλων μοντέλων σε συσκευές με περιορισμένους πόρους προώθηση της εφαρμογής μεγάλων μοντέλων σε ένα ευρύτερο φάσμα σεναρίων.
LUT Tensor Core: Οδηγώντας επιταχυντές υλικού επόμενης γενιάς με εγγενή υποστήριξη για πολλαπλασιασμό μήτρας μικτής ακρίβειας
Τόσο το T-MAC όσο και το Ladder εφαρμόζουν βελτιστοποιημένη υποστήριξη για πολλαπλασιασμό μήτρας μικτής ακρίβειας σε υπάρχουσες αρχιτεκτονικές CPU και GPU. Αν και αυτές οι καινοτομίες σε επίπεδο λογισμικού έχουν βελτιώσει σημαντικά την υπολογιστική απόδοση, εξακολουθούν να μην είναι τόσο αποτελεσματικές όσο οι επιταχυντές υλικού που μπορούν να εφαρμόσουν απευθείας έναν εξειδικευμένο πίνακα αναζήτησης. Οι ερευνητές πιστεύουν ότι η πιο ιδανική προσέγγιση είναι ο επανασχεδιασμός των επιταχυντών υλικού, έτσι ώστε οι CPU, οι GPU, κ.λπ. να μπορούν να υποστηρίξουν εγγενώς τον πολλαπλασιασμό μήτρας μικτής ακρίβειας, ωστόσο, αυτός ο στόχος αντιμετωπίζει τρεις μεγάλες προκλήσεις:
Για την αντιμετώπιση αυτών των προκλήσεων, οι ερευνητές της Microsoft Research Asia σχεδίασανLUT Tensor Core, μια μικροαρχιτεκτονική GPU Tensor Core που χρησιμοποιεί πίνακες αναζήτησης για να εκτελέσει απευθείας πολλαπλασιασμό μήτρας μικτής ακρίβειας.Από τη μία πλευρά, ο σχεδιασμός που βασίζεται στον πίνακα αναζήτησης απλοποιεί τη λειτουργία πολλαπλασιασμού σε μια λειτουργία προ-υπολογισμού πίνακα και τα αποτελέσματα μπορούν να αναζητηθούν απευθείας στον πίνακα για να βελτιωθεί η απόδοση υπολογισμού. Από την άλλη πλευρά, αυτή η προσέγγιση απλοποιεί επίσης τις απαιτήσεις υλικού Απαιτεί μόνο καταχωρητές για αποθήκευση πινάκων και πολυπλέκτης για αναζήτηση, χωρίς την ανάγκη πολλαπλασιαστών και αθροιστών. Ταυτόχρονα, ο πυρήνας LUT Tensor επιτυγχάνει ευελιξία στην ακρίβεια βάρους μέσω του σχεδιασμού σειριακών δυαδικών ψηφίων και χρησιμοποιεί κβαντισμό πίνακα για να επιτύχει ευελιξία στην ακρίβεια ενεργοποίησης.
Επιπλέον, για να ενσωματωθούν με την υπάρχουσα μικροαρχιτεκτονική και στοίβα λογισμικού GPU, οι ερευνητές επέκτεισαν το υπάρχον σύνολο εντολών MMA στη GPU, πρόσθεσαν ένα σύνολο εντολών LMMA και σχεδίασαν μια στοίβα λογισμικού παρόμοια με το cuBLAS για ενσωμάτωση σε υπάρχουσες GPU ορισμένα πλαίσια DNN. Οι ερευνητές σχεδίασαν επίσης έναν μεταγλωττιστή για σχεδιασμό εκτέλεσης από άκρο σε άκρο σε GPU με πυρήνες τανυστή LUT. Αυτές οι καινοτόμες προσεγγίσεις επιτρέπουν την απρόσκοπτη και γρήγορη υιοθέτηση των πυρήνων τανυστή LUT.
Εικόνα 3: Επισκόπηση μικροαρχιτεκτονικής του πυρήνα τανυστή LUT
Οι δοκιμές σε μοντέλα Llama και BitNet δείχνουν ότι ο LUT Tensor Core μπορεί να παρέχει έως και 6,93 φορές την ταχύτητα συμπερασμάτων και αντιπροσωπεύει μόνο το 38,7% της επιφάνειας του παραδοσιακού Tensor Core. Με σχεδόν την ίδια ακρίβεια μοντέλου, αυτό ισοδυναμεί με 20,7 φορές την υπολογιστική πυκνότητα και 19,1 φορές τη βελτίωση της ενεργειακής απόδοσης. Καθώς η κλίμακα και η πολυπλοκότητα των μεγάλων μοντέλων τεχνητής νοημοσύνης συνεχίζουν να αυξάνονται, το LUT Tensor Core βοηθά στην περαιτέρω απελευθέρωση των δυνατοτήτων των μοντέλων μεγάλων γλωσσών χαμηλού bit και στην προώθηση της εφαρμογής της τεχνητής νοημοσύνης σε νέα σενάρια.
"Η μέθοδος του πίνακα αναζήτησης οδήγησε σε μια αλλαγή στο υπολογιστικό παράδειγμα. Στο παρελθόν βασιζόμασταν σε λειτουργίες πολλαπλασιασμού και συσσώρευσης πινάκων, αλλά στην εποχή των μεγάλων μοντέλων, χάρη στην τεχνολογία κβαντοποίησης χαμηλών bit, ο πίνακας αναζήτησης Η μέθοδος θα γίνει mainstream Σε σύγκριση με τον παραδοσιακό αριθμητικό δείκτη ή τον πολλαπλασιασμό μήτρας, η μέθοδος του πίνακα αναζήτησης είναι πιο ελαφριά και αποτελεσματική στον υπολογισμό και μπορεί να επεκταθεί ευκολότερα σε επίπεδο υλικού περιοχή τσιπ, προωθώντας έτσι την ανάπτυξη της καινοτομίας υλικού», δήλωσε ο Cao Ting, επικεφαλής ερευνητής της Microsoft Research Asia.
Το εφέ της μακριάς ουράς της κβαντοποίησης χαμηλών bit: φέρνοντας νέες δυνατότητες στην ενσωματωμένη νοημοσύνη
Η τεχνολογία κβαντοποίησης χαμηλών bit όχι μόνο βελτιστοποιεί την αποδοτικότητα λειτουργίας μεγάλων μοντέλων σε συσκευές τελικής πλευράς, αλλά παρέχει επίσης νέο χώρο για επέκταση παραμέτρων μοντέλου (Scale up) μειώνοντας την «ένταση» μιας μεμονωμένης παραμέτρου. Αυτή η δυνατότητα επέκτασης παραμέτρων δίνει στο μοντέλο μεγαλύτερη ευελιξία και εκφραστικές δυνατότητες Όπως φαίνεται από το μοντέλο BitNet, ξεκινά από ένα μοντέλο χαμηλού bit και σταδιακά επεκτείνεται σε μεγαλύτερης κλίμακας εκπαίδευση.
Οι καινοτόμες τεχνολογίες της Microsoft Research Asia, όπως το T-MAC, το Ladder και το LUT Tensor Core, παρέχουν λύσεις λειτουργίας υψηλής απόδοσης για διάφορα μεγάλα μοντέλα με κβαντισμό χαμηλού bit, επιτρέποντας σε αυτά τα μοντέλα να λειτουργούν αποτελεσματικά σε διάφορες συσκευές και προωθούν την επιστημονική έρευνα Σχεδιασμός και βελτιστοποίηση μεγάλων μοντέλων από μια προοπτική χαμηλού bit. Ορισμένες από αυτές τις τεχνολογίες παίζουν ήδη ρόλο σε μεγάλα μοντέλα αναζήτησης, όπως η αναζήτηση Bing της Microsoft και η διαφημιστική της επιχείρηση.Με τη μείωση της μνήμης και των υπολογιστικών πόρων, θα καταστεί επίσης δυνατή η ανάπτυξη μεγάλων μοντέλων χαμηλών bit σε ενσωματωμένα ευφυή συστήματα όπως τα ρομπότ, επιτρέποντας σε αυτές τις συσκευές να επιτυγχάνουν καλύτερα δυναμική αντίληψη και αλληλεπίδραση σε πραγματικό χρόνο με το περιβάλλον.
Επί του παρόντος, το T-MAC και το Ladder είναι ανοιχτού κώδικα στο GitHub Οι σχετικοί προγραμματιστές είναι ευπρόσδεκτοι να δοκιμάσουν τις εφαρμογές και να εξερευνήσουν περισσότερες δυνατότητες τεχνολογίας τεχνητής νοημοσύνης με τη Microsoft Research Asia.