Νέα

Εκπαίδευση GPU Το Llama 3.1 κολλάει σαν τρελό Υπάρχει κάποιος μεγάλος κατασκευαστής που χρησιμοποιεί διακομιστή CPU για να τρέξει ένα μεγάλο μοντέλο με εκατοντάδες δισεκατομμύρια παραμέτρους;

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία]Ήρθε η ώρα να χρησιμοποιήσετε έναν γενικό διακομιστή CPU για να εκτελέσετε μεγάλα μοντέλα με εκατοντάδες δισεκατομμύρια παραμέτρους!

Ο Μασκ κατασκεύασε τον μεγαλύτερο υπερυπολογιστή στον κόσμο που αποτελείται από 100.000 H100 συνδεδεμένους σε 19 ημέρες και έχει αφοσιωθεί πλήρως στην εκπαίδευση του Grok 3.

Την ίδια στιγμή, ξένα μέσα ενημέρωσης έκαναν την είδηση ​​ότι το επόμενο σύμπλεγμα υπερυπολογιστών που κατασκευάστηκε από κοινού από την OpenAI και τη Microsoft θα αποτελείται από 100.000 GB200.

Σε αυτόν τον διαγωνισμό τεχνητής νοημοσύνης, μεγάλες εταιρείες τεχνολογίας καταβάλλουν κάθε δυνατή προσπάθεια για να αυξήσουν τις επενδύσεις σε GPU, κάτι που φαίνεται να σημαίνει ότι η ύπαρξη ολοένα και πιο ισχυρών GPU θα τις κάνει ανίκητες.

Ωστόσο, αυτή η φανατική επιδίωξη των high-end GPU δεν είναι μια άψογη λύση σε όλες τις περιπτώσεις.


Ο πατέρας της Pytorch είπε ότι υπάρχουν πολλές ενδιαφέρουσες λεπτομέρειες της υποδομής που κρύβονται στην τεχνική έκθεση, συμπεριλαμβανομένου του τρόπου παραλληλισμού, του πώς να γίνει το σύστημα πιο αξιόπιστο κ.λπ.

Λαμβάνοντας για παράδειγμα τη σταθερότητα, κατά τη διάρκεια των 54 ημερών εκπαίδευσης στο Llama 3.1, το σύμπλεγμα H100 των 16.000 μπλοκ του Meta αντιμετώπισε συνολικά 419 απροσδόκητες διακοπές, που ισοδυναμούν με κατά μέσο όρο μία κάθε 3 ώρες.

Μεταξύ αυτών, 148 φορές (30,1%) προκλήθηκαν από διάφορες βλάβες GPU.

Αντίθετα, υπήρξαν μόνο 2 διακοπές που προκλήθηκαν από βλάβες της CPU.


Από την άλλη πλευρά, εάν θέλετε να εκτελέσετε το Llama 3.1 405B, πρέπει να το αντιστοιχίσετε με δύο σταθμούς εργασίας 8×H100 DGX - δηλαδή 1280 GB μνήμης βίντεο.

Κάποτε ένας πολεμιστής προσπάθησε να το τρέξει με ένα 4090, αλλά μετά από 30 λεπτά αναμονής, το μοντέλο έφτυσε σιγά σιγά το "The".


Η πλήρης απάντηση χρειάστηκε 20 ολόκληρες ώρες

Οι φίλοι που είναι εξοικειωμένοι με την εκπαίδευση μοντέλων και το συμπέρασμα ξέρουν ότι αυτά τα πράγματα δεν εκπλήσσουν καθόλου.

Κατασκευή συμπλέγματος (διαμόρφωση GPU, σχεδιασμός δικτύου, βελτιστοποίηση κομματιού κ.λπ.), διαχείριση συμπλεγμάτων (παρακολούθηση σε πραγματικό χρόνο, αντιμετώπιση προβλημάτων κ.λπ.)...όλα είναι "μπλόκα".

Τι είναι να κάνει μια εταιρεία που δεν έχει σχετική εμπειρία και κεφάλαιο;


Πρόσφατα, οι μηχανικοί R&D της Inspur Information χρησιμοποίησαν μόνο 4 CPU για να τρέξουν το "Source 2.0" με εκατοντάδες δισεκατομμύρια παραμέτρους σε έναν διακομιστή γενικής χρήσης!

Αντιμέτωπος με την αποστολή κωδικοποίησης της συγγραφής ενός προγράμματος σε Java, το "Source 2.0" δίνει αποτελέσματα πολύ γρήγορα.


Δώστε του μια άλλη συλλογιστική ερώτηση - μια σκάλα είναι κρεμασμένη στο πλάι του σκάφους, 2 μέτρα πάνω από τη θάλασσα Αν το νερό της θάλασσας ανεβαίνει μισό μέτρο την ώρα, πόσες ώρες θα χρειαστούν για να βυθιστεί η σκάλα;

Ομοίως, η τεχνητή νοημοσύνη παρέχει λεπτομερή βήματα επίλυσης προβλημάτων και απαντήσεις με σχεδόν μηδενική καθυστέρηση.



Είναι άνευ προηγουμένου η χρήση διακομιστή γενικής χρήσης για την εκτέλεση μεγάλων μοντέλων με εκατοντάδες δισεκατομμύρια παραμέτρους.

Πώς το κάνει η Inspur Information;

Χρησιμοποιήστε 4 CPU για να αξιοποιήσετε μεγάλα μοντέλα με εκατοντάδες δισεκατομμύρια παραμέτρους

Για να επιτευχθεί το συμπέρασμα ενός μεγάλου μοντέλου με εκατοντάδες δισεκατομμύρια παραμέτρους σε έναν μόνο διακομιστή, υπάρχουν δύο κύρια στάδια, τα οποία και τα δύο επιβάλλουν σκληρές απαιτήσεις στην υπολογιστική ισχύ.

Πρώτον, υπάρχει το στάδιο προγεμίσματος, που ονομάζεται επίσης στάδιο διάδοσης προς τα εμπρός.

Αυτό το στάδιο περιλαμβάνει την επεξεργασία των δεδομένων εισόδου και την πρώτη ανάγνωση των παραμέτρων του μοντέλου.

Για παράδειγμα, όταν εισάγετε την προτροπή "Γράψε μου ένα άρθρο σχετικά με την τεχνητή νοημοσύνη", το στάδιο προ-πληθυσμού θα εισαγάγει όλα τα διακριτικά και τις παραμέτρους του μοντέλου στην ερώτηση στον υπολογισμό ταυτόχρονα.

Μερικές φορές, αυτή η εισαγωγή μπορεί να είναι λίγες λέξεις, μπορεί να είναι χιλιάδες λέξεις ή μπορεί να είναι ένα βιβλίο.

Το πόσο απαιτητικό είναι υπολογιστικά το πρώτο στάδιο εξαρτάται κυρίως από τη διάρκεια της εισαγωγής μας.

Κατά τον υπολογισμό του πρώτου διακριτικού, αφού το μοντέλο φορτώνεται για πρώτη φορά, όλες οι παράμετροι βάρους, καθώς και η προσωρινή μνήμη KV και άλλα δεδομένα θα αποθηκευτούν στη μνήμη.

Αυτός είναι 2-3 φορές ο χώρος μνήμης που καταλαμβάνουν οι ίδιες οι παράμετροι του μοντέλου.

Για εκατοντάδες δισεκατομμύρια μοντέλα παραμέτρων, ένας μεγάλος αριθμός παραμέτρων και εισροών δεδομένων πρέπει να υποβληθεί σε επεξεργασία σε ισχυρές υπολογιστικές μονάδες. Για αυτό, πρέπει να υποστηρίξει σύνολο εντολών διανυσματοποίησης και σύνολο εντολών υπολογισμού μήτρας για την υλοποίηση μεγάλου αριθμού λειτουργιών πολλαπλασιασμού πινάκων και τανυστών.

Δεύτερον, υπάρχει το στάδιο της αποκωδικοποίησης, δηλαδή το στάδιο όπου το μοντέλο αρχίζει να βγάζει αποτελέσματα μετά την εισαγωγή όλων των ερωτήσεων.

Σε αυτό το στάδιο, η μόνη απαίτηση για μεγάλα μοντέλα είναι η παραγωγή όσο το δυνατόν γρηγορότερα. Ταυτόχρονα, η πρόκληση δεν είναι πλέον πρόκληση υπολογιστικής ισχύος, αλλά πρόκληση «μεταφοράς δεδομένων».

Περιλαμβάνει δύο μέρη της «μεταφοράς δεδομένων»:

  • Η μεγάλη ποσότητα της προσωρινής μνήμης KV που δημιουργείται στο στάδιο της προπλήρωσης πρέπει να μετακινηθεί από τη μνήμη/μνήμη βίντεο στη μονάδα υπολογιστών (ο φόρτος εργασίας είναι πολύ μεγάλος)

  • Μεταφορά των ίδιων των παραμέτρων του μοντέλου

Αυτές οι μεταφορές παίζουν καθοριστικό ρόλο στον υπολογισμό και την ταχύτητα συμπερασμάτων μεγάλων μοντέλων. Η μεταφορά δεδομένων είναι πολύ γρήγορη και η ταχύτητα εκφώνησης LLM θα είναι επίσης γρήγορη.

Η έξοδος LLM δημιουργεί κυρίως διακριτικά ένα προς ένα μέσω του KV Catch και αποθηκεύει το διάνυσμα κλειδιού-τιμής του νέου κομματιού λέξης μετά από κάθε βήμα παραγωγής.

Επομένως, για την εξαγωγή συμπερασμάτων σε πραγματικό χρόνο εκατοντάδων δισεκατομμυρίων μεγάλων μοντέλων, ο διακομιστής πρέπει να έχει υψηλή υπολογιστική ισχύ και υψηλή απόδοση μεταφοράς δεδομένων από μονάδες αποθήκευσης σε υπολογιστικές μονάδες.

Συνολικά, τα δύο στάδια του συλλογισμού μεγάλων μοντέλων έχουν εντελώς διαφορετικά υπολογιστικά χαρακτηριστικά, τα οποία απαιτούν συνεργατική βελτιστοποίηση όσον αφορά το λογισμικό και το υλικό.

Η GPU δεν είναι το παν

Παραδοσιακά, η GPU έχει γίνει η πρώτη επιλογή για εκπαίδευση και εξαγωγή συμπερασμάτων AI λόγω των ανώτερων δυνατοτήτων παράλληλης επεξεργασίας.

κόστος

Ωστόσο, οι διακομιστές GPU υψηλής τεχνολογίας είναι συχνά σε έλλειψη στην αγορά και είναι εξαιρετικά δύσκολο να αποκτηθούν.

Μόνο καλά χρηματοδοτούμενοι τεχνολογικοί γίγαντες, όπως η Microsoft και η Google, μπορούν να αντέξουν οικονομικά αυτό το κόστος.

Από την άλλη πλευρά, δεν είναι μόνο δυσβάσταχτο, αλλά και μη προσιτό.

Η ενοικίαση υπηρεσιών cloud που βασίζεται σε GPU είναι ακριβή στις εργασίες συμπερασμάτων. Για τους επιστημονικούς ερευνητές και τους κατασκευαστές εφαρμογών, εάν χρειάζεται να επιτύχουν υψηλότερη σχέση κόστους-αποτελεσματικότητας, πρέπει να βρουν έναν άλλο τρόπο.

Μνήμη βίντεο

Επιπλέον, ένα από τα μεγαλύτερα μειονεκτήματα της GPU είναι ότι η χωρητικότητα της μνήμης βίντεο είναι περιορισμένη.

Η τρέχουσα αρχιτεκτονική δικτύου του LLM στον κλάδο έχει μετακινηθεί σταδιακά από το GPT στο MoE. Η κλίμακα παραμέτρων των μεγάλων μοντέλων που οδηγεί στο AGI θα αυξηθεί μόνο εκθετικά.

Αυτό σημαίνει ότι το μέγεθος των mainstream μοντέλων κλειστού κώδικα/ανοικτού κώδικα θα γίνεται όλο και μεγαλύτερο και τα μοντέλα με εκατοντάδες δισεκατομμύρια παραμέτρους ή ακόμη και τρισεκατομμύρια παραμέτρους θα γίνονται mainstream.

Για δεκάδες δισεκατομμύρια μοντέλα παραμέτρων, αρκούν 20-30 GB μνήμης βίντεο. Ωστόσο, εάν θέλετε να εκτελέσετε 100 δισεκατομμύρια παραμέτρους, θα χρειαστείτε περίπου 200-300 GB χώρου μνήμης βίντεο.

Τα τρέχοντα mainstream τσιπ AI έχουν συνήθως μόνο μερικές δεκάδες GB μνήμης βίντεο, η οποία προφανώς δεν μπορεί να φιλοξενήσει ένα τόσο μεγάλο μοντέλο. (Το πιο ισχυρό τσιπ AI δεν έχει φτάσει τα 200 GB)


Υποτιμημένος διακομιστής γενικού σκοπού

Εάν η GPU δεν λειτουργεί, τότε ξεκινήστε με την CPU.

Παρόλο που η εκπαίδευση μοντέλων μεγάλης κλίμακας δεν είναι επί του παρόντος δυνατή, οι διακομιστές γενικής χρήσης έχουν απροσδόκητα σημαντικά πλεονεκτήματα στις εργασίες εξαγωγής συμπερασμάτων.

Στη διαδικασία της συγκεκριμένης πρακτικής, οι μηχανικοί της Inspur Information ξεκίνησαν από τους πόρους υλικού και τα επίπεδα αλγορίθμων για να ξεπεράσουν κάθε «εμπόδιο».

Εξαιρετικά μεγάλη μνήμη + εύρος ζώνης υψηλής ταχύτητας

Όσον αφορά την υπολογιστική ισχύ,Επί του παρόντος, οι κορυφαίοι CPU διακομιστών έχουν ήδη δυνατότητες επιτάχυνσης AI.

Παρόμοια με τον πυρήνα Tensor της GPU, η προηγμένη επέκταση μήτρας AMX μπορεί να επιταχύνει υπολογισμούς χαμηλής ακρίβειας, να συντάξει ένα σύνολο εντολών στον πυρήνα της CPU και να χρησιμοποιήσει έναν αποκλειστικό πυρήνα για επιτάχυνση.

Όσον αφορά τους αλγόριθμους,Ο καθολικός διακομιστής της Inspur Information μπορεί να υποστηρίξει ταυτόχρονα mainstream πλαίσια AI, όπως το PyTorch και το TensorFlow, καθώς και δημοφιλή εργαλεία ανάπτυξης όπως το DeepSpeed, καλύπτοντας τις ανάγκες των χρηστών για ένα πιο ώριμο, εύκολο στην ανάπτυξη και πιο βολικό ανοιχτό οικοσύστημα.

Σε επίπεδο επικοινωνίας,Ο σχεδιασμός της διασύνδεσης διαύλου UPI (Ultra Path Interconnect) με πλήρη σύνδεση πραγματοποιεί αποτελεσματική μετάδοση δεδομένων μεταξύ των CPU:

  1. Επιτρέπει την απευθείας μεταφορά δεδομένων μεταξύ οποιωνδήποτε δύο CPU, μειώνοντας τις καθυστερήσεις επικοινωνίας

  2. Παρέχει υψηλούς ρυθμούς μεταφοράς, έως και 16 GT/s (Μεταφορές Giga ανά δευτερόλεπτο)


Επιπλέον, οι μηχανικοί R&D της Inspur Information βελτιστοποίησαν επίσης τις διαδρομές καλωδίωσης και τη συνέχεια της σύνθετης αντίστασης μεταξύ των CPU και μεταξύ των CPU και της μνήμης.

Με βάση τα αποτελέσματα της τρισδιάστατης προσομοίωσης, προσάρμοσαν τη διάταξη via για να μειώσουν την αλληλεπίδραση σήματος κάτω από -60 dB, η οποία είναι 50% χαμηλότερη από την προηγούμενη γενιά.

Επιπλέον, μέσω της ενεργής προσομοίωσης DOE matrix, βρίσκεται η βέλτιστη λύση για το συνδυασμό όλων των γωνιών του καναλιού, επιτρέποντας την πλήρη αξιοποίηση της απόδοσης υπολογιστικής ισχύος.

Όσον αφορά τη μνήμη,Μπορούμε να πούμε ότι είναι το μεγαλύτερο πλεονέκτημα των διακομιστών γενικής χρήσης.

  • χωρητικότητα

Για διακομιστή 4 υποδοχών, χρειάζεται μόνο να συνδέσετε 8 στικάκια μνήμης 32 GB σε κάθε CPU για να φτάσετε εύκολα το 1 TB. Όταν τοποθετηθεί πλήρως, μπορεί ακόμη και να επεκταθεί στα 16 TB και μπορεί να υποστηρίξει μοντέλα με έως και ένα τρισεκατομμύριο παραμέτρους.

  • εύρος ζώνης

Σε συνδυασμό με μνήμη DDR5, μπορεί να επιτευχθεί ένα θεωρητικό εύρος ζώνης 4800 MHz × 8 bit × 8 κανάλια × 4 ÷ 1024 = 1200 GB/s.

Τα πραγματικά αποτελέσματα μέτρησης δείχνουν ότι το εύρος ζώνης ανάγνωσης είναι 995 GB/s, το εύρος ζώνης εγγραφής είναι 423 GB/s και το εύρος ζώνης ανάγνωσης και εγγραφής είναι 437 GB/s.

Αυτά τα δεδομένα είναι συγκρίσιμα με ορισμένες GPU ή κάρτες επιτάχυνσης που διαθέτουν μνήμη GDDR.


Αλλά το υλικό από μόνο του δεν αρκεί

Το να βασίζεσαι αποκλειστικά στην καινοτομία υλικού δεν αρκεί Είναι δύσκολο για την CPU να εκτελεί παράλληλους υπολογισμούς μεγάλων μοντέλων.

Όπως αναφέρθηκε στην αρχή, τα μεγάλα μοντέλα έχουν πολύ υψηλές απαιτήσεις για εύρος ζώνης επικοινωνίας, είτε πρόκειται για υπολογισμό δεδομένων, μεταξύ υπολογιστικών μονάδων ή μεταξύ υπολογιστικών μονάδων και μνήμης.

Εάν υπολογίζεται σύμφωνα με την ακρίβεια BF16, εάν θέλετε η καθυστέρηση εκτέλεσης ενός μεγάλου μοντέλου 100 δισεκατομμυρίων να είναι μικρότερη από 100 ms, το εύρος ζώνης επικοινωνίας μεταξύ της μνήμης και της μονάδας υπολογιστών πρέπει να είναι τουλάχιστον 2 TB/s.

Όχι μόνο αυτό, οι επεξεργαστές διακομιστών γενικής χρήσης δεν είναι κατάλληλοι για μεγάλα μοντέλα τεχνητής νοημοσύνης που βασίζονται σε σχέδια καρτών επιτάχυνσης που είναι καλοί σε παράλληλους υπολογιστές μεγάλης κλίμακας.

Ο λόγος είναι προφανής: αν και το τελευταίο έχει έναν εξαιρετικά ευέλικτο και υψηλής απόδοσης υπολογιστικό πυρήνα, δεν έχει παράλληλο περιβάλλον εργασίας.

Σε γενικές γραμμές, ένας διακομιστής γενικής χρήσης θα μεταφέρει πρώτα το βάρος του μοντέλου σε μια CPU και στη συνέχεια θα το αφήσει να συνδεθεί με άλλες CPU σε σειρά για να πραγματοποιήσει τη μετάδοση δεδομένων βάρους.

Ωστόσο, δεδομένου ότι τα μεγάλα μοντέλα πρέπει να μεταφέρουν συχνά βάρη αλγορίθμων μεταξύ μνήμης και CPU κατά τη λειτουργία, η συνέπεια αυτού είναι ότι η χρήση του εύρους ζώνης μεταξύ της CPU και της μνήμης δεν είναι υψηλή και η επιβάρυνση της επικοινωνίας είναι εξαιρετικά υψηλή.


Πώς να λύσετε το πρόβλημα;Καινοτομήστε με αλγόριθμους

Ως απάντηση στα παραπάνω προβλήματα, η Inspur Information πρότεινε δύο τεχνολογικές καινοτομίες, το "Tensor Parallel" (Tensor Parallel) και το "NF4 Quantification", και πραγματοποίησε επιτυχώς το συμπέρασμα σε πραγματικό χρόνο των εκατοντάδων δισεκατομμυρίων μεγάλου μοντέλου Yuan2.0-102B.

Σύμφωνα με τα αποτελέσματα της ανάλυσης απόδοσης, η κατανομή χρόνου υπολογισμού διαφορετικών τμημάτων του μοντέλου μπορεί να φανεί καθαρά——

Ο χρόνος εκτέλεσης του γραμμικού επιπέδου αντιστοιχεί στο 50%, ο χρόνος εκτέλεσης συνέλιξης αντιστοιχεί στο 20%, ο χρόνος επικοινωνίας συνάθροισης αντιστοιχεί στο 20% και άλλοι υπολογισμοί αντιστοιχούν στο 10%.

Σημειώστε ότι σε όλη τη διαδικασία εξαγωγής συμπερασμάτων, ο χρόνος υπολογισμού αντιστοιχεί στο 80%!

Αυτό έρχεται σε πλήρη αντίθεση με τη χρήση πολλαπλών καρτών επιτάχυνσης PCIe AI - το κόστος επικοινωνίας των τελευταίων μπορεί να φτάσει το 50%, με αποτέλεσμα τη σοβαρή σπατάλη υπολογιστικής ισχύος.


Γράφημα αποτελεσμάτων ανάλυσης απόδοσης συμπερασμάτων μοντέλου Yuan2.0-102B

παραλληλισμός τανυστών

Ο λεγόμενος παραλληλισμός τανυστών αρχικά διαιρεί τον τελεστή συνέλιξης σε τανυστές και στη συνέχεια υπολογίζει τα βάρη των πινάκων του επιπέδου προσοχής και του στρώματος τροφοδοσίας στο μεγάλο μοντέλο και τους εισάγει στη μνήμη πολλαπλών επεξεργαστών.

Με αυτόν τον τρόπο, οι τέσσερις CPU στον γενικό διακομιστή μπορούν να λάβουν βάρη αλγορίθμων ταυτόχρονα για να επιταχύνουν τους υπολογισμούς.

Ωστόσο, ο παραλληλισμός τανυστών διαιρεί τις παραμέτρους του μοντέλου σε λεπτότερες λεπτομέρειες, απαιτώντας από την CPU να εκτελεί συγχρονισμό δεδομένων μετά από κάθε υπολογισμό τανυστή.

Για αυτήν την απαίτηση, η τεχνολογία διασύνδεσης διαύλου UPI πλήρους ζεύξης που αναφέρεται παραπάνω μπορεί να καλύψει πλήρως αυτήν την απαίτηση (το εύρος ζώνης επικοινωνίας είναι έως 16 GT/s).

Τελικά, αυτή η συλλογική παράλληλη εργασία αύξησε άμεσα την υπολογιστική απόδοση κατά 4 φορές!


Ποσοτικοποίηση NF4

Όσον αφορά το πρόβλημα του ανεπαρκούς εύρους ζώνης μνήμης, το μοντέλο πρέπει να «αδυνατίσει» χωρίς να επηρεαστεί η ακρίβεια, δηλαδή να κβαντιστεί.

Το πλεονέκτημα είναι ότι από τη μία πλευρά, οι παράμετροι LLM μπορούν να κβαντιστούν σε δεδομένα χαμηλού bit και τα βάρη θα γίνουν μικρότερα. Από την άλλη πλευρά, μετά τη μείωση του βάρους, η ποσότητα των δεδομένων που μεταδίδονται κατά τον υπολογισμό θα γίνει επίσης μικρότερη.

Εδώ, η Inspur Information υιοθετεί μια σπάνια μέθοδο ποσοτικοποίησης - NF4 (4-ψήφιο NormalFloat).


Η μέθοδος κβαντοποίησης NF4 μπορεί να συμπιέσει το μέγεθος των Yuan2,0-102B στο 1/4 του αρχικού μεγέθους.

Συγκεκριμένα, η βασική ιδέα του NF4 είναι να διασφαλίσει ότι ο αριθμός των τιμών του τανυστή εισόδου εντός του διαστήματος κβαντισμού είναι ίσος.

Αυτό το χαρακτηριστικό είναι πολύ κατάλληλο για την παρουσίαση βαρών LLM με περίπου κανονική κατανομή.

Επειδή η τυπική απόκλιση μπορεί να ρυθμιστεί ώστε να ταιριάζει στο εύρος του κβαντισμένου τύπου δεδομένων, το NF4 μπορεί να επιτύχει υψηλότερη ακρίβεια από την παραδοσιακή ποσοτικοποίηση ακέραιων αριθμών 4 bit ή 4 bit.

Με αυτόν τον τρόπο, το κβαντισμένο μοντέλο μπορεί όχι μόνο να καλύψει τις απαιτήσεις ακρίβειας, αλλά και να μειώσει σημαντικά την ποσότητα δεδομένων πρόσβασης στη μνήμη για παράλληλους υπολογιστές μεγάλης κλίμακας, ικανοποιώντας έτσι τις απαιτήσεις αποκωδικοποίησης της λογικής σε πραγματικό χρόνο.


Τα διαστήματα δεδομένων για μεθόδους κβαντοποίησης ακεραίων ή κινητής υποδιαστολής είναι συνήθως ομοιόμορφα ή εκθετικά κατανεμημένα

Προκειμένου να συμπιέσει περαιτέρω τις παραμέτρους βάρους του μοντέλου, η ομάδα χρησιμοποίησε επίσης την τεχνολογία ένθετης κβαντοποίησης (Double Quant).

Αυτή είναι μια δευτερεύουσα κβαντοποίηση που βασίζεται στην κβαντοποίηση NF4.

Επειδή το NF4 θα δημιουργήσει μεγάλο αριθμό παραμέτρων κλίμακας μετά την κβαντοποίηση, εάν χρησιμοποιούνται αριθμοί κινητής υποδιαστολής 32 bit (FP32) για την αποθήκευσή τους, θα καταληφθεί μεγάλη ποσότητα μνήμης.

Για ένα LLM με εκατοντάδες δισεκατομμύρια παραμέτρους, εάν κάθε 64 παράμετροι υπολογίζονται ως μπλοκ κβαντοποίησης (μέγεθος μπλοκ=64), μόνο η αποθήκευση των παραμέτρων κλίμακας απαιτεί επιπλέον 6 GB μνήμης: (100B ÷ 64) × 4 = 6 GB.

Η ομάδα μείωσε σημαντικά τον απαιτούμενο χώρο αποθήκευσης κβαντίζοντας αυτές τις παραμέτρους κλίμακας σε αριθμούς κινητής υποδιαστολής 8-bit (FP8).

Όταν χρησιμοποιείται το 256 ως μέγεθος μπλοκ κβαντοποίησης (μέγεθος μπλοκ=256), ο πρόσθετος χώρος που απαιτείται για την αποθήκευση όλων των παραμέτρων κλίμακας είναι μόνο 1,57 GB: (100B ÷ 64 ÷ 256) × 4 + (100B ÷ 64) × 1 = 1,57 GB.

Μέσω της ένθετης κβαντοποίησης, κάθε παράμετρος βάρους του μοντέλου καταλήγει να καταλαμβάνει μόνο 4 byte χώρου μνήμης, εξοικονομώντας πολύ χώρο στη μνήμη από το αρχικό FP32.

Ταυτόχρονα, βελτιώνει την απόδοση μεταφοράς δεδομένων από τη μνήμη στην CPU κατά 4 φορές.

Αυτή η βελτιστοποίηση μειώνει σημαντικά τον περιορισμό του εύρους ζώνης μνήμης στην απόδοση συμπερασμάτων και αποκωδικοποίησης του μοντέλου Yuan2.0-102B, βελτιώνοντας έτσι περαιτέρω την απόδοση συμπερασμάτων του μοντέλου.

Το λεγόμενο καθολικό σημαίνει ότι ο καθένας μπορεί να το χρησιμοποιήσει.

Σε αυτό το σημείο, οι Πληροφορίες Inspur έχουν υποβληθεί με επιτυχία!

Μέσω της βελτιστοποίησης συστήματος, το NF8260G7 της Inspur Information είναι το πρώτο στον κλάδο που υποστηρίζει τη λειτουργία μεγάλων μοντέλων με εκατοντάδες δισεκατομμύρια παραμέτρους που βασίζονται αποκλειστικά σε επεξεργαστές γενικής χρήσης.

Μέχρι στιγμής, η κλίμακα παραμέτρων των μεγάλων μοντέλων τεχνητής νοημοσύνης που υποστηρίζονται από γενική υπολογιστική ισχύ έχει ξεπεράσει τα 100 δισεκατομμύρια, καλύπτοντας πλήρως το κενό στον κλάδο και καθιστώντας ένα νέο σημείο εκκίνησης για τις επιχειρήσεις να κατέχουν τεχνητή νοημοσύνη.

Η ανάπτυξη μοντέλων τεχνητής νοημοσύνης με εκατοντάδες δισεκατομμύρια παραμέτρους έχει πλέον δυνατότητα επιλογής με ισχυρότερη απόδοση και πιο οικονομικό κόστος.


Ο απώτερος στόχος της επιστημονικής και τεχνολογικής προόδου πρέπει να είναι η πτώση στον θνητό κόσμο.

Κοιτάζοντας το παρόν, η AIGC έχει διεισδύσει σε χιλιάδες βιομηχανίες. Το AI έχει διεισδύσει σε κάθε υπολογιστική συσκευή με ανησυχητικό ρυθμό.

Από τον Ιανουάριο έως τον Απρίλιο του 2024, ο αριθμός των κερδισμένων προσφορών για εγχώρια μεγάλα μοντέλα έχει υπερβεί το σύνολο για ολόκληρο το έτος 2023 και το γνωστοποιημένο ποσό των κερδισμένων προσφορών έφτασε το 77% αυτού για ολόκληρο το έτος 2023.

Οι επαγγελματίες του χρηματοπιστωτικού κλάδου, των εξωτερικών ιατρείων νοσοκομείων και των εταιρικών τμημάτων πληροφορικής το έχουν ανακαλύψει: η υποδομή υπολογιστικής ισχύος των παραδοσιακών βιομηχανιών δεν είναι πλέον αρκετή!

Σήμερα, μεγάλα μοντέλα με εκατοντάδες δισεκατομμύρια παραμέτρους είναι το κλειδί για την εμφάνιση της νοημοσύνης σε χιλιάδες βιομηχανίες. Το αν η γενική υπολογιστική ισχύς μπορεί να τρέξει μεγάλα μοντέλα με εκατοντάδες δισεκατομμύρια παραμέτρους είναι το κλειδί για να μετρηθεί αν μπορεί να υποστηρίξει την εμφάνιση της νοημοσύνης σε χιλιάδες βιομηχανίες.

Η πρωτοβουλία της Inspur Information επιτρέπει στους πελάτες του Διαδικτύου, των χρηματοοικονομικών, της ιατρικής και άλλων βιομηχανιών να επιτύχουν αποτελεσματική ανάπτυξη και να εξοικονομήσουν περισσότερο από το 80% του κόστους κατασκευής στην πρώτη επένδυση.

Είτε πρόκειται για πρόληψη χρηματοοικονομικής απάτης, ανάλυση οικονομικών δεδομένων, γνώσεις μάρκετινγκ CRM για επιχειρήσεις, έξυπνη ιατρική διάγνωση, εξατομικευμένα σχέδια διάγνωσης και θεραπείας, εκπαίδευση και κατάρτιση κ.λπ., θα γίνουμε μάρτυρες της ευρείας εφαρμογής της τεχνητής νοημοσύνης.

Από εδώ και πέρα, όλοι οι υπολογισμοί είναι AI.

Βιβλιογραφικές αναφορές:

https://mp.weixin.qq.com/s/1wYt7dfoVy2J1FFkOJjRTg