Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Κυκλοφόρησε το Heart of the Machine
Τμήμα Σύνταξης Machine Heart
Η έκρηξη των μεγάλων μοντέλων τεχνητής νοημοσύνης οδήγησε σε μεγάλη ζήτηση για GPU, και οι εφαρμογές τεχνητής νοημοσύνης που διεισδύουν από το cloud στο edge θα αυξήσουν επίσης τη ζήτηση για διακομιστές τεχνητής νοημοσύνης και επεξεργαστές επιτάχυνσης. Συγκρίνοντας τα GPGPU, FPGA, NPU και ASIC, η αρχιτεκτονική υπολογιστών CGRA με δυνατότητα επαναδιαμόρφωσης γίνεται η καταλληλότερη αρχιτεκτονική παράλληλων υπολογιστών για την τεχνητή νοημοσύνη άκρων. Ο Reconfigurable Parallel Processor (RPP) που προτείνεται από την Core Dynamics είναι μια υπολογιστική αρχιτεκτονική πιο κατάλληλη για παράλληλη επεξεργασία μεγάλης κλίμακας από την παραδοσιακή CGRA διάσκεψη. Το τσιπ R8 που βασίζεται στην αρχιτεκτονική RPP και τα επακόλουθα τσιπ επανάληψης υψηλότερης απόδοσης θα είναι η ιδανική επιλογή επεξεργαστή επιτάχυνσης τεχνητής νοημοσύνης για διακομιστές τεχνητής νοημοσύνης αιχμής και υπολογιστές τεχνητής νοημοσύνης.
Πίνακας περιεχομένων
1. Τι είναι το edge AI;
2. Τάσεις της αγοράς διακομιστών Edge AI
3. Ιδανική αρχιτεκτονική υπολογιστών κατάλληλη για edge AI
4. Λεπτομερής επεξήγηση της αρχιτεκτονικής RPP
5. Σύγκριση ενεργειακής απόδοσης του επεξεργαστή RPP R8
6. Ο επεξεργαστής RPP είναι αναγνωρισμένος από διεθνείς ακαδημαϊκές αρχές
7. Συμπέρασμα
1. Τι είναι το edge AI;
Το Edge AI (AI Edge) είναι μια προηγμένη τεχνολογία στη διασταύρωση της τεχνητής νοημοσύνης (AI) και του edge computing. Ο πυρήνας του edge AI είναι η ενσωμάτωση αλγορίθμων τεχνητής νοημοσύνης απευθείας στο τοπικό περιβάλλον που παράγει μεγάλες ποσότητες δεδομένων, όπως smartphones, συσκευές IoT ή τοπικούς διακομιστές, και τη διεξαγωγή επεξεργασίας δεδομένων σε πραγματικό χρόνο μέσω συσκευών και συστημάτων που βρίσκονται στο "άκρο". του δικτύου (δηλαδή πιο κοντά στην πηγή δεδομένων) επεξεργασία και ανάλυση.
Σε σύγκριση με την εκπαίδευση τεχνητής νοημοσύνης ή τα συμπεράσματα σε παραδοσιακά κέντρα δεδομένων ή πλατφόρμες υπολογιστικού νέφους, το κύριο πλεονέκτημα της τεχνητής νοημοσύνης αιχμής είναι η «επιτόπια επεξεργασία», η οποία μειώνει σημαντικά την καθυστέρηση στη μετάδοση και την επεξεργασία δεδομένων. ιατρική διάγνωση σε πραγματικό χρόνο ή Είναι ιδιαίτερα σημαντικό σε σενάρια εφαρμογών όπως ο έλεγχος βιομηχανικού αυτοματισμού.
Ο εξοπλισμός και τα συστήματα που εφαρμόζουν υπολογιστική τεχνητή νοημοσύνη αιχμής περιλαμβάνουν κυρίως:
Αυτό το άρθρο εξετάζει κυρίως τους διακομιστές τεχνητής νοημοσύνης αιχμής και τις τάσεις ανάπτυξης της αγοράς τους, τις απαιτήσεις για επεξεργαστές επιτάχυνσης τεχνητής νοημοσύνης και την αρχιτεκτονική παράλληλων υπολογιστών και την υλοποίηση επεξεργαστών κατάλληλων για εφαρμογές τεχνητής νοημοσύνης αιχμής.
2. Τάσεις της αγοράς διακομιστών Edge AI
Οι διακομιστές AI αναφέρονται σε εξοπλισμό υπολογιστών υψηλής απόδοσης που έχει σχεδιαστεί ειδικά για εφαρμογές τεχνητής νοημοσύνης και μπορούν να υποστηρίξουν σύνθετες εργασίες όπως επεξεργασία δεδομένων μεγάλης κλίμακας, εκπαίδευση μοντέλων και υπολογισμούς συμπερασμάτων. Οι διακομιστές AI είναι συνήθως εξοπλισμένοι με επεξεργαστές υψηλής απόδοσης, μνήμη υψηλής ταχύτητας, συστήματα αποθήκευσης υψηλής ταχύτητας μεγάλης χωρητικότητας και αποτελεσματικά συστήματα ψύξης για να καλύψουν την εξαιρετικά υψηλή ζήτηση υπολογιστικών πόρων από αλγόριθμους AI. Σύμφωνα με διαφορετικά πρότυπα ταξινόμησης, οι διακομιστές AI μπορούν χονδρικά να χωριστούν σε διακομιστές εκπαίδευσης, διακομιστές συμπερασμάτων, διακομιστές GPU, διακομιστές FPGA, διακομιστές CPU, διακομιστές τεχνητής νοημοσύνης cloud και διακομιστές τεχνητής νοημοσύνης άκρων.
Σύμφωνα με την πρόβλεψη της Gartner, από τώρα έως το 2027, η αγορά διακομιστών AI θα διατηρήσει ταχεία ανάπτυξη, με σύνθετο ετήσιο ρυθμό ανάπτυξης έως και 30%. Η «Παγκόσμια Έκθεση Αγοράς Διακομιστών για το Πρώτο Τρίμηνο του 2024» που κυκλοφόρησε από τον οργανισμό δείχνει ότι οι παγκόσμιες πωλήσεις στην αγορά διακομιστών το 1ο τρίμηνο του τρέχοντος έτους ήταν 40,75 δισεκατομμύρια δολάρια ΗΠΑ, μια ετήσια αύξηση 59,9% σε αποστολές, αύξηση 5,9% σε ετήσια βάση. Μεταξύ πολλών προμηθευτών διακομιστών τεχνητής νοημοσύνης, η Inspur Information συνεχίζει να καταλαμβάνει τη δεύτερη θέση στον κόσμο και την πρώτη στην Κίνα. TOP5 κατασκευαστές.
Σύμφωνα με την «Πρόβλεψη της ζήτησης διακομιστών της Κίνας 2024-2029 και την Αναπτυξιακή Αναφορά Μελλοντικής Τάσης» που δημοσιεύτηκε από το Ερευνητικό Ινστιτούτο Επιχειρηματικής Βιομηχανίας της Κίνας, στα τέλη του 2022, το συνολικό μέγεθος της εγχώριας αγοράς θα ξεπεράσει τα 42 δισεκατομμύρια γιουάν, ετησίως -Έτος αύξηση περίπου 20% το 2023, θα είναι περίπου 49 δισεκατομμύρια γιουάν, ο ρυθμός ανάπτυξης της αγοράς αναμένεται σταδιακά να φθάσει τα 56 δισεκατομμύρια γιουάν το 2024. Από την σκοπιά των αποστολών, οι αποστολές στην αγορά διακομιστών τεχνητής νοημοσύνης της Κίνας θα είναι περίπου 284.000 μονάδες το 2022, μια ετήσια αύξηση κατά περίπου 25,66% περίπου 354.000 μονάδες θα αποσταλούν το 2023 και αναμένεται να φτάσουν τις 421.000 μονάδες το 2020.
Στις πρώτες μέρες της ανάπτυξης μεγάλων μοντέλων τεχνητής νοημοσύνης, η ζήτηση για διακομιστές τεχνητής νοημοσύνης ήταν κυρίως εκπαίδευση μοντέλων, επομένως οι εκπαιδευτικοί διακομιστές κυριάρχησαν στην αγορά. Επί του παρόντος, το 57,33% της αγοράς διακομιστών AI είναι διακομιστές εκπαίδευσης και οι διακομιστές συμπερασμάτων αντιπροσωπεύουν το 42,67%. Ωστόσο, καθώς οι γενετικές εφαρμογές τεχνητής νοημοσύνης διεισδύουν στο edge, αναμένεται ότι οι διακομιστές συμπερασμάτων θα γίνουν σταδιακά το mainstream της αγοράς στο μέλλον και οι διακομιστές τεχνητής νοημοσύνης edge θα ξεπεράσουν τους διακομιστές εκπαίδευσης cloud και συμπερασμάτων όσον αφορά τις αποστολές.
Τα στοιχεία της πιο πρόσφατης έκθεσης «China Semi-Annual Edge Computing Market (Full Year 2023) Tracking» της IDC δείχνουν ότι η αγορά διακομιστών αιχμής υπολογιστών της Κίνας θα συνεχίσει να αυξάνεται σταθερά το 2023, με ετήσια αύξηση 29,1%. Η IDC προβλέπει ότι έως το 2028, η αγορά αιχμής υπολογιστικών διακομιστών της Κίνας θα φτάσει τα 13,2 δισεκατομμύρια δολάρια ΗΠΑ.
Ως σημαντικό μέρος του edge computing, η κλίμακα των προσαρμοσμένων διακομιστών αιχμής έφτασε τα 240 εκατομμύρια δολάρια ΗΠΑ το 2023, σημειώνοντας αύξηση 16,8% σε σύγκριση με το 2022. Από την άποψη των πωλήσεων κατασκευαστών, οι μεγαλύτεροι κατασκευαστές στην αγορά προσαρμοσμένων διακομιστών αιχμής είναι οι Inspur Information, Lenovo, Huawei και H3C. Με τη διαφοροποιημένη ανάπτυξη εφαρμογών υπολογιστών αιχμής, οι αναδυόμενοι κατασκευαστές διακομιστών θα έχουν σημαντικές ανακαλύψεις σε επιχειρηματικά σενάρια και αγορές εφαρμογών, όπως η συνεργασία οχήματος-δρόμου, η τεχνητή νοημοσύνη αιχμής και τα έξυπνα τερματικά, κάνοντας την αγορά διακομιστών αιχμής να παρουσιάζει ένα διαφοροποιημένο τοπίο.
3. Ιδανική αρχιτεκτονική υπολογιστών κατάλληλη για edge AI
Η εποχή των υπολογιστών ηγείται της συμμαχίας WINTEL (Microsoft Windows + Intel CPU) και η εποχή των smartphone ηγείται από τη συμμαχία Android+Arm Ποια συμμαχία θα ηγηθεί της εποχής AI; Μια νέα συμμαχία αναδύεται, δηλαδή η NT Alliance (Nvidia+TSMC) που δημιουργήθηκε από τη Nvidia και την TSMC. Σύμφωνα με προβλέψεις επενδυτικών εμπειρογνωμόνων της Wall Street, τα συνολικά έσοδα της NT Alliance αναμένεται να φτάσουν τα 200 δισεκατομμύρια δολάρια ΗΠΑ το 2024, με συνολικό καθαρό κέρδος 100 δισεκατομμυρίων δολαρίων και η συνολική αξία της αγοράς αναμένεται να ξεπεράσει τα 5 τρισεκατομμύρια δολάρια. Η GPU της Nvidia και η επιχείρηση κατασκευής τσιπ AI της TSMC, με γνώμονα την εκπαίδευση τεχνητής νοημοσύνης στο cloud και τις εφαρμογές μεγάλων μοντέλων τεχνητής νοημοσύνης, θα είναι οι μεγαλύτεροι νικητές φέτος.
Αν και η NVIDIA κατέχει απόλυτη κυρίαρχη θέση στην αγορά εκπαίδευσης και συμπερασμάτων τεχνητής νοημοσύνης στο cloud, η GPGPU της NVIDIA δεν είναι η καλύτερη επιλογή σε σενάρια εφαρμογών τεχνητής νοημοσύνης, επειδή η εγγενής υψηλή κατανάλωση ενέργειας και το υψηλό κόστος της υπολογιστικής της αρχιτεκτονικής περιορίζουν τη χρήση της σε περισσότερες εφαρμογές ευρέως διαδεδομένες και διασκορπισμένες εφαρμογές τεχνητής νοημοσύνης. Μελετητές και ειδικοί στον τομέα της αρχιτεκτονικής υπολογιστών αναζητούν ενεργειακά αποδοτική αρχιτεκτονική παράλληλης τεχνολογίας που μπορεί να αντικαταστήσει το σχεδιασμό ASIC με βάση την αρχιτεκτονική συγκεκριμένης περιοχής (DSA) είναι μια εφικτή βασική ιδέα, όπως η μονάδα επεξεργασίας τανυστών (TPU) της Google. που Σχεδιασμένος για να επιταχύνει τους φόρτους εργασίας μηχανικής εκμάθησης, αυτός ο επεξεργαστής χρησιμοποιεί μια αρχιτεκτονική συστολικής διάταξης που εκτελεί αποτελεσματικά λειτουργίες πολλαπλασιασμού και συσσώρευσης και στοχεύει σε εφαρμογές κέντρων δεδομένων. Μια άλλη ιδέα είναι η μονάδα νευρωνικής επεξεργασίας (NPU) που αντιπροσωπεύεται από τη Samsung, η οποία είναι ειδικά σχεδιασμένη για σκηνές από κινητές συσκευές και διαθέτει μια εσωτερική μηχανή προϊόντος εξοικονόμησης ενέργειας που μπορεί να χρησιμοποιήσει την αραιότητα του χάρτη χαρακτηριστικών εισόδου για να βελτιστοποιήσει την απόδοση των συμπερασμάτων βαθιάς μάθησης.
Αν και τόσο οι TPU όσο και οι NPU μπορούν να παρέχουν λύσεις υψηλής απόδοσης και εξοικονόμησης ενέργειας που αντικαθιστούν εν μέρει τις GPGPU, τα εξειδικευμένα χαρακτηριστικά σχεδιασμού τους περιορίζουν την ευελιξία και την ευρεία εφαρμογή τους. Η Kneron, μια εταιρεία εκκίνησης τσιπ τεχνητής νοημοσύνης, με έδρα στην Καλιφόρνια με κέντρα Ε&Α στην Ταϊβάν και την Κίνα, έχει προτείνει μια επαναδιαμορφώσιμη λύση NPU που επιτρέπει στα τσιπ NPU να έχουν την υψηλή απόδοση του ASIC χωρίς να θυσιάζεται η αξιοπιστία των αλγορίθμων με ένταση δεδομένων. Με τη μοναδική και πρωτοποριακή αρχιτεκτονική και την εξαιρετική απόδοση, η ομάδα Kneron κέρδισε το IEEE CAS 2021 Darlington Best Paper Award. Το αναδιαμορφώσιμο NPU 4ης γενιάς της Kneron μπορεί να υποστηρίξει την εκτέλεση δικτύων CNN και Transformer ταυτόχρονα και μπορεί να εκτελεί τόσο μηχανική όραση όσο και σημασιολογική ανάλυση. Σε αντίθεση με τα συνηθισμένα μοντέλα τεχνητής νοημοσύνης που στοχεύουν μόνο σε συγκεκριμένες εφαρμογές, η τεχνολογία Reconfigurable Artificial Neural Network (RANN) της Kneron είναι πιο ευέλικτη και μπορεί να καλύψει διαφορετικές ανάγκες εφαρμογών και να προσαρμοστεί σε διάφορες αρχιτεκτονικές υπολογιστών. Σύμφωνα με την εταιρεία, το Edge GPT AI chip KL830 μπορεί να εφαρμοστεί σε υπολογιστές AI, στικάκια επιτάχυνσης USB και διακομιστές edge Όταν χρησιμοποιείται σε συνδυασμό με μια GPU, το NPU μπορεί να μειώσει την κατανάλωση ενέργειας της συσκευής κατά 30%.
Το αναδιαμορφώσιμο υλικό είναι μια άλλη λύση που μπορεί να προσφέρει υπολογιστές υψηλής απόδοσης και εξοικονόμησης ενέργειας. Τα FPGA χρησιμοποιούν ρυθμιζόμενα λογικά μπλοκ με προγραμματιζόμενες διασυνδέσεις για την υλοποίηση προσαρμοσμένων πυρήνων υπολογιστών. Αυτή η προσαρμοσμένη υπολογιστική ισχύς επιτρέπει σε επιταχυντές που βασίζονται σε FPGA να αναπτύσσονται σε ένα ευρύ φάσμα εφαρμογών υπολογιστών μεγάλης κλίμακας, όπως χρηματοοικονομικοί υπολογιστές, βαθιά μάθηση και επιστημονική προσομοίωση. Ωστόσο, η δυνατότητα επαναδιαμόρφωσης σε επίπεδο bit που παρέχεται από τα FPGA συνοδεύεται από σημαντική επιφάνεια και επιβάρυνση ισχύος χωρίς οικονομική αποδοτικότητα κλίμακας, γεγονός που περιορίζει σημαντικά την εφαρμογή της σε σενάρια εφαρμογών που απαιτούν χαμηλή κατανάλωση ενέργειας και μικρό μέγεθος.
Η χονδροειδής επαναδιαμορφώσιμη αρχιτεκτονική (CGRA) αντιπροσωπεύει μια άλλη κατηγορία αναδιαμορφώσιμου υλικού. Σε σύγκριση με τα FPGA, τα CGRA παρέχουν χονδροειδή επαναδιαμόρφωση, όπως επαναδιαμορφώσιμες λειτουργικές μονάδες σε επίπεδο λέξης. Δεδομένου ότι η μονάδα ALU μέσα στο CGRA έχει κατασκευαστεί και η διασύνδεσή της είναι απλούστερη και μικρότερη από το FPGA, η καθυστέρηση και η απόδοσή της είναι σημαντικά καλύτερες από το FPGA, το οποίο διασυνδέεται σε επίπεδο πύλης για να σχηματίσει συνδυαστική υπολογιστική λογική. Το CGRA είναι πιο κατάλληλο για επαναδιαμορφώσιμους υπολογιστές τύπου λέξης (μονάδα 32 bit) και μπορεί να μετριάσει τα προβλήματα χρονισμού, περιοχής και ισχύος του FPGA Είναι μια ιδανική αρχιτεκτονική παράλληλων υπολογιστών υψηλής απόδοσης για μελλοντική τεχνητή νοημοσύνη.
Ας εξετάσουμε εν συντομία το ιστορικό ανάπτυξης του CGRA:
Η διεθνής ακαδημαϊκή κοινότητα υπολογιστών και η βιομηχανία υψηλής τεχνολογίας έχουν καταλήξει σε συναίνεση ότι τα αναδιαμορφώσιμα υπολογιστικά τσιπ που βασίζονται στην αρχιτεκτονική CGRA έχουν ένα ευρύ φάσμα γενικών υπολογιστικών δυνατοτήτων και μπορούν να εφαρμοστούν σε διάφορα σενάρια υπολογιστικής τεχνητής νοημοσύνης αιχμής υψηλή υπολογιστική ισχύ και χαμηλή κατανάλωση ενέργειας ο μόνος τρόπος.
4. Λεπτομερής επεξήγηση της αρχιτεκτονικής του επεξεργαστή RPP
Τόσο το RPP όσο και το CGRA είναι αναδιαμορφώσιμες συστοιχίες με χονδρόκοκκο, και οι δύο μπορούν να επιτύχουν πυκνότητα περιοχής και απόδοση ισχύος που μοιάζει με ASIC, ενώ και οι δύο μπορούν να προγραμματιστούν με λογισμικό. Ωστόσο, το RPP εξακολουθεί να είναι διαφορετικό από το CGRA όσον αφορά τους επαναδιαμορφώσιμους τύπους και τα μοντέλα προγραμματισμού, συγκεκριμένα ως εξής:
1. Το RPP είναι ένας σχεδόν στατικός αναδιαμορφώσιμος πίνακας, ενώ ο παραδοσιακός CGRA χρησιμοποιείται γενικά για δυναμικούς επαναδιαμορφώσιμους πίνακες. Ο στατικός επαναδιαμορφώσιμος πίνακας σημαίνει ότι η εκτέλεση κάθε εντολής στη μονάδα επεξεργασίας (PE) δεν αλλάζει με το χρόνο και ότι η ροή δεδομένων παραμένει επίσης αμετάβλητη. Για τον μεταγλωττιστή, οι στατικοί επαναδιαμορφώσιμοι πίνακες δεν χρειάζεται να τακτοποιούν έγκαιρα οδηγίες, γεγονός που καθιστά την κατασκευή RPP απλούστερη και η ταχύτητα κατανομής εντολών είναι πολύ χαμηλή. Επομένως, το RPP μπορεί εύκολα να εφαρμόσει έναν μεγάλο πίνακα, όπως έναν πίνακα 32x32. Το RPP είναι πιο κατάλληλο για παράλληλους υπολογιστές μεγάλης κλίμακας από το παραδοσιακό CGRA.
2. Το RPP χρησιμοποιεί το μοντέλο προγραμματισμού SIMT πολλαπλών νημάτων, ενώ το CGRA χρησιμοποιεί συνήθως προγραμματισμό γλώσσας μονού νήματος. Το RPP είναι συμβατό με τη γλώσσα CUDA και είναι πιο κατάλληλο για παράλληλους υπολογιστές. Η γλώσσα CUDA απαιτεί από τους προγραμματιστές να εξετάσουν τον βαθμό παραλληλισμού δεδομένων από την αρχή και να εκφράσουν τους παράλληλους αλγόριθμους στη γλώσσα CUDA, ο μεταγλωττιστής δεν χρειάζεται να αναλύσει τον βαθμό παράλληλου υπολογισμού και ο μεταγλωττιστής είναι πολύ απλός τύπου και χρησιμοποιείται μόνο για δεδομένα Παράλληλος υπολογισμός και ο βαθμός παραλληλισμού παραμένει σταθερός μέσα σε ένα πρόγραμμα. Το CGRA χρησιμοποιεί συνήθως γλώσσα C + ανεξάρτητο μεταγλωττιστή Παρόλο που μπορεί θεωρητικά να καλύψει οποιοδήποτε τύπο υπολογισμού, ο μεταγλωττιστής είναι πολύ περίπλοκος και είναι δύσκολο να επιτευχθεί υψηλή απόδοση μεταγλώττισης.
Το παρακάτω διάγραμμα συγκρίνει το RPP με πολλές κύριες αρχιτεκτονικές επιτάχυνσης με δυνατότητα επαναδιαμόρφωσης.
Τα πλεονεκτήματα της αρχιτεκτονικής RPP μπορούν να συνοψιστούν στα ακόλουθα τέσσερα σημεία:
Η Core Dynamics πρότεινε το μπλοκ διάγραμμα σχεδιασμού υλικού RPP με βάση την αρχιτεκτονική RPP και έδειξε πραγματικά τα πλεονεκτήματα αυτής της παράλληλης αρχιτεκτονικής υπολογιστών μέσω του τσιπ R8. Αυτή η υλοποίηση σχεδιασμού υλικού αποτελείται κυρίως από έναν κυκλικό επαναδιαμορφώσιμο επεξεργαστή, μια μονάδα μνήμης και έναν sequencer, όπως φαίνεται στο παρακάτω σχήμα.
Ο επεξεργαστής με δυνατότητα επαναδιαμόρφωσης δακτυλίου περιλαμβάνει τη μονάδα επεξεργασίας NPU (PE) και μια μνήμη shim. Κάθε PE είναι εξοπλισμένο με μια θύρα μνήμης για τη διευκόλυνση της πρόσβασης δεδομένων στη μονάδα μνήμης. Η θύρα μνήμης έχει σχεδιαστεί με ελεγκτή τρόπου λειτουργίας, μονάδα υπολογισμού διευθύνσεων και πολλαπλούς πολυπλέκτης για να υποστηρίζει διαφορετικές λειτουργίες πρόσβασης δεδομένων και λειτουργίες κοινής μνήμης. Για να καταστεί δυνατή η ευέλικτη επικοινωνία εντός του επεξεργαστή, κάθε PE ενσωματώνει ένα κιβώτιο μεταγωγής (SB) και ένα κιβώτιο διακόπτη διασύνδεσης (ICSB) για αποτελεσματική προώθηση δεδομένων. Αυτά τα PE συνδέονται σε μια γραμμική ακολουθία, με τη μνήμη shim να λειτουργεί ως γέφυρα μεταξύ της πρώτης και της τελευταίας PU, σχηματίζοντας έτσι μια τοπολογία δακτυλίου.
Η επεξεργασία δεδομένων εντός του επεξεργαστή με δυνατότητα επαναδιαμόρφωσης δακτυλίου ξεκινά από τον πρώτο PE και διασχίζει τα PE με έναν τρόπο διοχέτευσης, με τα ενδιάμεσα αποτελέσματα υπολογισμού να εξάγονται στα επόμενα PE στη σειρά. Η μνήμη shim αποθηκεύει τις εξόδους του τελευταίου PE και τις ανακυκλώνει στο πρώτο PE, μεγιστοποιώντας έτσι την εντοπιότητα δεδομένων και εξαλείφοντας την κίνηση της μνήμης στη μονάδα μνήμης. Το βασικό υπολογιστικό στοιχείο στο PE είναι η μηχανή επεξεργασίας. Σε κάθε PE, υπάρχουν πολλαπλές Αριθμητικές Λογικές Μονάδες (ALU), καθεμία από τις οποίες συνδέεται με έναν καταχωρητή δεδομένων και έναν καταχωρητή διευθύνσεων. Αυτοί οι καταχωρητές δεδομένων συγκεντρώνονται για να σχηματίσουν ένα buffer δεδομένων για να διευκολύνουν τη γρήγορη πρόσβαση σε δεδομένα σε κάθε PE.
Επιπλέον, ο συνδυασμός γραμμικού δικτύου μεταγωγής και μνήμης shim επιτρέπει τον ευέλικτο έλεγχο ροής δεδομένων και την αποτελεσματική επαναχρησιμοποίηση δεδομένων, ενώ εξαλείφει τη σύνθετη δρομολόγηση δικτύου σε παραδοσιακά σχέδια CGRA που βασίζονται σε δίκτυο. Σε συνδυασμό με την ευέλικτη και αποτελεσματική πρόσβαση δεδομένων σε μονάδες μνήμης, το RPP μπορεί να βελτιστοποιήσει την επεξεργασία ροής δεδομένων και να ελαχιστοποιήσει την κίνηση της μνήμης, μεγιστοποιώντας έτσι την αποδοτικότητα χρήσης πόρων.
Ο επεξεργαστής RPP υιοθετεί το μοντέλο προγραμματισμού SIMT για να επιτρέψει την επεξεργασία ροής δεδομένων ροής για ευέλικτους αγωγούς πολλαπλών νημάτων.
Προκειμένου να διασφαλιστεί η συμβατότητα με το υπάρχον οικοσύστημα λογισμικού GPGPU, ο επεξεργαστής RPP της Core Power υιοθετεί το CUDA, το οποίο έχει ευρεία βάση χρηστών. Ο κώδικας CUDA αναλύεται από τη διεπαφή που βασίζεται στο LLVM για τη δημιουργία κώδικα PTX για το backend RPP. Ο μεταγλωττιστής RPP ερμηνεύει τους πυρήνες CUDA ως γραφήματα ροής δεδομένων και τους αντιστοιχίζει σε εικονικές διαδρομές δεδομένων (VDP). Στη συνέχεια, το VDP αποσυντίθεται σε πολλαπλές διαδρομές φυσικών δεδομένων (PDP) με βάση περιορισμούς υλικού και η διαμόρφωση κάθε PDP δημιουργείται κατά το χρόνο εκτέλεσης από τον sequencer.
Η στοίβα λογισμικού του RPP μπορεί να υποστηρίξει ένα ευρύ φάσμα μαζικά παράλληλων εφαρμογών, συμπεριλαμβανομένης της μηχανικής εκμάθησης, της επεξεργασίας βίντεο/εικόνας και της επεξεργασίας σήματος. Για εφαρμογές μηχανικής εκμάθησης, η στοίβα είναι συμβατή με διαφορετικά mainstream πλαίσια όπως PyTorch, ONNX, Caffe και TensorFlow. Επιπλέον, οι χρήστες έχουν την ευελιξία να ορίσουν τα προσαρμοσμένα προγράμματά τους χρησιμοποιώντας το CUDA. Αυτές οι εφαρμογές υψηλού επιπέδου διαχειρίζονται το πλαίσιο RPP, το οποίο αποτελείται από έναν μεταγλωττιστή και διαφορετικές βιβλιοθήκες για συγκεκριμένους τομείς. Στο κάτω μέρος της στοίβας λογισμικού, το περιβάλλον χρόνου εκτέλεσης RPP και τα προγράμματα οδήγησης RPP χρησιμοποιούνται για να διασφαλιστεί ότι τα προγράμματα που μεταγλωττίζονται χρησιμοποιώντας την αλυσίδα εργαλείων μπορούν να εκτελεστούν απρόσκοπτα στο υποκείμενο υλικό.
5. Σύγκριση ενεργειακής απόδοσης του επεξεργαστή RPP R8
Πώς αποδίδει το τσιπ RPP-R8 που βασίζεται στην παραπάνω σχεδίαση υλικού επεξεργαστή RPP και την πλήρη στοίβα λογισμικού όσον αφορά την απόδοση υπολογιστών και την ενεργειακή απόδοση;
Οι παράμετροι απόδοσης του τσιπ R8 φαίνονται στον παρακάτω πίνακα:
Για σενάρια υπολογιστικών άκρων, η Core Power συνέκρινε το τσιπ RPP-R8 με δύο GPUs Edge NVIDIA: Jetson Nano και Jetson Xavier AGX. Το μέγεθος του τσιπ του Jetson Nano είναι παρόμοιο με το RPP, παρέχοντας μια σχετική σύγκριση εντός των περιορισμών της φυσικής περιοχής, το Jetson Xavier AGX επιλέχθηκε με βάση τη θεωρητική απόδοση του RPP-R8. Η Core Dynamics αξιολόγησε αυτές τις τρεις πλατφόρμες επιτάχυνσης AI στο συμπέρασμα του ResNet-50 Η απόδοση του Jetson Nano προέρχεται από το έγγραφο αναφοράς, ενώ τα δεδομένα απόδοσης του Xavier AGX προέρχονται από τον επίσημο ιστότοπο της NVIDIA.
Όπως φαίνεται στον παραπάνω πίνακα, η μετρούμενη απόδοση λειτουργίας του RPP-R8 είναι 41,3 φορές και 2,3 φορές εκείνη των Jetson Nano και Jetson Xavier AGX αντίστοιχα. Ξέρετε, το μέγεθος τσιπ του Jetson Xavier AGX είναι σχεδόν τριπλάσιο από αυτό του R8 και η διαδικασία είναι πιο προηγμένη (12 nm έναντι 14 nm), αλλά η απόδοσή του είναι χαμηλότερη από το R8. Όσον αφορά την ενεργειακή απόδοση, η ενεργειακή απόδοση του R8 είναι 27,5 φορές και 4,6 φορές εκείνη των Jetson Nano και Jetson Xavier AGX αντίστοιχα. Αυτά τα αποτελέσματα δείχνουν ότι το RPP-R8 ξεπερνά σημαντικά τα Jetson Nano και Jetson Xavier AGX σε σενάρια τεχνητής νοημοσύνης αιχμής με περιορισμένους προϋπολογισμούς περιοχής και ισχύος.
Το συμπέρασμα βαθιάς μάθησης είναι ένας ευρέως αναγνωρισμένος μαζικά παράλληλος φόρτος εργασίας και μια βασική εφαρμογή για το υλικό RPP-R8. Λόγω της υψηλότερης υπολογιστικής πολυπλοκότητας των μοντέλων της σειράς Yolo σε σύγκριση με μοντέλα ταξινόμησης όπως το ResNet-50, η Core Power επέλεξε τη NVIDIA Jeston Nano Orin ως πλατφόρμα GPU, της οποίας η μέγιστη απόδοση είναι υψηλότερη από το Jetson AGX Xavier, στα 40 TOPS. Δεδομένου ότι οι CPU γενικά δεν είναι κατασκευασμένες για συμπέρασμα βαθιάς μάθησης υψηλής απόδοσης, η Jetson Xavier Nx επιλέχθηκε ως μια σχετικά χαμηλής τεχνολογίας πλατφόρμα GPU με μέγιστη απόδοση 21 TOPS. Οι φόρτοι εργασίας με μεγέθη παρτίδας 1, 2 και 4 αξιολογούνται, αντανακλώντας πραγματικά σενάρια αιχμής. Το παραπάνω σχήμα δείχνει τη σύγκριση απόδοσης απόδοσης των τριών πλατφορμών, με το RPP-R8 να δείχνει υψηλότερη απόδοση σε Yolo-v5m και Yolo-v7 tiny. Σε μέγεθος παρτίδας 1, η απόδοση του RPP-R8 είναι περίπου 1,5× ~ 2,5 φορές υψηλότερη από το Jeston Nano Orin και 2,6× ~ 4,3 φορές υψηλότερη από το Jeston Xavier Nx.
Τα αποτελέσματα της αξιολόγησης και των δοκιμών δείχνουν ότι το RPP ξεπερνά τις παραδοσιακές αρχιτεκτονικές GPU, CPU και DSP όσον αφορά την καθυστέρηση, την απόδοση και την ενεργειακή απόδοση. Η βελτίωση της απόδοσης του επεξεργαστή RPP αποδίδεται στα μοναδικά χαρακτηριστικά υλικού του, τα οποία περιλαμβάνουν κυρίως: 1) Επεξεργασία κυκλικής ροής δεδομένων: τα ενδιάμεσα αποτελέσματα ρέουν μέσω των καταχωρητών αγωγών και των FIFO μεταξύ των PE, μειώνοντας σημαντικά την κίνηση δεδομένων και την κίνηση της μνήμης στην απομακρυσμένη αποθήκευση Η λειτουργία είναι πιο αποτελεσματική σε σύγκριση με την επεξεργασία δεδομένων σε GPU και CPU. 2) Ιεραρχικό σύστημα μνήμης: Το RPP μεγιστοποιεί την εντοπιότητα των δεδομένων μέσω του συστήματος ιεραρχικής μνήμης του. Ένα μεγάλο μέρος της περιοχής του τσιπ RPP-R8 (περίπου 39,9%) είναι αφιερωμένο στη μνήμη στο chip. Αυτή η επιλογή σχεδίασης παρέχει ένα ευρύ φάσμα χωρητικότητας μνήμης, βελτιώνει την επαναχρησιμοποίηση δεδομένων και μειώνει την ανάγκη για συχνή πρόσβαση στην εξωτερική μνήμη. 3) Διανυσματοποίηση και αγωγοί πολλαπλών νημάτων: Η αρχιτεκτονική υλικού και το μοντέλο προγραμματισμού του RPP επιτρέπουν αποτελεσματική διανυσματοποίηση και αγωγούς πολλαπλών νημάτων. Αυτός ο σχεδιασμός εκμεταλλεύεται πλήρως το πλήρες υπολογιστικό δυναμικό του RPP για παράλληλη επεξεργασία, διασφαλίζοντας ότι οι πόροι του χρησιμοποιούνται στο μέγιστο βαθμό, βελτιώνοντας έτσι την απόδοση.
Εκτός από τα πλεονεκτήματά του στην κατανάλωση ενέργειας, την καθυστέρηση και την απόδοση, το RPP ξεχωρίζει επίσης για τη μικρή του περιοχή. Μόνο 119 τετραγωνικά χιλιοστά κατανάλωσης επιφάνειας τσιπ καθιστούν το RPP-R8 ιδανική πλατφόρμα για υπολογιστές άκρων περιορισμένης περιοχής. Ένα άλλο χαρακτηριστικό του RPP είναι ο υψηλός προγραμματισμός του, που υποστηρίζεται από μια ολοκληρωμένη στοίβα λογισμικού από άκρο σε άκρο που αυξάνει σημαντικά την απόδοση ανάπτυξης. Η συμβατότητα με το CUDA επιτρέπει στους χρήστες να αξιοποιήσουν το οικείο οικοσύστημα CUDA, συντομεύοντας την καμπύλη μάθησης και προωθώντας την ευκολότερη υιοθέτηση. Υποστηρίζει προγραμματισμό έγκαιρα και λειτουργίες προγραμματισμού γραφικών, παρέχοντας στους χρήστες υψηλό βαθμό ευελιξίας για την κάλυψη διαφόρων αναγκών υπολογιστών. Η υποστήριξη διαφορετικής βιβλιοθήκης, συμπεριλαμβανομένων των OpenRT και RPP-BLAS, διευκολύνει επίσης την υψηλή απόδοση και την αποτελεσματική ανάπτυξη σε διάφορα σενάρια. Μια λύση πλήρους στοίβας, συμπεριλαμβανομένης της αρχιτεκτονικής υλικού και της υποστήριξης λογισμικού, κάνει το RPP να ξεχωρίζει ανάμεσα σε διάφορα αιχμής υπολογιστικού υλικού.
6. Η αρχιτεκτονική RPP είναι αναγνωρισμένη από διεθνείς ακαδημαϊκές αρχές
Η εργασία "Circular Reconfigurable Parallel Processor for Edge Computing" (αρχιτεκτονική τσιπ RPP) που συντάχθηκε από την Core Dynamics και ομάδες αρχιτεκτονικής υπολογιστών από κορυφαία πανεπιστήμια όπως το Imperial College του Λονδίνου, το Πανεπιστήμιο του Κέμπριτζ, το Πανεπιστήμιο Tsinghua και το Πανεπιστήμιο Sun Yat-sen υιοθετήθηκε με επιτυχία. από το 51ο Συνέδριο Αρχιτεκτονικής Υπολογιστών που περιλαμβάνεται στο Industry Track του Διεθνούς Συμποσίου (ISCA 2024). Ο ιδρυτής και διευθύνων σύμβουλος της Core Dynamics Dr. Li Yuan και ο απόφοιτος PhD του Imperial College Hongxiang Fan (τώρα ερευνητής στο Samsung AI Center στο Cambridge, UK) προσκλήθηκαν να δώσουν ομιλίες στο συνέδριο ISCA 2024 στο Μπουένος Άιρες της Αργεντινής και εμπειρογνώμονες από Οι διεθνούς φήμης εταιρείες όπως η Intel και η AMD μοιράστηκαν τη σκηνή.
Αυτό το ISCA έλαβε συνολικά 423 έγγραφα υψηλής ποιότητας από όλο τον κόσμο. Μεταξύ αυτών, το Industry Track είναι ιδιαίτερα δύσκολο να παραδεχτεί κανείς, με ποσοστό αποδοχής μόλις 15,3%.
Ως η κορυφαία ακαδημαϊκή εκδήλωση στον τομέα της αρχιτεκτονικής υπολογιστών, το ISCA διοργανώνεται από κοινού από την ACM SIGARCH και το IEEE TCCA. Από την ίδρυσή του το 1973, υπήρξε πρωτοποριακή δύναμη στην προώθηση της προόδου στον τομέα της αρχιτεκτονικής συστημάτων υπολογιστών Η ευρεία επιρροή του και η εξαιρετική συνεισφορά του το έχουν καταστήσει μια πλατφόρμα υψηλού επιπέδου για ανταγωνιστικούς κολοσσούς της βιομηχανίας όπως η Google, η Intel και η Nvidia. για την επίδειξη ερευνητικών αποτελεσμάτων αιχμής. Το ISCA, το MICRO, το HPCA και το ASPLOS είναι γνωστά ως τα τέσσερα κορυφαία συνέδρια και το ISCA είναι ο ηγέτης μεταξύ τους Το ποσοστό αποδοχής χαρτιού παραμένει περίπου στο 18% όλο το χρόνο. Με τα χρόνια, πολυάριθμα ερευνητικά αποτελέσματα που δημοσιεύθηκαν στο ISCA έχουν γίνει βασική κινητήρια δύναμη στην ανάπτυξη της βιομηχανίας ημιαγωγών και υπολογιστών.
Τα χαρτιά με δυνατότητα επαναδιαμόρφωσης παράλληλου επεξεργαστή (RPP) που επιλέχθηκαν αυτή τη φορά έχουν δώσει ισχυρή ώθηση στο πεδίο των υπολογιστικών άκρων. Τα πειραματικά αποτελέσματα επιβεβαιώνουν πλήρως ότι ως πλατφόρμα υλικού παράλληλου υπολογισμού, οι επιδόσεις του RPP ξεπερνούν συνολικά αυτές των GPU που κυκλοφορούν αυτή τη στιγμή στην αγορά, ειδικά σε σενάρια εφαρμογών που έχουν εξαιρετικά υψηλές απαιτήσεις σε καθυστέρηση, κατανάλωση ενέργειας και όγκο.
6. Συμπέρασμα
Το ChatGPT πυροδότησε μεγάλα μοντέλα τεχνητής νοημοσύνης, αυξάνοντας έτσι την τεράστια ζήτηση για GPU και επιταχυντές τεχνητής νοημοσύνης. Η τάση ανάπτυξης των εφαρμογών τεχνητής νοημοσύνης θα διεισδύσει σταδιακά από την εκπαίδευση και τη λογική τεχνητής νοημοσύνης στο cloud έως τους διακομιστές τεχνητής νοημοσύνης στην άκρη και στη συσκευή που παρέχουν υποστήριξη λογισμικού και υλικού για διάφορες εφαρμογές τεχνητής νοημοσύνης ακολουθούν επίσης την τάση της κατανεμημένης επέκτασης από τα κέντρα δεδομένων σε υπολογιστές αιχμής. Η παραδοσιακή GPGPU έχει αρχίσει να αποκαλύπτει προφανή αρχιτεκτονικά ελαττώματα σε σενάρια εφαρμογών τεχνητής νοημοσύνης αιχμής Το υψηλό κόστος, η υψηλή κατανάλωση ενέργειας και η υψηλή καθυστέρηση έχουν αναγκάσει τους ειδικούς του κλάδου να αναζητήσουν πιο ενεργειακά αποδοτικές παράλληλες αρχιτεκτονικές υπολογιστών.
Μετά από σύγκριση διαφορετικών αρχιτεκτονικών υπολογιστών, όπως CPU, GPU, ASIC, FPGA και NPU, διαπιστώσαμε ότι η επαναδιαμορφώσιμη αρχιτεκτονική υπολογιστών CGRA είναι πιο κατάλληλη για εφαρμογές τεχνητής νοημοσύνης άκρης, ειδικά για τον επαναδιαμορφώσιμο παράλληλο επεξεργαστή (RPP) που προτείνεται από την Core Dynamics. Μέσω συγκριτικής ανάλυσης με παρόμοιες GPU της NVIDIA, το τσιπ R8 που βασίζεται στην αρχιτεκτονική RPP αποδίδει καλά όσον αφορά την καθυστέρηση, την κατανάλωση ενέργειας, το κόστος περιοχής, την ευελιξία και την ταχεία ανάπτυξη. Πιστεύουμε ότι αυτή τη στιγμή είναι η πιο ιδανική αρχιτεκτονική τεχνητής νοημοσύνης.
Στο ακαδημαϊκό συνέδριο ISCA2024 που πραγματοποιήθηκε στην Αργεντινή τον Ιούλιο του τρέχοντος έτους, η εργασία για την αρχιτεκτονική του επεξεργαστή RPP αναγνωρίστηκε από τις διεθνείς ακαδημαϊκές αρχές. Με την ανάπτυξη του edge AI, οι διακομιστές AI και οι υπολογιστές AI θα ξεκινήσουν μια χρυσή περίοδο ταχείας ανάπτυξης και οι επιταχυντές AI που υποστηρίζουν τέτοιες συσκευές τεχνητής νοημοσύνης αιχμής θα αναπτυχθούν επίσης ταυτόχρονα. Το τσιπ επεξεργαστή RPP που προτείνει η Zhuhai Core Power Technology θα αναγνωριστεί επίσης από τη βιομηχανία και θα γίνει ο ιδανικότερος επεξεργαστής επιτάχυνσης AI σε σενάρια εφαρμογών τεχνητής νοημοσύνης αιχμής.