Το πιο ισχυρό τσιπ AI της NVIDIA αποκαλύπτει σημαντικά σχεδιαστικά ελαττώματα και η ειδική έκδοση της Κίνας εκτέθηκε κατά λάθος!

2024-08-05

Νέα Έκθεση Σοφίας

Εκδότης: Τόσο νυσταγμένος Taozi

[Εισαγωγή στη Νέα Σοφία] Λόγω ελαττωμάτων στο σχεδιασμό, το πιο ισχυρό τσιπ AI της Nvidia, Blackwell, θα καθυστερήσει πραγματικά την αποστολή. Οι δωρητές πατέρες ήταν σε πένθος και όλα τα προγραμματισμένα σχέδια αναμενόταν να καθυστερήσουν για τουλάχιστον τρεις μήνες.

Η NVIDIA GPU ήταν ανέκαθεν η ψυχή της έρευνας και ανάπτυξης της τεχνητής νοημοσύνης για μεγάλες εταιρείες μοντέλων όπως η OpenAI.

Τώρα, λόγω ελαττωμάτων σχεδιασμού στις GPU της Blackwell, οι αποστολές της Nvidia πρέπει να καθυστερήσουν κατά 3 μήνες ή και περισσότερο.

Πληροφορίες ανέφεραν αποκλειστικά ότι οι μηχανικοί της TSMC ανακάλυψαν το ελάττωμα τις τελευταίες εβδομάδες καθώς ετοίμαζαν τσιπ Blackwell για μαζική παραγωγή.

Μόλις την περασμένη εβδομάδα, ο Lao Huang είπε στο SIGGRAPH ότι η NVIDIA έχει υποβάλει δείγματα μηχανικής Blackwell σε πελάτες σε όλο τον κόσμο.

Το βλέμμα ανακούφισης στο πρόσωπό του δεν έδινε καμία ένδειξη για απροσδόκητες καθυστερήσεις.

Λοιπόν, πού είναι τα ελαττώματα στον σχεδιασμό των τσιπ;

Το GB200 περιέχει 2 GPU Blackwell και 1 Grace CPU. Το πρόβλημα έγκειται στο κύκλωμα κλειδιού που συνδέει τις δύο μονάδες GPU Blackwell.

Αυτό το πρόβλημα είναι που έχει προκαλέσει τη μείωση του ποσοστού απόδοσης των GB200 της TSMC.

Η καθυστερημένη αποστολή των πιο πρόσφατων τσιπ σημαίνει ότι για μεγάλες εταιρείες τεχνολογίας όπως η Meta, η Google και η Microsoft, θα επηρεαστεί η διαδικασία εκπαίδευσης του AI.

Επιπλέον, η κατασκευή των κέντρων δεδομένων τους αναπόφευκτα θα καθυστερήσει.

Λέγεται ότι οι μάρκες Blackwell αναμένεται να αποσταλούν σε μεγάλες ποσότητες μέχρι το πρώτο τρίμηνο του επόμενου έτους.

Στην τελευταία αναφορά της SemiAnalysis, περιγράφει επίσης λεπτομερώς τις τεχνικές προκλήσεις που αντιμετωπίζει η NVIDIA, το χρονοδιάγραμμα μετά τις καθυστερημένες αποστολές και το νέο σύστημα MGX GB200A Ultra NVL36.

Η Blackwell καθυστερεί τον Μάρτιο, εν μέσω κατακραυγής

Θυμάμαι ακόμα ότι στο συνέδριο GTC 2024, ο Lao Huang είχε την πιο ισχυρή GPU αρχιτεκτονικής Blackwell και ανακοίνωσε στον κόσμο το πιο ισχυρό τέρας απόδοσης.

Τον Μάιο, δήλωσε δημόσια ότι «σκοπεύουμε να στείλουμε έναν μεγάλο αριθμό τσιπ αρχιτεκτονικής Blackwell αργότερα φέτος».

Δήλωσε μάλιστα με σιγουριά στη συνεδρίαση της οικονομικής έκθεσης, «Θα δούμε πολλά έσοδα Blackwell φέτος».

Οι μέτοχοι της NVIDIA έχουν μεγάλες ελπίδες για την GPU Blackwell.

Αναλυτές από την Keybanc Capital Markets εκτιμούν ότι τα τσιπ Blackwell θα φέρουν έσοδα από το κέντρο δεδομένων της Nvidia από 47,5 δισεκατομμύρια δολάρια ΗΠΑ το 2024 σε περισσότερα από 200 δισεκατομμύρια δολάρια το 2025.

Με άλλα λόγια, η σειρά Blackwell GPU θα παίξει καθοριστικό ρόλο στις μελλοντικές πωλήσεις και τα έσοδα της Nvidia.

Απροσδόκητα, τα σχεδιαστικά ελαττώματα επηρέασαν άμεσα τους στόχους παραγωγής της Nvidia για το δεύτερο εξάμηνο του τρέχοντος έτους και το πρώτο εξάμηνο του επόμενου έτους.

Οι εμπειρογνώμονες που εμπλέκονται στη σχεδίαση τσιπ Blackwell αποκάλυψαν ότι η Nvidia συνεργάζεται με την TSMC για να δοκιμάσει την παραγωγή και τη λειτουργία τσιπ για να λύσει το πρόβλημα το συντομότερο δυνατό.

Ωστόσο, το τρέχον διορθωτικό μέτρο της Nvidia είναι να συνεχίσει να επεκτείνει την αποστολή των τσιπ της σειράς Hopper και να επιταχύνει την παραγωγή των GPU Blackwell όπως έχει προγραμματιστεί για το δεύτερο εξάμηνο του τρέχοντος έτους.

Ξοδεύοντας δεκάδες δισεκατομμύρια δολάρια, η εκπαίδευση AI καθυστερεί

Όχι μόνο αυτό, αυτό το αλυσιδωτό αποτέλεσμα θα έχει θανατηφόρο πλήγμα στους μεγάλους προγραμματιστές μοντέλων και στους παρόχους υπηρεσιών cloud των κέντρων δεδομένων.

Για να εκπαιδεύσουν την τεχνητή νοημοσύνη, οικονομικοί υποστηρικτές όπως η Meta, η Microsoft και η Google ξόδεψαν δεκάδες δισεκατομμύρια δολάρια και παρήγγειλαν μεγάλο αριθμό τσιπ Blackwell.

Η Google έχει παραγγείλει περισσότερα από 400.000 GB200, συν το υλικό διακομιστή, το κόστος της παραγγελίας της Google είναι πολύ πάνω από 10 δισεκατομμύρια δολάρια ΗΠΑ.

Φέτος, ο γίγαντας ξοδεύει ήδη περίπου 50 δισεκατομμύρια δολάρια σε μάρκες και άλλα στοιχεία εξοπλισμού, μια αύξηση άνω του 50% από πέρυσι.

Επιπλέον, η Meta έχει κάνει επίσης παραγγελίες τουλάχιστον 10 δισεκατομμυρίων δολαρίων ΗΠΑ, ενώ το μέγεθος παραγγελιών της Microsoft έχει αυξηθεί κατά 20% τις τελευταίες εβδομάδες.

Ωστόσο, το συγκεκριμένο μέγεθος παραγγελίας αυτών των δύο εταιρειών δεν έχει ακόμη καθοριστεί.

Σύμφωνα με άτομα που γνωρίζουν το θέμα, η Microsoft σχεδιάζει να ετοιμάσει 55.000-65.000 τσιπ GB200 για το OpenAI μέχρι το πρώτο τρίμηνο του 2025.

Επιπλέον, η διοίκηση της Microsoft σχεδίαζε αρχικά να παρέχει διακομιστές με υποστήριξη Blackwell στο OpenAI τον Ιανουάριο του 2025.

Φαίνεται τώρα ότι το αρχικό σχέδιο πρέπει να αναβληθεί για τον Μάρτιο ή την επόμενη άνοιξη.

Σύμφωνα με την αρχικά προγραμματισμένη ώρα, θα ξεκινήσουν να τρέχουν το νέο σύμπλεγμα υπερυπολογιστών το πρώτο τρίμηνο του 2025.

Οι εταιρείες τεχνητής νοημοσύνης, συμπεριλαμβανομένου του OpenAI, περιμένουν να χρησιμοποιήσουν νέα τσιπ για την ανάπτυξη της επόμενης γενιάς LLM.

Επειδή η εκπαίδευση μεγάλων μοντέλων απαιτεί πολλαπλάσια υπολογιστική ισχύ, μπορεί να απαντήσει καλύτερα σε σύνθετες ερωτήσεις, να αυτοματοποιήσει εργασίες πολλαπλών βημάτων και να δημιουργήσει πιο ρεαλιστικά βίντεο.

Μπορεί να ειπωθεί ότι η επόμενη γενιά υπερ-ισχυρού AI εξαρτάται από τα τελευταία τσιπ AI της Nvidia.

Μια σπάνια καθυστέρηση στην ιστορία

Ωστόσο, αυτή η μεγάλης κλίμακας καθυστέρηση παραγγελίας τσιπ δεν είναι μόνο απροσδόκητη από όλους, αλλά και σπάνια.

Η TSMC σχεδίαζε αρχικά να ξεκινήσει τη μαζική παραγωγή τσιπ Blackwell το τρίτο τρίμηνο και να ξεκινήσει μεγάλης κλίμακας αποστολές σε πελάτες της Nvidia το τέταρτο τρίμηνο.

Οι εμπειρογνώμονες αποκάλυψαν ότι τα τσιπ Blackwell αναμένεται τώρα να εισέλθουν σε μαζική παραγωγή το τέταρτο τρίμηνο και εάν δεν υπάρξουν περαιτέρω προβλήματα, οι διακομιστές θα αποσταλούν σε μεγάλες ποσότητες στα επόμενα τρίμηνα.

Στην πραγματικότητα, ήδη από το 2020, η πρώιμη έκδοση της ναυαρχίδας GPU της Nvidia έπρεπε να καθυστερήσει λόγω κάποιων προβλημάτων.

Αλλά οι κίνδυνοι που αντιμετώπιζε η Nvidia ήταν χαμηλοί εκείνη την εποχή, οι πελάτες δεν βιάζονταν να λάβουν τις παραγγελίες τους και υπήρχε σχετικά μικρό κέρδος από τα κέντρα δεδομένων.

Αυτή τη φορά, είναι πράγματι πολύ σπάνιο να ανακαλυφθούν μεγάλα σχεδιαστικά ελαττώματα πριν από τη μαζική παραγωγή.

Οι σχεδιαστές τσιπ συνήθως συνεργάζονται με τους κατασκευαστές TSMC για να πραγματοποιήσουν πολλαπλές δοκιμές παραγωγής και προσομοιώσεις για να εξασφαλίσουν τη σκοπιμότητα του προϊόντος και την ομαλή διαδικασία κατασκευής πριν αποδεχτούν μεγάλες παραγγελίες από πελάτες.

Είναι σπάνιο η TSMC να σταματήσει τη γραμμή παραγωγής και να επανασχεδιάσει ένα προϊόν που πρόκειται να παραχθεί μαζικά.

Έχουν κάνει πλήρεις προετοιμασίες για τη μαζική παραγωγή GB200, συμπεριλαμβανομένης της κατανομής της ειδικής χωρητικότητας μηχανών.

Τώρα, τα ρομπότ πρέπει να μείνουν σε αδράνεια μέχρι να επιλυθεί το πρόβλημα.

Το ελάττωμα σχεδιασμού θα επηρεάσει επίσης την παραγωγή και την παράδοση των ραφιών διακομιστών NVLink της Nvidia, καθώς η εταιρεία που είναι υπεύθυνη για τους διακομιστές πρέπει να περιμένει για νέα δείγματα τσιπ προτού οριστικοποιήσει τη σχεδίαση του rack server.

Αναγκάστηκε να ξεκινήσει ένα remake

Οι τεχνικές προκλήσεις ανάγκασαν επίσης τη NVIDIA να αναπτύξει επειγόντως ένα νέο σύστημα και αρχιτεκτονική εξαρτημάτων, όπως το MGX GB200A Ultra NVL36.

Αυτός ο ολοκαίνουργιος σχεδιασμός θα έχει επίσης σημαντικό αντίκτυπο σε δεκάδες προμηθευτές ανάντη και κατάντη.

Ως το πιο προηγμένο τεχνολογικά τσιπ της σειράς Blackwell, η NVIDIA έχει κάνει τολμηρές τεχνικές επιλογές για GB200 σε επίπεδο συστήματος.

Αυτό το rack 72 GPU προσφέρει μια πρωτοφανή πυκνότητα ισχύος 125 kW ανά rack. Συγκριτικά, τα περισσότερα rack data center έχουν μόνο 12kW έως 20kW.

Ένα τέτοιο περίπλοκο σύστημα έχει επίσης οδηγήσει σε πολλά ζητήματα που σχετίζονται με ζητήματα παροχής ρεύματος, υπερθέρμανση, ανάπτυξη της εφοδιαστικής αλυσίδας ψύξης νερού, διαρροές συστήματος ψύξης νερού γρήγορης αποσύνδεσης και διάφορα ζητήματα πολυπλοκότητας πλακέτας κυκλώματος, και έχει ακινητοποιήσει ορισμένους προμηθευτές και σχεδιαστές.

Ωστόσο, αυτό δεν είναι που προκαλεί τη Nvidia να μειώσει την παραγωγή ή να κάνει σημαντικές προσαρμογές στον οδικό χάρτη.

Το βασικό ζήτημα που επηρεάζει πραγματικά τις αποστολές είναι ο σχεδιασμός της ίδιας της αρχιτεκτονικής Blackwell της NVIDIA.

Το πακέτο Blackwell είναι το πρώτο πακέτο σχεδιασμένο για παραγωγή μεγάλου όγκου χρησιμοποιώντας την τεχνολογία CoWoS-L της TSMC.

Το CoWoS-L απαιτεί τη χρήση ενός παρεμβολέα RDL με τοπική διασύνδεση πυριτίου (LSI) και ενσωματωμένα τσιπ γέφυρας για τη γεφύρωση των επικοινωνιών μεταξύ διαφόρων υπολογιστών και αποθήκευσης εντός της συσκευασίας.

Το CoWoS-L είναι πολύ πιο περίπλοκο από την τρέχουσα τεχνολογία CoWoS-S, αλλά είναι το μέλλον.

Η Nvidia και η TSMC έχουν ένα πολύ επιθετικό σχέδιο ανάπτυξης, ξεπερνώντας τον στόχο του ενός εκατομμυρίου τσιπ ανά τρίμηνο.

Ως αποτέλεσμα όμως έχουν προκύψει διάφορα προβλήματα.

Ένα ζήτημα είναι ότι η ενσωμάτωση πολλαπλών γεφυρών πρόσκρουσης λεπτού βήματος στον οργανικό παρεμβολέα και στον παρεμβολέα πυριτίου μπορεί να προκαλέσει αναντιστοιχία συντελεστή θερμικής διαστολής (CTE) μεταξύ της μήτρας πυριτίου, των γεφυρών, του οργανικού παρεμβολέα και του υποστρώματος, με αποτέλεσμα τη στρέβλωση.

Η διάταξη των τσιπ γέφυρας απαιτεί πολύ υψηλή ακρίβεια, ειδικά όταν πρόκειται για τις γέφυρες μεταξύ των 2 κύριων υπολογιστικών τσιπ, καθώς αυτές οι γέφυρες είναι κρίσιμες για την υποστήριξη διασυνδέσεων μεταξύ τσιπ 10 TB/s.

Ένα σημαντικό σχεδιαστικό ζήτημα φημολογείται ότι σχετίζεται με το τσιπ της γέφυρας. Ταυτόχρονα, τα κορυφαία μεταλλικά στρώματα της παγκόσμιας καλωδίωσης και τα εξογκώματα του τσιπ πρέπει επίσης να επανασχεδιαστούν. Αυτός είναι ένας από τους κύριους λόγους για τις πολύμηνες καθυστερήσεις.

Ένα άλλο πρόβλημα είναι ότι η TSMC δεν έχει αρκετή ικανότητα παραγωγής CoWoS-L.

Τα τελευταία χρόνια, η TSMC έχει δημιουργήσει μεγάλη χωρητικότητα CoWoS-S, με την Nvidia να κατέχει το μεγαλύτερο μέρος του μεριδίου.

Τώρα, με τη Nvidia να μετατοπίζει γρήγορα τη ζήτηση στο CoWoS-L, η TSMC κατασκευάζει ένα νέο fab AP6 για το CoWoS-L και ενσωματώνει την υπάρχουσα χωρητικότητα CoWoS-S στο AP3.

Για το σκοπό αυτό, η TSMC πρέπει να μεταμορφώσει την παλιά παραγωγική ικανότητα του CoWoS-S, διαφορετικά αυτές οι χωρητικότητες θα είναι αδρανείς και το CoWoS-L θα αναπτυχθεί πιο αργά. Και αυτή η διαδικασία μετασχηματισμού θα κάνει την ανάπτυξη πολύ άνιση.

Συνδυάζοντας αυτά τα δύο προβλήματα, η TSMC προφανώς δεν είναι σε θέση να παρέχει αρκετά τσιπ Blackwell σύμφωνα με τις ανάγκες της Nvidia.

Ως αποτέλεσμα, η Nvidia εστιάζει σχεδόν όλη την παραγωγική της ικανότητα στα συστήματα κλίμακας rack GB200 NVL 36x2 και NVL72. Και οι υπολογιστικές μονάδες HGX που ήταν εξοπλισμένες με B100 και B200 ακυρώθηκαν.

Εναλλακτικά, η NVIDIA θα κυκλοφορήσει μια Blackwell GPU-B200A βασισμένη στο τσιπ B102 και εξοπλισμένη με μνήμη HBM 4 επιπέδων για να καλύψει τις ανάγκες συστημάτων τεχνητής νοημοσύνης μεσαίου έως χαμηλού επιπέδου.

Είναι ενδιαφέρον ότι αυτό το τσιπ B102 θα χρησιμοποιηθεί επίσης στην "ειδική έκδοση" B20 της Κίνας.

Δεδομένου ότι το B102 είναι ένα μονολιθικό υπολογιστικό τσιπ, η Nvidia όχι μόνο μπορεί να το συσκευάσει στο CoWoS-S, αλλά και να αφήσει άλλους προμηθευτές εκτός από την TSMC να κάνουν συσκευασία 2.5D, όπως η Amkor, η ASE SPIL και η Samsung.

Το B200A θα εμφανίζεται σε μορφές HGX 700W και 1000W, εξοπλισμένο με έως και 144 GB μνήμης βίντεο HBM3E και εύρος ζώνης έως 4 TB/s. Αξίζει να σημειωθεί ότι αυτό είναι μικρότερο από το εύρος ζώνης μνήμης του H200.

Ακολουθεί η βελτιωμένη έκδοση μεσαίας κατηγορίας - Blackwell Ultra.

Το τυπικό CoWoS-L Blackwell Ultra, συγκεκριμένα το B210 ή το B200 Ultra, όχι μόνο φτάνει έως και 288 GB HBM3E 12 επιπέδων όσον αφορά την ανανέωση μνήμης, αλλά βελτιώνει επίσης την απόδοση του FLOPS έως και 50%.

Το B200A Ultra θα έχει υψηλότερα FLOPS, αλλά η μνήμη βίντεο δεν θα αναβαθμιστεί.

Εκτός από το ότι έχει την ίδια διαμόρφωση HGX με το αρχικό B200A, το B200A Ultra εισάγει επίσης μια νέα φόρμα MGX NVL 36.

Η απόδοση/TCO του HGX Blackwell είναι εξαιρετική όταν εκπαιδεύετε φόρτους εργασίας με λιγότερες από 5.000 GPU.

Ωστόσο, το MGX NVL36 είναι ιδανική επιλογή για πολλά μοντέλα επόμενης γενιάς λόγω της πιο ευέλικτης υποδομής του.

Δεδομένου ότι το Llama 3 405B είναι ήδη κοντά στο όριο του διακομιστή H200 HGX, η επόμενη γενιά MoE LLAMA 4 σίγουρα δεν θα χωρέσει σε έναν μόνο κόμβο διακομιστή Blackwell HGX.

Σε συνδυασμό με την εκτίμηση της τιμής του MGX B200A Ultra NVL36, η SemiAnalysis πιστεύει ότι το HGX B200A δεν θα πουλήσει πολύ καλά.

Αρχιτεκτονική MGX GB200A Ultra NVL36

Ο MGX GB200A NVL36 SKU είναι ένας αερόψυκτος διακομιστής 40 kW/rack με 36 GPU πλήρως διασυνδεδεμένες μέσω NVLink.

Μεταξύ αυτών, κάθε rack θα είναι εξοπλισμένο με 9 υπολογιστικούς δίσκους και 9 δίσκους NVSwitch. Κάθε δίσκος υπολογιστών είναι 2U και περιέχει 1 Grace CPU και 4 GPU 700W B200A Blackwell. Κάθε δίσκος NVSwitch 1U έχει μόνο έναν διακόπτη ASIC και το εύρος ζώνης κάθε διακόπτη ASIC είναι 28,8 Tbit/s.

Συγκριτικά, το GB200 NVL72/36x2 συσκευάζει 2 Grace CPU και 4 GPU 1200W Blackwell.

Με μόνο 40 kW ανά rack και δυνατότητα αερόψυξης, οι υπάρχοντες χειριστές κέντρων δεδομένων μπορούν εύκολα να αναπτύξουν το MGX NVL36 χωρίς να ανασχεδιάσουν την υποδομή τους.

Σε αντίθεση με το GB200 NVL72/36x2, η αναλογία 4 GPU προς 1 CPU σημαίνει ότι κάθε GPU μπορεί να λάβει μόνο το ήμισυ του εύρους ζώνης C2C.

Επομένως, το MGX NVL36 δεν μπορεί να χρησιμοποιήσει διασύνδεση C2C, αλλά απαιτεί ενσωματωμένο διακόπτη ConnectX-8 PCIe για την ολοκλήρωση της επικοινωνίας GPU-CPU.

Επιπλέον, σε αντίθεση με όλους τους άλλους υπάρχοντες διακομιστές AI (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), κάθε backend NIC θα είναι πλέον υπεύθυνο για 2 GPU.

Αυτό σημαίνει ότι παρόλο που η σχεδίαση ConnectX-8 NIC μπορεί να παρέχει 800G back-end δικτύωσης, κάθε GPU μπορεί να έχει πρόσβαση μόνο 400G back-end InfiniBand/RoCE εύρους ζώνης. (Επίσης σε μισό GB200 NVL72/36x2)

Ο πυρήνας του δίσκου υπολογιστών GB200 NVL72/NVL36x2 είναι η πλακέτα Bianca, η οποία περιέχει 2 GPU Blackwell B200 και 1 Grace CPU.

Δεδομένου ότι κάθε δίσκος υπολογιστών είναι εξοπλισμένος με 2 πλακέτες Bianca, θα εξοπλιστούν συνολικά 2 Grace CPU και 4 GPU 1200W Blackwell.

Αντίθετα, η CPU και η GPU του MGX GB200A NVL36 θα βρίσκονται σε διαφορετικά PCB, παρόμοια με τη σχεδίαση του διακομιστή HGX.

Αλλά σε αντίθεση με τους διακομιστές HGX, οι 4 GPU ανά δίσκο υπολογιστών θα υποδιαιρεθούν σε 2 πλακέτες 2 GPU. Κάθε πλακέτα 2 GPU είναι εξοπλισμένη με υποδοχή Mirror Mezz παρόμοια με την πλακέτα Bianca.

Αυτές οι υποδοχές Mirror Mezz θα χρησιμοποιηθούν στη συνέχεια για σύνδεση στο μεσαίο επίπεδο ConnectX-8 και για σύνδεση του ConnectX-8 ASIC με τον ενσωματωμένο διακόπτη PCIe στη GPU, την τοπική αποθήκευση NVMe και την Grace CPU.

Δεδομένου ότι το ConnectX-8 ASIC είναι πολύ κοντά στη GPU, δεν υπάρχει ανάγκη για επαναληπτικό χρονόμετρο μεταξύ της GPU και του ConnectX-8 NIC. Το απαιτεί το HGX H100/B100/B200.

Επιπλέον, δεδομένου ότι δεν υπάρχει διασύνδεση C2C μεταξύ της Grace CPU και της Blackwell GPU, η Grace CPU θα βρίσκεται σε ένα εντελώς ανεξάρτητο PCB, το οποίο είναι η μητρική πλακέτα της CPU. Αυτή η μητρική πλακέτα θα περιέχει υποδοχές BMC, μπαταρία CMOS, υποδοχές MCIO κ.λπ.

Το εύρος ζώνης NVLink ανά GPU θα είναι 900 GB/s προς κάθε κατεύθυνση, το οποίο είναι ίδιο με το GB200 NVL72/36x2. Σε βάση ανά FLOP, αυτό αυξάνει σημαντικά το εύρος ζώνης GPU-to-GPU, δίνοντας στο MGX NVL36 ένα πλεονέκτημα σε συγκεκριμένους φόρτους εργασίας.

Εφόσον μόνο ένα επίπεδο διακοπτών συνδέει 36 GPU, χρειάζονται μόνο 9 ASIC NVSwitch για την παροχή δικτύωσης χωρίς αποκλεισμό.

Επιπλέον, καθώς κάθε δίσκος διακόπτη 1U έχει μόνο ένα ASIC 28,8 Tbit/s, η ψύξη του αέρα είναι πολύ εύκολη. Για παράδειγμα, ένας διακόπτης 1U 25,6 Tbit/s όπως το Quantum-2 QM9700 θα κάνει.

Στο δίκτυο υποστήριξης, δεδομένου ότι υπάρχουν μόνο 2 θύρες 800G ανά δίσκο υπολογιστών, θα χρησιμοποιεί ένα βελτιστοποιημένο δίκτυο 2 σιδηροτροχιών στο τέλος της σειράς.

Για κάθε 8 ράφι GB200A NVL36, θα υπάρχουν 2 διακόπτες Quantum-X800 QM3400.

Στην περίπτωση των 700 W ανά GPU, η κατανάλωση ενέργειας κάθε rack του GB200A NVL36 μπορεί να είναι περίπου 40 kW, δηλαδή 4 kW απαγωγής θερμότητας σε χώρο 2U.

Ως αποτέλεσμα, θα απαιτούνται ειδικά σχεδιασμένοι ψύκτρες και ανεμιστήρες υψηλής ταχύτητας για την ψύξη του αέρα.

Προκλήσεις στην ανάπτυξη του MGX GB200A NVL 36

Δεδομένου ότι το GB200A NVL36 βασίζεται εξ ολοκλήρου στην ψύξη αέρα και εκτός από το PCIe NIC στο μπροστινό άκρο του πλαισίου 2U, υπάρχει επίσης ένας αποκλειστικός διακόπτης PCIe, ο οποίος θα αυξήσει σημαντικά την πρόκληση της θερμικής διαχείρισης.

Επομένως, η προσαρμογή του backend NIC στο GB200A NVL36 είναι βασικά αδύνατη.

Δεδομένου ότι πολλές από τις εξαρτήσεις μηχανικής εκμάθησης έχουν μεταγλωττιστεί και βελτιστοποιηθεί για επεξεργαστές x86 και η Grace CPU και η GPU Blackwell βρίσκονται σε ξεχωριστά PCB, είναι πιθανό να υπάρχει επίσης μια έκδοση x86+B200A NVL36.

Ωστόσο, παρόλο που η CPU x86 μπορεί να προσφέρει υψηλότερη απόδοση αιχμής, η κατανάλωση ενέργειας θα είναι αντίστοιχα υψηλότερη κατά 100 W, αυξάνοντας έτσι σημαντικά τις προκλήσεις θερμικής διαχείρισης των OEM.

Επιπλέον, λαμβάνοντας υπόψη τις πωλήσεις της Grace CPU, ακόμα κι αν η NVIDIA κυκλοφορήσει τη λύση x86 B200A NVL36, θα ωθήσουν τους πελάτες να επιλέξουν το GB200A NVL36.

Φυσικά, το GB200A NVL36 έχει επίσης το δικό του σημείο πώλησης - ένα σύστημα ψύξης αέρα 40 kW ανά ράφι.

Εξάλλου, πολλοί πελάτες δεν μπορούν να αντέξουν οικονομικά την υποδομή υγρής ψύξης και ισχύος που απαιτείται για ένα GB200 NVL72 με περίπου 125 kW ανά rack (ή ένα 36x2 με συνολική κατανάλωση ισχύος άνω των 130 kW).

Το H100 έχει TDP 700 W και επί του παρόντος χρησιμοποιεί 3DVC 4U-high, ενώ το H200 1000W χρησιμοποιεί 3DVC 6U-high.

Συγκριτικά, το TDP του MGX B200A NVL36 είναι επίσης 700W, αλλά το πλαίσιο είναι μόνο 2U, επομένως ο χώρος είναι αρκετά περιορισμένος. Επομένως, θα απαιτηθεί ένα οριζόντια εκτεταμένο πτερύγιο που μοιάζει με μπαλκόνι για να αυξηθεί η επιφάνεια του πτερυγίου.

Εκτός από την απαίτηση μεγαλύτερης ψύκτρας, οι ανεμιστήρες πρέπει επίσης να παρέχουν ισχυρότερη ροή αέρα από τον υπολογιστικό δίσκο GB200 NVL72/36x2 2U ή τη σχεδίαση GPU HGX 8.

Σύμφωνα με εκτιμήσεις, σε ράφι 40 kW, το 15% έως 17% της συνολικής ισχύος του συστήματος θα χρησιμοποιηθεί για εσωτερικούς ανεμιστήρες πλαισίου. Συγκριτικά, ο ανεμιστήρας του HGX H100 καταναλώνει μόνο το 6% έως το 8% της συνολικής ισχύος του συστήματος.

Λόγω της μεγάλης ποσότητας ισχύος ανεμιστήρα που απαιτείται για να λειτουργήσει σωστά το MGX GB200A NVL36, αυτός είναι ένας εξαιρετικά αναποτελεσματικός σχεδιασμός.

Γιατί να ακυρώσετε το GB200A NVL64

Πριν η Nvidia οριστικοποιήσει το MGX GB200A NVL36, προσπαθούσε επίσης να σχεδιάσει ένα αερόψυκτο rack NVL64 που καταναλώνει 60 kW και φέρει 64 GPU πλήρως διασυνδεδεμένες μέσω του NVLink.

Ωστόσο, μετά από εκτεταμένη μηχανική ανάλυση, η SemiAnalysis διαπίστωσε ότι το προϊόν δεν ήταν εφικτό και δεν θα ήταν εμπορικά διαθέσιμο.

Στο προτεινόμενο SKU NVL64, υπάρχουν 16 δίσκοι υπολογιστών και 4 δίσκοι NVSwitch. Κάθε δίσκος υπολογιστών είναι 2U και περιέχει μια Grace CPU και τέσσερις GPU 700W Blackwell, ακριβώς όπως το MGX GB200A NVL36.

Η κύρια τροποποίηση είναι στους δίσκους NVSwitch - αντί να μειώσει τους 2 NVSwitches του GB200 ανά δίσκο σε 1, η Nvidia προσπαθεί να τον αυξήσει σε 4 διακόπτες ASIC.

Προφανώς, θα ήταν σχεδόν αδύνατο να ψυχθεί ένα μεγαθήριο με τόσο υψηλή κατανάλωση ενέργειας μόνο μέσω του αέρα. (Η NVIDIA πρότεινε 60 kW, η ΗμιΑνάλυση εκτιμάται 70 kW)

Αυτό τυπικά απαιτεί τη χρήση εναλλάκτη θερμότητας πίσω πόρτας, αλλά αυτό ακυρώνει την αρχιτεκτονική αερόψυκτης σχάρας καθώς εξακολουθεί να υπάρχει εξάρτηση από την αλυσίδα παροχής υγρής ψύξης. Επιπλέον, αυτή η λύση εξακολουθεί να απαιτεί τροποποιήσεις σε επίπεδο εγκατάστασης στα περισσότερα κέντρα δεδομένων για τη διοχέτευση του νερού ψύξης στον εναλλάκτη θερμότητας της πίσω πόρτας.

Ένα άλλο πολύ δύσκολο θερμικό ζήτημα είναι ότι ο δίσκος NVSwitch θα περιέχει τέσσερις διακόπτες ASIC 28,8 Tbit/s σε ένα πλαίσιο 1U, που απαιτούν σχεδόν 1500 W ψυκτικής ισχύος.

Μεμονωμένα, δεν είναι δύσκολο να επιτύχετε 1500W σε ένα πλαίσιο 1U. Ωστόσο, εάν σκεφτείτε ότι τα ιπτάμενα καλώδια Ultrapass από τον διακόπτη ASIC στον συνδετήρα του backplane εμποδίζουν πολλή ροή αέρα, η πρόκληση ψύξης γίνεται σημαντική.

Δεδομένης της ανάγκης να κυκλοφορήσει το αερόψυκτο rack MGX NVL στην αγορά εξαιρετικά γρήγορα, η Nvidia προσπάθησε να παραδώσει το προϊόν εντός έξι μηνών από την έναρξη του σχεδιασμού. Ωστόσο, ο σχεδιασμός νέων παλετών μεταγωγής και αλυσίδων εφοδιασμού είναι πολύ δύσκολος για έναν κλάδο που έχει ήδη περιορισμένους πόρους.

Το άλλο σημαντικό πρόβλημα με το GB200A NVL64 είναι ότι υπάρχουν 64 θύρες back-end 800G ανά rack, αλλά κάθε διακόπτης XDR Quantum-X800 Q3400 φέρει 72 θύρες 800G κατάντη. Με άλλα λόγια, κάθε μεταγωγέας θα έχει κενές 16 θύρες 800G.

Η ύπαρξη άδειων θυρών σε ακριβούς back-end μεταγωγείς μπορεί να επηρεάσει σημαντικά την απόδοση του δικτύου και το συνολικό κόστος ιδιοκτησίας, επειδή οι διακόπτες είναι ακριβοί, ειδικά οι αρθρωτοί διακόπτες υψηλής πυκνότητας θύρας όπως ο Quantum-X800.

Επιπλέον, η χρήση 64 GPU στον ίδιο τομέα NVLink δεν είναι ιδανική.

Επιφανειακά, το 64 είναι ένας καλός αριθμός επειδή έχει ως κοινούς παράγοντες τα 2, 4, 8, 16 και 32, γεγονός που το καθιστά τέλειο για διαφορετικές παράλληλες διαμορφώσεις.

Για παράδειγμα, παραλληλισμός τανυστών TP=8, παραλληλισμός εμπειρογνώμονα EP=8 ή TP=4, παραλληλισμός πλήρως μοιρασμένων δεδομένων FSDP=16.

Δυστυχώς, λόγω της αναξιοπιστίας του υλικού, η Nvidia συνιστά να διατηρείτε τουλάχιστον 1 υπολογιστικό δίσκο ανά rack NVL ως εφεδρικό, έτσι ώστε η GPU να μπορεί να τεθεί εκτός σύνδεσης κατά τη συντήρηση και να χρησιμοποιηθεί ως ζεστό εφεδρικό.

Χωρίς τουλάχιστον 1 υπολογιστικό δίσκο σε ζεστό εφεδρικό ανά rack, ακόμη και 1 αστοχία GPU μπορεί να προκαλέσει την αναγκαστική ακινητοποίηση ολόκληρου του rack για σημαντικό χρονικό διάστημα. Αυτό είναι παρόμοιο με το πώς σε έναν διακομιστή HGX H100 με 8 GPU, μια μεμονωμένη αποτυχία GPU θα αναγκάσει και τα 8 H100 εκτός λειτουργίας.

Η διατήρηση τουλάχιστον ενός δίσκου υπολογιστών ως ζεστό εφεδρικό σημαίνει ότι μόνο 60 GPU ανά rack μπορούν να χειριστούν τον φόρτο εργασίας. Σε αυτήν την περίπτωση, τα πλεονεκτήματα που μόλις αναφέρθηκαν δεν υπάρχουν πλέον.

Το NVL36×2 ή το NVL72 είναι εξοπλισμένο με 72 GPU, πράγμα που σημαίνει ότι οι χρήστες μπορούν όχι μόνο να χρησιμοποιούν 2 υπολογιστικούς δίσκους ως hot spares, αλλά και να έχουν 64 GPU διαθέσιμες για χρήση σε κάθε rack.

Το GB200A NVL36 μπορεί να έχει 1 υπολογιστικό δίσκο ως hot standby Αυτή τη στιγμή, υπάρχουν 2, 4, 8 και 16 ως κοινοί παράγοντες της παράλληλης λύσης.

Επιπτώσεις στην εφοδιαστική αλυσίδα

Σύμφωνα με εικασίες της SemiAnalysis, οι αποστολές GB200 NVL72/36x2 θα μειωθούν ή θα καθυστερήσουν και οι αποστολές των B100 και B200 HGX θα μειωθούν σημαντικά.

Εν τω μεταξύ, οι αποστολές Hopper θα αυξηθούν από το τέταρτο τρίμηνο του 2024 έως το πρώτο τρίμηνο του 2025.

Επιπλέον, οι παραγγελίες GPU θα μεταφερθούν από το HGX Blackwell και το GB200 NVL36x2 στο MGX GB200A NVL36 το δεύτερο εξάμηνο του έτους.

Αυτό θα επηρεάσει όλα τα ODM και τους προμηθευτές εξαρτημάτων, καθώς τα σχέδια αποστολής και εσόδων θα αλλάξουν σημαντικά από το τρίτο τρίμηνο του 2024 στο δεύτερο τρίμηνο του 2025.

Βιβλιογραφικές αναφορές:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment

Νέα

Το πιο ισχυρό τσιπ AI της NVIDIA αποκαλύπτει σημαντικά σχεδιαστικά ελαττώματα και η ειδική έκδοση της Κίνας εκτέθηκε κατά λάθος!

Εισαγωγή

τα στοιχεία επικοινωνίας μου