νέα

Τα λεγόμενα «hot chips» της NVIDIA είναι στην πραγματικότητα «καυτές πλατφόρμες»

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η Nvidia χτυπήθηκε με σπάνια άσχημα νέα νωρίτερα αυτό το μήνα, όταν εμφανίστηκαν αναφορές ότι ο πολυαναμενόμενος επιταχυντής GPU "Blackwell" της εταιρείας θα μπορούσε να καθυστερήσει έως και τρεις μήνες λόγω ελαττωμάτων στο σχεδιασμό. Ωστόσο, ένας εκπρόσωπος της Nvidia είπε ότι όλα πάνε όπως είχε προγραμματιστεί, με ορισμένους προμηθευτές να λένε ότι τίποτα δεν έχει αλλάξει, ενώ άλλοι είπαν ότι υπήρχαν κάποιες κανονικές καθυστερήσεις.

Οι γνώστες του κλάδου αναμένουν ότι οι χρήστες θα μάθουν περισσότερα για την κατάσταση της Blackwell όταν η Nvidia ανακοινώσει τα οικονομικά της αποτελέσματα του δεύτερου τριμήνου για το οικονομικό έτος 2025 την επόμενη Τετάρτη.

Αναφέρεται ότι τα τσιπ Blackwell - B100, B200 και GB200 - θα αποτελέσουν το επίκεντρο του φετινού συνεδρίου Hot Chips στο Πανεπιστήμιο Stanford στην Καλιφόρνια την επόμενη εβδομάδα, όπου η Nvidia θα παρουσιάσει την αρχιτεκτονική της, θα παρουσιάσει λεπτομερώς ορισμένες νέες καινοτομίες και θα περιγράψει τις μεθόδους που χρησιμοποιούνται στο σχεδιασμό. την περίπτωση των τσιπ της τεχνητής νοημοσύνης και συζητά την έρευνα σχετικά με την υγρή ψύξη σε κέντρα δεδομένων για την εκτέλεση αυτών των αυξανόμενων φόρτων εργασίας. Σύμφωνα με τον Dave Salvador, διευθυντή προϊόντων ταχείας υπολογιστικής της Nvidia, η εταιρεία θα επιδείξει επίσης τσιπ Blackwell που εκτελούνται ήδη σε ένα από τα κέντρα δεδομένων της.

Τα περισσότερα από αυτά για τα οποία μιλά η Nvidia για το Blackwell είναι ήδη γνωστά, όπως η GPU Blackwell Ultra που θα κυκλοφορήσει το επόμενο έτος και η επόμενη γενιά των Rubin GPU και των επεξεργαστών Vera που θα ξεκινήσουν να κυκλοφορούν το 2026. Ωστόσο, ο Salvator τονίζει,Όταν μιλάμε για το Blackwell, είναι σημαντικό να το σκεφτόμαστε ως πλατφόρμα, όχι ως μεμονωμένο τσιπ.Ο Salvator είπε σε δημοσιογράφους και αναλυτές σε μια ενημέρωση αυτή την εβδομάδα στο πλαίσιο της προετοιμασίας για τα Hot Chips.

«Όταν σκέφτεστε τη Nvidia και τις πλατφόρμες που κατασκευάζουμε, οι GPU, η δικτύωση και ακόμη και οι CPU μας είναι μόνο η αρχή», είπε «Κάνουμε μηχανική σε επίπεδο συστήματος και κέντρου δεδομένων για να δημιουργήσουμε αυτά τα πράγματα που μπορούν πραγματικά να βγουν έξω και να λύσουν αυτά τα πραγματικά προβλήματα για τις δύσκολες προκλήσεις της τεχνητής νοημοσύνης. χρόνια .Το συμπέρασμα μοντέλου μεγάλης γλώσσας σε πραγματικό χρόνο απαιτεί πολλαπλές GPU και, στο εγγύς μέλλον, πολλαπλούς κόμβους διακομιστών.

Αυτό περιλαμβάνει όχι μόνο GPU Blackwell και Grace CPU, αλλά και τσιπ NVLink Switch, Bluefield-3 DPU, ConnextX-7 και ConnectX-8 NIC, διακόπτες Ethernet Spectrum-4 και διακόπτες Quantum-3 InfiniBand. Ο Salvator έδειξε επίσης διαφορετικές πληροφορίες για το διακόπτη NVLink (παρακάτω), το Compute, το Spectrum-X800 και το Quantum-X800.

Η Nvidia παρουσίασε την πολυαναμενόμενη αρχιτεκτονική Blackwell στο συνέδριο GTC 2024 τον Μάρτιο του τρέχοντος έτους, και οι κατασκευαστές υπερκλίμακας και οι κατασκευαστές πρωτότυπου εξοπλισμού υπέγραψαν γρήγορα μαζί της. Η εταιρεία έχει το βλέμμα της στο ταχέως αναπτυσσόμενο πεδίο της γενετικής τεχνητής νοημοσύνης, όπου τα μεγάλα γλωσσικά μοντέλα (LLM) πρόκειται να γίνουν ακόμη μεγαλύτερα, όπως αποδεικνύεται από το Llama 3.1 της Meta, το οποίο κυκλοφόρησε τον Ιούνιο με ένα μοντέλο 4050 A με δισεκατομμύρια παραμέτρους. Ο Salvator είπε,Καθώς τα LLM μεγαλώνουν και η ανάγκη για συμπέρασμα σε πραγματικό χρόνο παραμένει, θα απαιτούν περισσότερους υπολογισμούς και χαμηλότερο λανθάνοντα χρόνο, κάτι που απαιτεί μια προσέγγιση πλατφόρμας.

Είπε: "Όπως τα περισσότερα άλλα LLMS, οι υπηρεσίες που θα τροφοδοτούνται από αυτό το μοντέλο αναμένεται να εκτελούνται σε πραγματικό χρόνο. Για να το κάνετε αυτό, χρειάζεστε πολλαπλές GPU. Η πρόκληση είναι πώς να συνδυάσετε την υψηλή απόδοση των GPU, την υψηλή απόδοση των GPU και την υψηλή απόδοση των GPU." Υπάρχει μια τεράστια ισορροπία μεταξύ της χρήσης και της παροχής μιας εξαιρετικής εμπειρίας χρήστη στους τελικούς χρήστες που χρησιμοποιούν αυτές τις υπηρεσίες που βασίζονται σε AI."

01 Η ανάγκη για ταχύτητα

Με το Blackwell, η Nvidia διπλασίασε το εύρος ζώνης ανά μεταγωγέα από 900 GB/sec σε 1,8 TB/sec. Η τεχνολογία Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) της εταιρείας φέρνει περισσότερους υπολογιστές στο σύστημα που βρίσκεται στην πραγματικότητα στο switch. Μας επιτρέπει να κάνουμε κάποια εκφόρτωση από τη GPU για να επιταχύνουμε την απόδοση και επίσης βοηθά στην εξομάλυνση της κυκλοφορίας δικτύου στο ύφασμα NVLink. Αυτές είναι καινοτομίες που συνεχίζουμε να οδηγούμε σε επίπεδο πλατφόρμας.

Το multi-node GB200 NVL72 είναι ένα υγρόψυκτο πλαίσιο που συνδέει 72 GPU Blackwell και 36 Grace CPU σε ένα σχέδιο κλίμακας rack που η Nvidia λέει ότι λειτουργεί ως ενιαία GPU για LLM τρισεκατομμυρίων παραμέτρων όπως το GPT-MoE-1.8T Παρέχει υψηλότερη απόδοση συμπερασμάτων. Η απόδοσή του είναι 30 φορές μεγαλύτερη από αυτή του συστήματος HGX H100 και η ταχύτητα προπόνησής του είναι 4 φορές μεγαλύτερη από αυτή του H100.

Η Nvidia έχει προσθέσει επίσης εγγενή υποστήριξη για το FP4, χρησιμοποιώντας το Quasar Quantization System της εταιρείας, το οποίο μπορεί να παρέχει την ίδια ακρίβεια με το FP16, ενώ μειώνει τη χρήση εύρους ζώνης κατά 75%. Το Quasar Quantization System είναι λογισμικό που αξιοποιεί τον Transformer Engine της Blackwell για να διασφαλίσει την ακρίβεια, και ο Salvator το απέδειξε συγκρίνοντας εικόνες τεχνητής νοημοσύνης που δημιουργούνται χρησιμοποιώντας το FP4 και το FP16, οι οποίες έδειξαν ελάχιστα αισθητές διαφορές.

Χρησιμοποιώντας το FP4, το μοντέλο μπορεί να χρησιμοποιεί λιγότερη μνήμη και να έχει καλύτερη απόδοση από το FP8 στη GPU Hopper.

02 Σύστημα υγρής ψύξης

Όσον αφορά την υγρή ψύξη, η Nvidia θα εισαγάγει μια μέθοδο ζεστού νερού απευθείας από chip-to-chip που μπορεί να μειώσει τη χρήση ενέργειας του κέντρου δεδομένων κατά 28%.

"Αυτό που είναι ενδιαφέρον για αυτήν την προσέγγιση είναι μερικά από τα πλεονεκτήματά της, τα οποία περιλαμβάνουν αυξημένη απόδοση ψύξης, χαμηλότερο λειτουργικό κόστος, μεγαλύτερη διάρκεια ζωής διακομιστή και δυνατότητα επαναχρησιμοποίησης της συλλεγόμενης θερμότητας για άλλες χρήσεις", είπε ο Salvator "Σίγουρα θα βοηθούσε στη βελτίωση της απόδοσης ψύξης Ένας τρόπος είναι ότι, όπως υποδηλώνει το όνομα, αυτό το σύστημα δεν χρησιμοποιεί ψυγείο , που μας εξοικονομεί ενέργεια και μειώνει το λειτουργικό κόστος.»

Ένα άλλο θέμα είναι πώς η Nvidia αξιοποιεί την τεχνητή νοημοσύνη, σχεδιάζοντας τα τσιπ τεχνητής νοημοσύνης της χρησιμοποιώντας τη Verilog, μια γλώσσα περιγραφής υλικού που περιγράφει κυκλώματα σε κώδικα που χρησιμοποιείται εδώ και τέσσερις δεκαετίες. Η NVIDIA βοηθά με έναν αυτόνομο πράκτορα Verilog που ονομάζεται VerilogCoder.

"Οι ερευνητές μας έχουν αναπτύξει ένα μεγάλο γλωσσικό μοντέλο που μπορεί να χρησιμοποιηθεί για να επιταχύνει τη δημιουργία του κώδικα Verilog που περιγράφει τα συστήματά μας", είπε "Θα το χρησιμοποιήσουμε στις μελλοντικές γενιές προϊόντων για να βοηθήσουμε στη δημιουργία αυτών των κωδικών Πολλά πράγματα μπορεί Βοηθώντας στην επιτάχυνση της διαδικασίας σχεδιασμού και επαλήθευσης, επιταχύνει τις χειροκίνητες πτυχές του σχεδιασμού και ουσιαστικά αυτοματοποιεί πολλές εργασίες.