Νέα

Η μάχη της AI για την ηγεμονία ξεκινά! Το OpenAI κατασκευάζει επειγόντως υπερυπολογιστή 100.000 GB200, το 100.000 H100 του Musk θα ξεκινήσει την εκπαίδευση στο τέλος του μήνα

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Taozi

[Εισαγωγή στη Νέα Σοφία] Ο Μασκ ανακοίνωσε επίσημα ότι το μεγαλύτερο σύμπλεγμα υπερυπολογιστών στον κόσμο που κατασκευάστηκε από την xAI είναι κατασκευασμένο με 100.000 H100 και αναμένεται να ξεκινήσει την εκπαίδευση στα τέλη αυτού του μήνα. Από την άλλη πλευρά, το OpenAI αυξάνει ξανά την επένδυσή του και θα κατασκευάσει έναν υπερυπολογιστή που θα αποτελείται από 100.000 GB200 για να συντρίψει πλήρως το xAI.

Για να φτάσουν στο AGI, εταιρείες σε όλο τον κόσμο ετοιμάζονται να κάψουν όλες τις GPU!

Πληροφορίες αναφέρουν αποκλειστικά ότι το επόμενο σύμπλεγμα υπερυπολογιστών του OpenAI θα αποτελείται από 100.000 μπλοκ GB200.

Αυτό χρησιμοποιεί το πιο ισχυρό τσιπ AI της Nvidia μέχρι σήμερα.


Από την άλλη πλευρά, η xAI δημιουργεί επίσης αυτό που είναι γνωστό ως «το μεγαλύτερο σύμπλεγμα υπερυπολογιστών στον κόσμο», που αποτελείται από 100k H100, και θα τεθεί σε εκπαίδευση στα τέλη αυτού του μήνα.

Στην τελευταία ανάρτηση του Musk, απάντησε αμέσως σε αναφορές ότι η xAI και η Oracle είχαν τερματίσει τις διαπραγματεύσεις για τη συμφωνία διακομιστή.


Είπε ότι η xAI αγόρασε 24.000 H100 από την Oracle και εκπαίδευσε το Grok 2 σε αυτά τα τσιπ.

Το Grok 2 βρίσκεται σε φάση τελειοποίησης και διορθώσεων σφαλμάτων και αναμένεται να είναι έτοιμο για κυκλοφορία τον επόμενο μήνα. Ταυτόχρονα, η xAI δημιουργεί επίσης ένα σύμπλεγμα 100.000 H100 από μόνη της. Ο στόχος είναι να επιτύχει τον ταχύτερο χρόνο ολοκλήρωσης της εκπαίδευσης και σχεδιάζει να ξεκινήσει μοντέλα εκπαίδευσης αργότερα αυτόν τον μήνα. Αυτό θα γίνει το ισχυρότερο εκπαιδευτικό cluster στον κόσμο και τα πλεονεκτήματά του είναι αυτονόητα. Ο λόγος που αποφασίσαμε να κατασκευάσουμε μόνοι μας 100.000 συστήματα τσιπ H100, καθώς και την επόμενη γενιά μεγάλων συστημάτων, είναι ότι η βασική μας ανταγωνιστικότητα εξαρτάται από το να είμαστε ταχύτεροι από άλλες εταιρείες τεχνητής νοημοσύνης. Αυτός είναι ο μόνος τρόπος για να καλύψετε τη διαφορά με τους ανταγωνιστές σας. Η Oracle είναι μια εξαιρετική εταιρεία και υπάρχει μια άλλη εταιρεία (αναφέροντας στη Microsoft) που δείχνει επίσης μεγάλες δυνατότητες συμμετοχής στο έργο συμπλέγματος GB200 του OpenAI. Αλλά όταν η μοίρα μας εξαρτάται από το να είμαστε η πιο γρήγορη εταιρεία, πρέπει να αναλαμβάνουμε την ευθύνη, όχι απλώς να είμαστε παρευρισκόμενοι.


Εν ολίγοις, σε αυτήν την εποχή που αλλάζει συνεχώς, εάν θέλετε να ξεπεράσετε τους ανταγωνιστές σας, πρέπει να εξασφαλίσετε ένα απόλυτο πλεονέκτημα ταχύτητας.

Το xAI Oracle καταρρέει, δεκάδες δισεκατομμύρια δολάρια σπαταλούνται

Τον Μάιο του τρέχοντος έτους, η Information ανέφερε ότι η xAI συζητούσε μια πολυετή συμφωνία για τη μίσθωση τσιπ Nvidia AI από την Oracle.

Η συμφωνία αναμενόταν να αγγίζει τα 10 δισεκατομμύρια δολάρια, αλλά βρέθηκε σε αδιέξοδο λόγω ορισμένων ζητημάτων.

Μεταξύ αυτών, ο Μασκ απαιτεί η ταχύτητα κατασκευής υπερυπολογιστών να ξεπερνά εντελώς τη φαντασία της Oracle. Η Oracle ανησυχεί επίσης ότι η προτιμώμενη τοποθεσία του xAI δεν θα έχει αρκετή ισχύ.


Για να αλλάξουμε αυτή την κατάσταση, μπορούμε μόνο να βασιστούμε στην αυτοδυναμία.

Τώρα, η xAI δημιουργεί το δικό της κέντρο δεδομένων AI στο Μέμφις του Τενεσί, το οποίο χρησιμοποιεί τσιπ Nvidia που αποστέλλονται από την Dell και τη Supermicro.

Η Oracle δεν συμμετέχει στο έργο, σύμφωνα με άτομα που συμμετέχουν στις διαπραγματεύσεις.

Στην πραγματικότητα, πριν από αυτό, η xAI είχε νοικιάσει πολλά τσιπ Nvidia από την Oracle και έγινε ένας από τους μεγαλύτερους πελάτες αυτού του προμηθευτή GPU υπολογιστικού νέφους.

Η συμφωνία πρόκειται να προχωρήσει προς το παρόν παρά την αποτυχία ευρύτερων διαπραγματεύσεων.

Από την τελευταία απάντηση του Musk, μπορεί να φανεί ότι ο αριθμός των τσιπ της Oracle έχει αυξηθεί από 16.000 τον Μάιο σε 24.000.

100.000 τεμάχια σύνδεσης σειράς H100

Ωστόσο, ο Musk εξακολουθεί να ελπίζει να κατασκευάσει έναν υπερυπολογιστή εξοπλισμένο με 100.000 GPU της Nvidia, αποκαλώντας τον "Gigafactory of Compute".


Είπε ότι το xAI χρειάζεται περισσότερα τσιπ για να εκπαιδεύσει το μοντέλο AI επόμενης γενιάς-Grok 3.0.

Ο Λάο Μα είπε στους επενδυτές τον Μάιο ότι ελπίζει να θέσει σε λειτουργία τον υπερυπολογιστή μέχρι το φθινόπωρο του 2025 και ότι θα είναι προσωπικά υπεύθυνος για την έγκαιρη παράδοση του υπερυπολογιστή, επειδή είναι ζωτικής σημασίας για την ανάπτυξη του LLM.

Έχει δηλώσει δημόσια πολλές φορές ότι ένα υγρόψυκτο εκπαιδευτικό cluster που αποτελείται από 100.000 H100 θα είναι online σε λίγους μήνες.


Ο λόγος για τον οποίο η επανάληψη του μοντέλου Grok είναι σημαντική είναι επειδή αποτελεί μέρος του πακέτου συνδρομής X Social App, το οποίο ξεκινά από 8 $ το μήνα και περιλαμβάνει μια ποικιλία λειτουργιών.

Μόλις την περασμένη εβδομάδα, η xAI δημοσίευσε επίσης μια φωτογραφία του Μασκ και άλλων εργαζομένων στο κέντρο δεδομένων. Στο βάθος πίσω από τη φωτογραφία, υπάρχουν διακομιστές.


Αν και η τοποθεσία δεν προσδιορίστηκε στην ανάρτηση. Αλλά τον Ιούνιο, ο πρόεδρος του Επιμελητηρίου του Μεγάλου Μέμφις είπε ότι η xAI κατασκεύαζε έναν υπερυπολογιστή στο εργοστάσιο της Electrolux στο Μέμφις.


Διάταξη βοηθητικού προγράμματος της νέας εγκατάστασης xAI στο Μέμφις, Τενεσί

Ο Διευθύνων Σύμβουλος της Dell, Micael Dell, δήλωσε ότι η Dell βοηθά την xAI να δημιουργήσει ένα κέντρο δεδομένων.


Επιπλέον, ο διευθύνων σύμβουλος της Supermicro Charles Liang δημοσίευσε επίσης μια φωτογραφία του ίδιου και του Musk στο κέντρο δεδομένων, η οποία επιβεβαίωσε επίσης τη συνεργασία της εταιρείας με την xAI.


Αξίζει να αναφερθεί ότι τον περασμένο μήνα ο Μασκ ανακοίνωσε ότι η xAI είχε ολοκληρώσει ένα εκπληκτικό ποσό 6 δισεκατομμυρίων δολαρίων στη χρηματοδότηση της Σειράς Β, με την αποτίμηση της εταιρείας να φτάνει τα 24 δισεκατομμύρια δολάρια.

Οι επενδυτές στη χρηματοδότηση της σειράς Β περιλαμβάνουν 8 επενδυτές, συμπεριλαμβανομένων των Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital και Fidelity Management & Research.


Είπε προσωπικά ότι στον τελευταίο γύρο χρηματοδότησης, τα περισσότερα από τα κεφάλαια θα επενδυθούν στην κατασκευή υπολογιστικής ισχύος.


Προφανώς, το έργο υπερυπολογιστών που κατασκευάστηκε από την xAI είναι μέρος των προσπαθειών της να καλύψει τη διαφορά με το OpenAI.

100.000 GB200 υπερυπολογιστής, νοικιασμένος για 5 δισεκατομμύρια δολάρια ΗΠΑ για δύο χρόνια

Στην πραγματικότητα, από την άλλη πλευρά, το OpenAI επιταχύνει επίσης ασταμάτητα την ταχύτητα έρευνας και ανάπτυξής του, χωρίς να τολμήσει να χαλαρώσει.

Δύο άτομα που γνωρίζουν το θέμα αποκάλυψαν ότι η συμφωνία της Oracle με τη Microsoft περιλαμβάνει ένα σύμπλεγμα 100.000 επερχόμενων τσιπ GB200 της Nvidia.

Όταν κατασκευαστεί αυτός ο υπερυπολογιστής, τα 100.000 H100 του Musk δεν θα είναι τίποτα.


Μερικοί χρήστες του Διαδικτύου αναφώνησαν ότι ο αριθμός των τσιπ Nvidia GB200 στο σύμπλεγμα είναι περίπου ισοδύναμος με τον αριθμό των τρανζίστορ στον επεξεργαστή Intel 80286. Είμαι έκπληκτος που βλέπω αυτή τη σκηνή στη διάρκεια της ζωής μου.


Κάποιος άλλος το ανέλυσε αυτό και είπε, "Η απόδοση προπόνησης του GB200 θα είναι 4 φορές μεγαλύτερη από του H100."

Το GPT-4 εκπαιδεύτηκε χρησιμοποιώντας 25.000 A100 (ο προκάτοχος του H100) σε 90 ημέρες. Έτσι, θεωρητικά, θα μπορούσατε να εκπαιδεύσετε το GPT-4 σε λιγότερο από 2 ημέρες με 100.000 GB200, αν και αυτό είναι υπό ιδανικές συνθήκες και μπορεί να μην είναι απολύτως ρεαλιστικό. Αλλά κάνει τους ανθρώπους να φαντάζονται τι είδους μοντέλα AI μπορούν να εκπαιδεύσουν σε 90 ημέρες χρησιμοποιώντας αυτό το σύμπλεγμα υπερυπολογιστών, το οποίο αναμένεται να τεθεί σε λειτουργία το δεύτερο τρίμηνο του 2025.


Στο συνέδριο GTC 2024, ο Lao Huang εισήγαγε κάποτε ότι το H100 είναι 4 φορές ταχύτερο από το A100 και το B200 είναι 3 φορές πιο γρήγορο από το H100.


Υποθέτοντας ότι οι δύο εταιρείες υπογράψουν μια πολυετή συμφωνία, το κόστος της μίσθωσης ενός τέτοιου συμπλέγματος θα μπορούσε να φτάσει περίπου τα 5 δισεκατομμύρια δολάρια σε δύο χρόνια, σύμφωνα με άτομα που είναι εξοικειωμένα με την τιμολόγηση του cloud GPU.

Αυτό το cluster αναμένεται να είναι έτοιμο το δεύτερο τρίμηνο του 2025.

Η Oracle θα αγοράσει τσιπ από την Nvidia και θα τα μισθώσει στη Microsoft, η οποία στη συνέχεια θα παρέχει τα τσιπ στο OpenAI. Εξάλλου, αυτό έχει γίνει μια συνεπής πρακτική αμοιβαίου οφέλους μεταξύ της Microsoft και του OpenAI.

Η Microsoft επενδύει χρήματα στο OpenAI και σε αντάλλαγμα αποκτά πρόσβαση σε νέα μοντέλα OpenAI.


Η Oracle σχεδιάζει να τοποθετήσει τα τσιπ σε ένα κέντρο δεδομένων στο Abilene του Τέξας, σύμφωνα με άτομα που συμμετείχαν στον σχεδιασμό.

Η συμφωνία δείχνει επίσης ότι η ίδια η Microsoft δεν μπορεί να αποκτήσει αρκετά τσιπ Nvidia.

Επιπλέον, δεν είναι σύνηθες οι πάροχοι υπολογιστών νέφους να νοικιάζουν διακομιστές ο ένας από τον άλλον, αλλά η μεγάλη ζήτηση για τσιπ Nvidia οδήγησε σε αυτή την ασυνήθιστη συναλλαγή.

Πέρυσι, η Microsoft κατέληξε σε παρόμοια συμφωνία μισθωμένου διακομιστή με την CoreWeave για την αύξηση της χωρητικότητας των διακομιστών Nvidia.

Βιβλιογραφικές αναφορές:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623