Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Πριν από τη γέννηση του ChatGPT, η Google είχε ξεκινήσει μόνη της ένα σημαντικό κύμα στην ανάπτυξη της τεχνητής νοημοσύνης στον κόσμο Αυτό που αντηχούσε σε όλο τον κόσμο ήταν ότι το Google AlphaGo νίκησε τον κορεάτη παίκτη του Go Lee Sedol στον «Πόλεμο ανθρώπου-μηχανής». το 2016. Πίσω από αυτό, το τσιπ TPU που υποστηρίζει τη λειτουργία του «πιο ισχυρού εγκεφάλου» της AlphaGo είναι ζωτικής σημασίας και εξακολουθεί να βελτιώνεται συνεχώς.
Αν και το TPU δημιουργήθηκε αρχικά για εσωτερικούς φόρτους εργασίας, λόγω των πολλαπλών πλεονεκτημάτων του, όχι μόνο χρησιμοποιήθηκε ευρέως στην Google και έγινε η ραχοκοκαλιά της τεχνητής νοημοσύνης, αλλά επίσης ευνοήθηκε και εφαρμόστηκε ανταγωνιστικά από τεχνολογικούς γίγαντες όπως η Apple και πολλά μεγάλα μοντέλα νεοσύστατες επιχειρήσεις. Κοιτάζοντας πίσω, τα τσιπ TPU έχουν μετακινηθεί σταδιακά από την άκρη της βιομηχανίας AI στο κέντρο της σκηνής δέκα χρόνια μετά τη γέννησή τους. Ωστόσο, δεδομένου ότι η υποδομή TPU είναι χτισμένη κυρίως γύρω από το TensorFlow και το JAX, η Google αντιμετωπίζει επίσης προκλήσεις όπως "τεχνικά νησιά" σε κάποιο βαθμό.
Δέκα χρόνια «συνεχίζοντας» την καινοτομία της τεχνητής νοημοσύνης
Με τη σε βάθος ανάπτυξη της μηχανικής μάθησης και των αλγορίθμων βαθιάς μάθησης, η ζήτηση της βιομηχανίας για υψηλής απόδοσης, χαμηλής κατανάλωσης αποκλειστικά υπολογιστικά τσιπ τεχνητής νοημοσύνης αυξάνεται με ταχείς ρυθμούς. Ωστόσο, οι παραδοσιακές CPU γενικής χρήσης και οι GPU που ειδικεύονται σε πολύπλοκες εργασίες, όπως η επιτάχυνση γραφικών και η απόδοση βίντεο, δεν μπορούν να ανταποκριθούν στις τεράστιες απαιτήσεις του φόρτου εργασίας βαθιάς μάθησης. Ταυτόχρονα, υπάρχουν προβλήματα όπως η χαμηλή απόδοση και ο περιορισμένος αποκλειστικός υπολογισμός.
Ο Jeff Dean, ο επικεφαλής επιστήμονας της Google, είπε: "Κάναμε μερικούς πρόχειρους υπολογισμούς σχετικά με το πόση υπολογιστική ισχύ θα χρειαζόταν εάν εκατοντάδες εκατομμύρια άνθρωποι είχαν μια τρίλεπτη συνομιλία με την Google κάθε μέρα. Γρήγορα συνειδητοποιήσαμε ότι αυτό θα απαιτούσε βασικά καταναλώνει όλους τους υπολογιστές που διαθέτει η Google. Με άλλα λόγια, ο αριθμός των υπολογιστών στα κέντρα δεδομένων της Google θα πρέπει να διπλασιαστεί για να υποστηρίξει αυτές τις νέες δυνατότητες.
Ως αποτέλεσμα, η Google δεσμεύτηκε να εξερευνήσει πιο οικονομικά αποδοτικές και εξοικονόμησης ενέργειας λύσεις μηχανικής εκμάθησης και ξεκίνησε αμέσως το έργο TPU και ανακοίνωσε το 2015 ότι το τσιπ TPU πρώτης γενιάς (TPU v1) ήταν διαδικτυακά εσωτερικά. Το TPU είναι ένα ολοκληρωμένο κύκλωμα ειδικής εφαρμογής (ASIC) που έχει σχεδιαστεί για έναν συγκεκριμένο σκοπό, συμπεριλαμβανομένης της εκτέλεσης μαθηματικών λειτουργιών που βασίζονται σε μοναδικά μήτρα και διανύσματα που απαιτούνται για τη δημιουργία μοντέλων AI. Διαφορετικά από τις λειτουργίες matrix της GPU, το χαρακτηριστικό χαρακτηριστικό της PU είναι η μονάδα πολλαπλασιασμού μήτρας (MXU).
Σύμφωνα με τον Αντιπρόεδρο της Google και Ακαδημαϊκό Μηχανικής Norm Jouppi, η εμφάνιση του TPU επέτρεψε στην Google να αποθηκεύσει 15 κέντρα δεδομένων. Όσο για έναν σημαντικό λόγο για τον οποίο η TPU είναι πιο οικονομική, είναι ότι η στοίβα λογισμικού της Google είναι πιο κάθετα ενσωματωμένη από την GPU. Η Google διαθέτει μια αποκλειστική ομάδα μηχανικών που δημιουργεί ολόκληρη τη στοίβα λογισμικού της, από την υλοποίηση μοντέλων (Vertex Model Garden) έως τα πλαίσια βαθιάς μάθησης (Keras, JAX και TensorFlow) έως μεταγλωττιστές βελτιστοποιημένους για TPU (XLA).
Όσον αφορά την απόδοση, το TPU v1 διαθέτει 65536 8-bit MAC (Matrix Multiplication Unit), μέγιστη απόδοση 92 TOPS και 28 MiB χώρο μνήμης στο τσιπ. Σε σύγκριση με την CPU και την GPU, το TPU v1 αποδίδει καλά σε χρόνο απόκρισης και αναλογία ενεργειακής απόδοσης και μπορεί να βελτιώσει σημαντικά την ταχύτητα συμπερασμάτων των νευρωνικών δικτύων. Η επιτυχία του TPU v1 έκανε την Google να συνειδητοποιήσει ότι τα τσιπ μηχανικής εκμάθησης έχουν ευρείες προοπτικές ανάπτυξης, επομένως συνεχίζει να αναβαθμίζει και να λανσάρει επαναληπτικά προϊόντα με πιο προηγμένες επιδόσεις και υψηλότερη απόδοση με βάση το TPU v1.
Για παράδειγμα, τα TPU v2 και TPU v3 έχουν σχεδιαστεί ως τσιπ εξαγωγής συμπερασμάτων και εκπαίδευσης τεχνητής νοημοσύνης από την πλευρά του διακομιστή για την υποστήριξη πιο σύνθετων εργασιών AI. Το TPU v4 ενισχύει περαιτέρω την επεκτασιμότητα και την ευελιξία και υποστηρίζει την κατασκευή συμπλεγμάτων υπολογιστών AI μεγάλης κλίμακας. Μεταξύ αυτών, το TPU v2 επεκτείνει τη σχεδίαση ενός τσιπ σε ένα μεγαλύτερο σύστημα υπερυπολογιστών για πρώτη φορά, δημιουργώντας ένα TPU Pod που αποτελείται από 256 τσιπ TPU. Επιπλέον, το TPU v3 προσθέτει τεχνολογία υγρής ψύξης και το TPU v4 εισάγει διακόπτες οπτικού κυκλώματος για περαιτέρω βελτίωση της απόδοσης και της αποδοτικότητας.
Το 2023, εν όψει των «υπερβολικών» αμφιβολιών και αντιπαραθέσεων που αντιμετωπίζει το τσιπ TPU v5, η Google μεταπήδησε απευθείας στην έκδοση TPU v5e. Το TPU v5e έχει προσαρμοστεί στην αρχιτεκτονική, χρησιμοποιώντας μία μόνο αρχιτεκτονική TensorCore Η μέγιστη υπολογιστική ισχύς του INT8 φθάνει τα 393 TFLOPS, τα οποία υπερβαίνουν τα 275 TFLOPS του v4, ωστόσο, η μέγιστη υπολογιστική ισχύς του BF16 είναι μόνο 197 TFLOPS. το επίπεδο της προηγούμενης γενιάς v4. Αυτό δείχνει ότι το TPU v5e είναι πιο κατάλληλο για συλλογιστικές εργασίες και μπορεί επίσης να αντικατοπτρίζει τη στρατηγική επιλογή της Google για την αγορά υπηρεσιών υπολογιστικής ισχύος AI.
Στο συνέδριο προγραμματιστών I/O τον Μάιο του τρέχοντος έτους, η Google κυκλοφόρησε το TPU Trillium έκτης γενιάς. Ο Amin Vadhat, αντιπρόεδρος και γενικός διευθυντής του Google Cloud Machine Learning, Systems and Cloud AI, δήλωσε ότι η κορυφαία υπολογιστική απόδοση του Trillium TPU είναι πάνω από 4,7 φορές υψηλότερη από την προηγούμενη γενιά TPU v5e και η ενεργειακή απόδοση είναι μεγαλύτερη από 67% υψηλότερο από το TPU v5e Ταυτόχρονα, μνήμη υψηλού εύρους ζώνης Η χωρητικότητα και το εύρος ζώνης διπλασιάζονται και το εύρος ζώνης διασύνδεσης μεταξύ τσιπ διπλασιάζεται για να καλύψει τις ανάγκες πιο προηγμένων συστημάτων τεχνητής νοημοσύνης.
Αξίζει να αναφέρουμε ότι το Trillium μπορεί να κλιμακωθεί σε έως και 256 TPU σε ένα μόνο Pod υψηλού εύρους ζώνης και χαμηλής καθυστέρησης. Αξιοποιώντας τις προόδους της Google στην επεκτασιμότητα σε επίπεδο pod, στην τεχνολογία πολλαπλών τμημάτων και στις έξυπνες μονάδες επεξεργασίας Titanium, οι χρήστες θα μπορούν να συνδέσουν εκατοντάδες μεμονωμένα δοχεία Trillium TPU για να δημιουργήσουν δίκτυα υπερυπολογιστών και κέντρων δεδομένων κλίμακας petabyte.
Συνολικά, το πλεονέκτημα της λύσης τεχνολογίας TPU έγκειται στον πιο κεντρικό σχεδιασμό της αρχιτεκτονικής. Σε αντίθεση με πολλές GPU που είναι συνδεδεμένες στην ίδια πλακέτα, οι TPU είναι οργανωμένες σε μορφή κύβου, επιτρέποντας ταχύτερη επικοινωνία μεταξύ τσιπ και η σε βάθος συνεργασία με την Broadcom έχει βελτιώσει σημαντικά τον ρυθμό μετάδοσης της επικοινωνίας. Επιπλέον, σύμφωνα με ειδικά σενάρια και απαιτήσεις περιπτώσεων χρήσης, μπορεί να προωθήσει πιο γρήγορα τη βελτιστοποίηση και την επανάληψη του προϊόντος. Ωστόσο, δεδομένου ότι η υποδομή TPU είναι χτισμένη κυρίως γύρω από το TensorFlow και το JAX, και η βιομηχανία είναι πιο mainstream στη χρήση του μοντέλου HuggingFace και του PyTorch για καινοτομία, η Google αντιμετωπίζει επίσης το πρόβλημα του "τεχνικού νησιού" σε κάποιο βαθμό.
Υιοθετήθηκε από την Apple και μεγάλο αριθμό startups AI
Όσον αφορά τις εφαρμογές, το έργο Google TPU δημιουργήθηκε αρχικά για συγκεκριμένες εσωτερικές ανάγκες και γρήγορα χρησιμοποιήθηκε ευρέως σε διάφορα τμήματα και έγινε ένα από τα πιο ώριμα και προηγμένα προσαρμοσμένα τσιπ στον τομέα της τεχνητής νοημοσύνης. Σύμφωνα με τον Andy Swing, επικεφαλής μηχανικό του συστήματος μηχανικής εκμάθησης της Google, αρχικά περίμεναν να κατασκευάσουν λιγότερες από 10.000 TPU v1, αλλά τελικά παρήγαγαν περισσότερες από 100.000, με εφαρμογές που καλύπτουν τη διαφήμιση, την αναζήτηση, τη φωνή, το AlphaGo, ακόμη και την αυτόνομη οδήγηση και πολλές άλλα πεδία.
Καθώς η απόδοση και η αποτελεσματικότητα συνεχίζουν να βελτιώνονται, τα τσιπ TPU έχουν γίνει σταδιακά η υποδομή τεχνητής νοημοσύνης της Google και η ραχοκοκαλιά AI σχεδόν όλων των προϊόντων. Για παράδειγμα, η Google Cloud Platform χρησιμοποιεί εκτενώς τσιπ TPU για την υποστήριξη της υποδομής τεχνητής νοημοσύνης. Μέσω της πλατφόρμας Google Cloud, οι χρήστες μπορούν να έχουν πρόσβαση σε παρουσίες εικονικής μηχανής (VM) που βασίζονται σε τσιπ TPU για εκπαίδευση και ανάπτυξη των δικών τους μοντέλων μηχανικής εκμάθησης.
Αν και έχει αποκτήσει μια καλή βάση χρηστών για υπηρεσίες cloud, η Google δεν πουλά υλικό απευθείας στους χρήστες. Οι αναλυτές του κλάδου επισημαίνουν ότι η Google ανταγωνίζεται σκληρά με το OpenAI για τη δημιουργία τεχνητής νοημοσύνης, εάν πουλήσει TPU, μπορεί να μην είναι η πιο σοφή στρατηγική για τη Nvidia. Ταυτόχρονα, η πώληση υλικού περιλαμβάνει άμεσα υψηλά έξοδα και πολύπλοκη διαχείριση της εφοδιαστικής αλυσίδας, ενώ η παροχή TPU μέσω υπηρεσιών cloud μπορεί να απλοποιήσει τη διαδικασία εγκατάστασης, ανάπτυξης και διαχείρισης, μειώνοντας την αβεβαιότητα και τα πρόσθετα έξοδα.
Από την άλλη πλευρά, πρέπει επίσης να εξεταστεί η στενή συνεργασία μεταξύ Google Cloud και Nvidia. Η Google όχι μόνο χρησιμοποιεί εσωτερικά GPU NVIDIA, αλλά παρέχει επίσης υπηρεσίες βασισμένες σε NVIDIA GPU στην πλατφόρμα υπηρεσιών cloud της για να καλύψει τις ανάγκες των πελατών για εφαρμογές υπολογιστών υψηλής απόδοσης και τεχνητής νοημοσύνης.
Είναι αλήθεια ότι τα τσιπ τεχνητής νοημοσύνης της Nvidia έχουν γίνει "απαραίτητα ανταγωνιστικά" για τους τεχνολογικούς γίγαντες, αλλά η βιομηχανία διερευνά επίσης πιο διαφοροποιημένες επιλογές. Ενώ έχει χρησιμοποιηθεί ευρέως εσωτερικά, η Google προσπαθεί επίσης να χρησιμοποιήσει το TPU για να συμβαδίσει με την καινοτομία τεχνητής νοημοσύνης για να παρέχει υπηρεσίες τεχνητής νοημοσύνης σε περισσότερους πελάτες. Ο Andy Swing είπε: «Η εγκατάσταση του TPU και του pod βρίσκεται σε μια τοποθεσία που ταιριάζει καλύτερα με τις τρέχουσες δυνατότητες του κέντρου δεδομένων, αλλά αλλάζουμε τον σχεδιασμό του κέντρου δεδομένων για να ανταποκριθούμε καλύτερα στις ανάγκες, επομένως, η λύση που ετοιμάζεται σήμερα θα είναι πολύ διαφορετική από τη λύση Αύριο, διαφορετικά, χτίζουμε ένα παγκόσμιο δίκτυο κέντρων δεδομένων γεμάτο TPU.
Επί του παρόντος, πολλές εταιρείες τεχνολογίας σε όλο τον κόσμο χρησιμοποιούν τα τσιπ TPU της Google. Για παράδειγμα, η Apple παραδέχτηκε ότι χρησιμοποιεί το Google TPU για να εκπαιδεύσει το μοντέλο τεχνητής νοημοσύνης της, λέγοντας ότι «αυτό το σύστημα μας επιτρέπει να εκπαιδεύουμε αποτελεσματικά και κλιμακωτά μοντέλα AFM, συμπεριλαμβανομένων συσκευών AFM, διακομιστών AFM και μεγαλύτερων μοντέλων εκπαίδευσε τον διακομιστή AFM από την αρχή σε 8192 τσιπ TPUv4, χρησιμοποιώντας μήκος ακολουθίας 4096 και μέγεθος παρτίδας 4096 ακολουθιών για τη διεξαγωγή εκπαίδευσης 6,3 τρισεκατομμυρίων συμβολικών. Επιπλέον, το AFM από την πλευρά της συσκευής εκπαιδεύεται σε τσιπ 2048 Google TPUv5p.
Άλλα δεδομένα δείχνουν ότι περισσότερο από το 60% των νεοφυών επιχειρήσεων τεχνητής νοημοσύνης που έχουν λάβει χρηματοδότηση και σχεδόν το 90% των μονόκερων με τεχνητή νοημοσύνη που δημιουργούνται χρησιμοποιούν την υποδομή AI του Google Cloud και τις υπηρεσίες Cloud TPU και χρησιμοποιούνται ευρέως σε διάφορους κοινωνικοοικονομικούς τομείς.
Για παράδειγμα, γνωστές startups τεχνητής νοημοσύνης όπως οι Anthropic, Midjourney, Salesforce, Hugging Face και AssemblyAI χρησιμοποιούν εκτενώς το Cloud TPU. Μεταξύ αυτών, ως «αντίπαλος OpenAI», η Anthropic χρησιμοποιεί το τσιπ Google Cloud TPU v5e για να παρέχει υποστήριξη υλικού για το μοντέλο της μεγάλης γλώσσας Claude για να επιταχύνει τη διαδικασία εκπαίδευσης και συμπερασμάτων μοντέλων. Επιπλέον, πολλά επιστημονικά ερευνητικά και εκπαιδευτικά ιδρύματα χρησιμοποιούν επίσης τσιπ TPU της Google για να υποστηρίξουν τα ερευνητικά τους έργα που σχετίζονται με την τεχνητή νοημοσύνη. Αυτά τα ιδρύματα μπορούν να χρησιμοποιήσουν την υπολογιστική ισχύ υψηλής απόδοσης των τσιπ TPU για να επιταχύνουν τις πειραματικές διαδικασίες, προωθώντας έτσι την επιστημονική έρευνα αιχμής και την πρόοδο της εκπαίδευσης.
Αξίζει να σημειωθεί ότι σύμφωνα με τις επίσημες πληροφορίες της Google, το κόστος λειτουργίας της τελευταίας TPU της είναι λιγότερο από 2 $ ανά ώρα, αλλά οι πελάτες πρέπει να το κάνουν κράτηση τρία χρόνια νωρίτερα για να διασφαλίσουν τη χρήση. Αυτό μπορεί να φέρει σημαντικές προκλήσεις σε μεγάλες εταιρείες μοντέλου σε έναν ταχέως μεταβαλλόμενο κλάδο.
Σε κάθε περίπτωση, η δεκαετής διαδρομή της TPU απέδειξε με επιτυχία ότι εκτός από την CPU και την GPU, η βιομηχανία έχει μια νέα διαδρομή στην αναζήτηση της υπολογιστικής ισχύος που απαιτείται για την τεχνητή νοημοσύνη. Έχει επίσης γίνει ο πυρήνας των λειτουργιών AI σε όλα σχεδόν τα προϊόντα της Google υποστηρίζει την προηγμένη ταχεία ανάπτυξη βασικών μοντέλων του Google DeepMind, ακόμη και ολόκληρης της μεγάλης βιομηχανίας μοντέλων. Στο μέλλον, καθώς η τεχνολογία AI συνεχίζει να αναπτύσσεται και η αγορά συνεχίζει να επεκτείνεται, περισσότερες εταιρείες ενδέχεται να επιλέξουν να χρησιμοποιήσουν τσιπ TPU της Google για να καλύψουν τις ανάγκες τους σε υπολογιστές AI. Ωστόσο, το υλικό τεχνητής νοημοσύνης μπορεί επίσης να γίνει πιο εξειδικευμένο, γεγονός που θα κάνει το υλικό και τα μοντέλα πιο στενά ενοποιημένα, καθιστώντας δύσκολη την αναζήτηση νέων δυνατοτήτων καινοτομίας εκτός πλαισίου.