Битва ИИ за гегемонию начинается! OpenAI срочно строит 100 000 суперкомпьютеров GB200, 100 000 H100 Маска начнут обучение в конце месяца

2024-07-16

Новый отчет мудрости

Монтажер: Таози

[Введение в новую мудрость] Маск официально объявил, что крупнейший в мире суперкомпьютерный кластер, созданный xAI, состоит из 100 000 H100 и, как ожидается, начнет обучение в конце этого месяца. С другой стороны, OpenAI снова увеличивает свои инвестиции и построит суперкомпьютер на 100 000 ГБ200, чтобы полностью сокрушить xAI.

Чтобы достичь AGI, компании по всему миру готовятся сжечь все графические процессоры!

В эксклюзивной информации сообщалось, что следующий суперкомпьютерный кластер OpenAI будет состоять из 100 000 блоков GB200.

При этом используется самый мощный на сегодняшний день чип AI от Nvidia.

С другой стороны, xAI также строит так называемый «крупнейший в мире суперкомпьютерный кластер», состоящий из 100 тыс. H100, и в конце этого месяца он будет запущен в обучение.

В последнем посте Маск сразу же отреагировал на сообщения о том, что xAI и Oracle прекратили переговоры по сделке по серверам.

Он сказал, что xAI приобрела у Oracle 24 000 H100 и обучила Grok 2 работе с этими чипами.

Grok 2 в настоящее время находится на стадии доработки и исправления ошибок и, как ожидается, будет готов к выпуску в следующем месяце. В то же время xAI также самостоятельно создает кластер из 100 000 H100. Цель состоит в том, чтобы добиться максимально быстрого завершения обучения, и планирует начать обучение моделей позднее в этом месяце. Это станет сильнейшим тренировочным кластером в мире, и его преимущества очевидны. Причина, по которой мы решили самостоятельно создать 100 000 систем на базе чипов H100, а также основные системы следующего поколения, заключается в том, что наша основная конкурентоспособность зависит от того, будем ли мы быстрее, чем другие компании, занимающиеся искусственным интеллектом. Это единственный способ догнать конкурентов. Oracle — отличная компания, и есть еще одна компания (с намеком на Microsoft), которая также демонстрирует большой потенциал участия в кластерном проекте OpenAI GB200. Но когда наша судьба зависит от того, будем ли мы самой быстрой компанией, мы должны взять на себя ответственность, а не просто быть сторонним наблюдателем.

Короче говоря, в эту постоянно меняющуюся эпоху, если вы хотите превзойти своих конкурентов, вы должны обеспечить абсолютное преимущество в скорости.

xAI Oracle разваливается, десятки миллиардов долларов потрачены впустую

В мае этого года Information сообщила, что xAI обсуждает многолетнее соглашение об аренде чипов Nvidia AI у Oracle.

Ожидалось, что сумма сделки составит до 10 миллиардов долларов США, но она зашла в тупик из-за некоторых проблем.

Среди них Маск требует, чтобы скорость создания суперкомпьютеров полностью превосходила воображение Oracle. Oracle также обеспокоена тем, что в предпочитаемом месте xAI не будет достаточно мощности.

Чтобы изменить эту ситуацию, мы можем рассчитывать только на собственные силы.

Теперь xAI строит собственный центр обработки данных искусственного интеллекта в Мемфисе, штат Теннесси, который использует чипы Nvidia, поставляемые Dell и Supermicro.

По словам людей, участвовавших в переговорах, Oracle не участвует в проекте.

Фактически, до этого xAI арендовала у Oracle множество чипов Nvidia и стала одним из крупнейших клиентов этого поставщика графических процессоров для облачных вычислений.

На данный момент сделка будет заключена, несмотря на провал более широких переговоров.

Из последнего ответа Маска видно, что количество чипов Oracle увеличилось с 16 000 в мае до 24 000.

100 000 шт. соединений серии H100

Тем не менее, Маск все еще надеется построить суперкомпьютер, оснащенный 100 000 графическими процессорами Nvidia, называя его «Гигафабрикой вычислений».

Он сказал, что xAI нужно больше чипов для обучения модели ИИ следующего поколения — Grok 3.0.

В мае Лао Ма сообщил инвесторам, что он надеется ввести в эксплуатацию суперкомпьютер к осени 2025 года и что он будет нести личную ответственность за своевременную поставку суперкомпьютера, поскольку это имеет решающее значение для развития LLM.

Он много раз публично заявлял, что учебный кластер с жидкостным охлаждением, состоящий из 100 000 H100, будет введен в эксплуатацию через несколько месяцев.

Причина, по которой итерация модели Grok важна, заключается в том, что она является частью пакета подписки X Social App, стоимость которого начинается от 8 долларов в месяц и включает в себя множество функций.

Буквально на прошлой неделе xAI также опубликовала фотографию Маска и других сотрудников дата-центра. На заднем плане за фотографией — серверы.

Хотя место в посте не указано. Но в июне президент Палаты Большого Мемфиса заявил, что xAI строит суперкомпьютер на заводе Electrolux в Мемфисе.

Коммунальный план нового объекта xAI в Мемфисе, штат Теннесси

Генеральный директор Dell Микаэль Делл заявил, что Dell помогает xAI построить центр обработки данных.

Кроме того, генеральный директор Supermicro Чарльз Лян также опубликовал фотографию себя и Маска в дата-центре, что также подтвердило партнерство компании с xAI.

Стоит отметить, что в прошлом месяце Маск объявил, что xAI завершила ошеломляющую сумму финансирования серии B в размере $6 млрд, при этом оценка компании достигла $24 млрд.

В число инвесторов серии B входят 8 инвесторов, в том числе Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital и Fidelity Management & Research.

Он лично сообщил, что в последнем раунде финансирования большая часть средств будет инвестирована в строительство вычислительных мощностей.

Очевидно, что суперкомпьютерный проект, созданный xAI, является частью ее усилий по догону OpenAI.

Суперкомпьютер мощностью 100 000 GB200, арендованный за 5 миллиардов долларов США на два года.

На самом деле, с другой стороны, OpenAI также безостановочно ускоряет темпы исследований и разработок, не смея замедляться.

Два человека, знакомые с этим вопросом, сообщили, что сделка Oracle с Microsoft включает в себя кластер из 100 000 будущих чипов GB200 от Nvidia.

Когда этот суперкомпьютер будет построен, 100 000 H100 Маска станут ничем.

Некоторые пользователи сети воскликнули, что количество чипов NVIDIA GB200 в кластере примерно эквивалентно количеству транзисторов в процессоре Intel 80286. Я удивлен, увидев эту сцену на своем веку.

Кто-то другой проанализировал это и сказал: «Эффективность обучения GB200 будет в 4 раза выше, чем у H100».

GPT-4 был обучен с использованием 25 000 A100 (предшественника H100) за 90 дней. Таким образом, теоретически вы можете тренировать GPT-4 менее чем за 2 дня со 100 000 ГБ200, хотя это в идеальных условиях и может быть не совсем реалистично. Но это заставляет людей представить, какие модели ИИ они смогут обучить за 90 дней с помощью этого суперкомпьютерного кластера, который, как ожидается, будет введен в эксплуатацию во втором квартале 2025 года.

На конференции GTC 2024 Лао Хуан однажды представил, что H100 в 4 раза быстрее, чем A100, а B200 — в 3 раза быстрее, чем H100.

По словам людей, знакомых с ценами на облачные графические процессоры, если две компании подпишут многолетнее соглашение, стоимость аренды такого кластера может составить около 5 миллиардов долларов в течение двух лет.

Ожидается, что этот кластер будет готов во втором квартале 2025 года.

Oracle приобретет чипы у Nvidia и сдаст их в аренду Microsoft, которая затем предоставит их OpenAI. В конце концов, это стало последовательной практикой взаимной выгоды между Microsoft и OpenAI.

Microsoft вкладывает деньги в OpenAI и взамен получает доступ к новым моделям OpenAI.

По словам людей, участвовавших в планировании, Oracle планирует разместить чипы в центре обработки данных в Абилине, штат Техас.

Сделка также показывает, что сама Microsoft не может получить достаточно чипов Nvidia.

Более того, поставщики облачных вычислений нечасто арендуют серверы друг у друга, но высокий спрос на чипы Nvidia привел к этой необычной сделке.

В прошлом году Microsoft заключила аналогичное соглашение об аренде серверов с CoreWeave для увеличения мощности серверов Nvidia.

Использованная литература:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

Новости

Битва ИИ за гегемонию начинается! OpenAI срочно строит 100 000 суперкомпьютеров GB200, 100 000 H100 Маска начнут обучение в конце месяца

Введение

моя контактная информация