Новости

Маск построил самый мощный в мире кластер искусственного интеллекта за 19 дней! «Монстр с жидкостным охлаждением» H100 стоимостью 100 000 юаней вот-вот проснется

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость]Официально началось производство H100 с жидкостным охлаждением, состоящего из 100 000 штук, и Маск построил самый мощный в мире учебный кластер искусственного интеллекта за 19 дней.

В 4:20 утра самый большой учебный суперкомпьютерный кластер на другом берегу океана начал реветь.


«420» — также любимый мем Маска, символизирующий свободу, безудержность и антитрадицию.

Маск часто использует цифру 420 в ценах на свою продукцию, времени встреч компании, времени запуска космических кораблей и т. д.

Пользователи сети также пошутили в комментариях, что Маск очень церемонен и не приступает к работе раньше 4:20.


В последнем интервью Маск рассказал больше о прогрессе в области новых суперкомпьютеров и моделей xAI:

- Grok 2 завершил обучение в прошлом месяце, используя примерно 15 тысяч H100.

- Grok 2 будет выпущен в следующем месяце, что эквивалентно GPT-4 - Grok 3 строит 100 000 суперкомпьютеров H100 с жидкостным охлаждением и начинает обучение - Grok 3, как ожидается, будет выпущен в декабре: «Он станет самым мощным в мире к затем «Большой искусственный интеллект»


100 000 штук H100 с жидкостным охлаждением, завершено за 19 дней.

Стоит отметить, что крупнейший в мире суперкомпьютерный кластер насчитывает 100 000 H100 с жидкостным охлаждением.


В чем заключается концепция H100 стоимостью 100 000 юаней?

С точки зрения цены, графический процессор H100 является ключевым компонентом искусственного интеллекта и ходовым товаром в Кремниевой долине. По оценкам, каждая единица стоит от 30 000 до 40 000 долларов США. 100 000 единиц H100 — это порядка 4 миллиардов долларов.

Доктор философии по машинному обучению из одного из пяти лучших университетов США однажды написал, что количество H100 в лаборатории равно 0, а графические процессоры необходимо использовать в спешке.

Ли Фейфэй также сказал в интервью, что команда Стэнфорда по обработке естественного языка имеет всего 64 графических процессора A100.

Первоначальная цена покупки Маска составляла 100 000 юаней, и от этой суммы у пользователей в комментариях потекли слюнки.


Что касается вычислительной мощности, то она примерно в 20 раз превышает мощность 25 000 блоков A100, используемых OpenAI для обучения GPT4.

Что касается энергопотребления, то только для поддержания работы этого суперкомпьютерного центра общая необходимая мощность достигает 70 МВт, что эквивалентно установленной мощности обычной электростанции и может удовлетворить энергетические потребности 200 000 человек.

В мае этого года Маск заявил, что надеется построить «фабрику суперкомпьютеров» к осени 2025 года.

Теперь выяснилось, что для ускорения строительства суперкластера он решил приобрести графический процессор H100 текущего поколения вместо того, чтобы ждать нового поколения H200 или других будущих графических процессоров B100 и B200 на базе Blackwell.

Хотя рынок ожидает, что новый графический процессор Nvidia для центров обработки данных Blackwell появится в продаже до конца 2024 года, у Маска явно нет терпения ждать.

Нынешняя гонка вооружений в области искусственного интеллекта становится все более ожесточенной, и единственное, что имеет значение, — это скорость. Тот, кто сможет запустить продукт быстрее всех, быстро захватит рынок.

Будучи начинающей компанией, xAI должна взять на себя лидерство в битве с другими гигантами.

Ранее Маск и Oracle развалились на десятки миллиардов заказов. Маску не нравилась низкая скорость Oracle, и он считал, что другая сторона не создает вычислительные кластеры с возможной скоростью.


Oracle, с другой стороны, посчитала, что выбранная xAI площадка для размещения суперкомпьютеров не сможет удовлетворить спрос на электроэнергию. Поскольку переговоры о десятках миллиардов заказов провалились, xAI и Oracle прекратили обсуждение возможности расширения существующего сотрудничества.

У xAI не было иного выбора, кроме как построить собственный центр обработки данных искусственного интеллекта в Мемфисе, штат Теннесси. Разрыв сотрудничества с Oracle означал, что xAI пришлось действовать в одиночку и построить независимый центр обработки данных со 100 000 H100, чтобы избавиться от ограничений, присущих технологии искусственного интеллекта. возможности облачных провайдеров, таких как Oracle.

Сам Маск заявил, что у xAI самый сильный в мире кластер по обучению ИИ, который далеко впереди.


Сильнейший в мире Грок-3 приступает к тренировкам и выйдет на свободу до конца года

В последнем интервью Маск раскрыл некоторые подробности создания суперкомпьютера.

По словам Теда Таунсенда, президента Палаты Большого Мемфиса, Маску потребовалось всего около недели, чтобы принять решение о строительстве нового суперкомпьютера xAI в Мемфисе.

По словам Таунсенда, после нескольких дней бурных переговоров в марте Маск и его команда выбрали город в Теннесси из-за его богатой мощи и способности быстро строиться.

Более того, на строительство суперкомпьютерного центра ушло всего 19 дней. Маск также похвалил отличную работу команды в твиттере.


Supermicro также обеспечивает большую часть аппаратной поддержки xAI, а ее генеральный директор Чарльз Лян также прокомментировал твит Маска, высоко оценив исполнительские возможности команды.


Целью такого большого тренировочного кластера является обучение Грока 3.

В начале этого месяца Маск объявил о запуске Grok 2 в конце августа. Хотя Grok-2 еще не выпущен, Маск также раскрыл некоторые подробности Grok-3, чтобы придать импульс самой мощной модели Grok 3. .

В интервью Николаю Тангену, главе Норвежского суверенного фонда, Маск заявил в апреле этого года, что для обучения Grok 2 потребуется около 20 000 H100.

Grok 3 будет выпущен в конце года. Ожидается, что производительность Grok 3 на основе 100 000 тренировок графического процессора будет выше, чем у Grok 2.

Такой огромный суперкомпьютерный центр, естественно, требует поддержки большого количества талантов и технологий. Маск также продолжает набирать людей в Твиттере, чтобы максимально расширить преимущества данных, талантов и вычислительных мощностей.


Использованная литература:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993