новости

Десять лет заточки меча: почему чип TPU от Google может «съесть» Apple?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Еще до появления ChatGPT Google в одиночку положил начало важной волне в развитии искусственного интеллекта в мире. Во всем мире прогремела победа Google AlphaGo над корейским игроком в го Ли Седолем в «войне человека и машины». в 2016 году. При этом решающее значение имеет чип TPU, который поддерживает работу «самого мощного мозга» AlphaGo, и он все еще постоянно совершенствуется.

Хотя TPU изначально создавался для внутренних рабочих нагрузок, благодаря своим многочисленным преимуществам он не только широко использовался в Google и стал основой искусственного интеллекта, но также был одобрен и конкурентоспособен технологическими гигантами, такими как Apple, и многими крупными моделями. стартапы. Оглядываясь назад, можно сказать, что чипы ТПУ постепенно переместились с окраины индустрии искусственного интеллекта в центр сцены через десять лет после их появления. Однако, поскольку инфраструктура TPU в основном построена на основе TensorFlow и JAX, Google также в определенной степени сталкивается с такими проблемами, как «технические острова».



Десять лет «идти в ногу» с инновациями в области искусственного интеллекта

Благодаря углубленному развитию машинного обучения и алгоритмов глубокого обучения спрос отрасли на высокопроизводительные и маломощные специализированные вычислительные чипы для искусственного интеллекта быстро растет. Однако традиционные процессоры и графические процессоры общего назначения, специализирующиеся на сложных задачах, таких как ускорение графики и рендеринг видео, не могут удовлетворить огромные требования рабочих нагрузок глубокого обучения. В то же время существуют такие проблемы, как низкая эффективность и ограниченность выделенных вычислений.

Джефф Дин, главный научный сотрудник Google, сказал: «Мы провели приблизительные расчеты того, какая вычислительная мощность потребуется, если сотни миллионов людей будут общаться с Google по три минуты каждый день. В то время мы быстро поняли, что для этого потребуется Другими словами, количество компьютеров в центрах обработки данных Google необходимо будет удвоить, чтобы поддерживать эти новые возможности».

В результате Google взяла на себя обязательство изучить более экономичные и энергосберегающие решения машинного обучения и немедленно запустила проект TPU, а в 2015 году объявила, что чип TPU первого поколения (TPU v1) доступен внутри компании. TPU — это специализированная интегральная схема (ASIC), разработанная для одной конкретной цели, включая выполнение уникальных матричных и векторных математических операций, необходимых для построения моделей искусственного интеллекта. В отличие от матричных операций графического процессора, отличительной особенностью PU является его блок матричного умножения (MXU).

По словам вице-президента Google и академика инженерных наук Норма Джуппи, появление ТПУ позволило Google спасти 15 дата-центров. Что касается важной причины, по которой TPU более рентабелен, это то, что стек программного обеспечения Google более вертикально интегрирован, чем GPU. У Google есть специальная команда инженеров, создающая весь стек программного обеспечения: от реализации моделей (Vertex Model Garden) до сред глубокого обучения (Keras, JAX и TensorFlow) и компиляторов, оптимизированных для TPU (XLA).

Что касается производительности, TPU v1 имеет 65536 8-битных MAC (блок умножения матриц), пиковую производительность 92 TOPS и 28 МБ встроенной памяти. По сравнению с CPU и GPU, TPU v1 показывает хорошие результаты по времени отклика и энергоэффективности, а также может значительно улучшить скорость вывода нейронных сетей. Успех TPU v1 заставил Google осознать, что чипы машинного обучения имеют широкие перспективы развития, поэтому компания продолжает итеративно обновлять и выпускать продукты с более высокой производительностью и более высокой эффективностью на основе TPU v1.

Например, TPU v2 и TPU v3 разработаны как микросхемы вывода и обучения ИИ на стороне сервера для поддержки более сложных задач ИИ. TPU v4 еще больше повышает масштабируемость и гибкость и поддерживает создание крупномасштабных вычислительных кластеров искусственного интеллекта. Среди них TPU v2 впервые расширяет однокристальную конструкцию до более крупной суперкомпьютерной системы, создавая блок TPU, состоящий из 256 чипов TPU. Кроме того, в TPU v3 добавлена ​​технология жидкостного охлаждения, а в TPU v4 представлены переключатели оптических схем для дальнейшего повышения производительности и эффективности.

В 2023 году, ввиду «преувеличенных» сомнений и противоречий, с которыми столкнулся чип TPU v5, Google сразу перешел к версии TPU v5e. В архитектуре TPU v5e доработана единая архитектура TensorCore. Пиковая вычислительная мощность INT8 достигает 393 терафлопс, что превышает 275 терафлопс у v4. Однако пиковая вычислительная мощность BF16 составляет всего 197 терафлопс, что ниже, чем у TPU v5e. уровень предыдущего поколения v4. Это показывает, что TPU v5e больше подходит для задач рассуждения, а также может отражать стратегический выбор Google на рынке услуг вычислительной мощности AI.

На конференции разработчиков ввода-вывода в мае этого года Google представила TPU Trillium шестого поколения. Амин Вадхат, вице-президент и генеральный менеджер Google Cloud Machine Learning, Systems и Cloud AI, заявил, что пиковая вычислительная производительность Trillium TPU более чем в 4,7 раза выше, чем у TPU v5e предыдущего поколения, а энергоэффективность составляет более 67%. выше, чем у TPU v5e. В то же время память с высокой пропускной способностью. Емкость и пропускная способность удваиваются, а пропускная способность межчипового соединения также удваивается, чтобы удовлетворить потребности более продвинутых систем искусственного интеллекта.



Стоит отметить, что Trillium может масштабироваться до 256 TPU в одном модуле с высокой пропускной способностью и низкой задержкой. Используя достижения Google в области масштабируемости на уровне модулей, технологии мультисрезов и интеллектуальных процессоров Titanium, пользователи смогут связывать сотни отдельных модулей Trillium TPU для создания сетей суперкомпьютеров и центров обработки данных петабайтного масштаба.

В целом, преимущество технологического решения TPU заключается в его более централизованной архитектуре. В отличие от нескольких графических процессоров, подключенных к одной плате, TPU организованы в форме куба, что обеспечивает более быструю связь между чипами, а углубленное сотрудничество с Broadcom значительно улучшило скорость передачи данных. Кроме того, в соответствии с конкретными сценариями и требованиями вариантов использования он может быстрее способствовать оптимизации и итерации продукта. Однако, поскольку инфраструктура TPU в основном построена на основе TensorFlow и JAX, а в отрасли более широко используется модель HuggingFace и PyTorch для инноваций, Google также в некоторой степени сталкивается с проблемой «технического острова».

Принят Apple и большим количеством стартапов в области искусственного интеллекта.

Что касается приложений, то проект Google TPU изначально создавался для конкретных внутренних нужд и быстро стал широко использоваться в различных ведомствах, став одним из самых зрелых и продвинутых пользовательских чипов в области искусственного интеллекта. По словам Энди Свинга, главного инженера аппаратной системы машинного обучения Google, первоначально они планировали произвести менее 10 000 TPU v1, но в конечном итоге произвели более 100 000 с приложениями, охватывающими рекламу, поиск, голосовую связь, AlphaGo и даже автономное вождение и многие другие. другие поля.

Поскольку производительность и эффективность продолжают улучшаться, чипы TPU постепенно стали инфраструктурой искусственного интеллекта Google и основой искусственного интеллекта почти всех продуктов. Например, Google Cloud Platform широко использует чипы TPU для поддержки своей инфраструктуры искусственного интеллекта. Эти чипы используются для ускорения процесса обучения и вывода моделей машинного обучения и обеспечения высокопроизводительных и эффективных вычислительных возможностей. Через Google Cloud Platform пользователи могут получить доступ к экземплярам виртуальных машин (ВМ) на базе чипов TPU для обучения и развертывания собственных моделей машинного обучения.

Несмотря на то, что Google накопил хорошую базу пользователей облачных сервисов, он не продает оборудование напрямую пользователям. Отраслевые аналитики отмечают, что Google жестко конкурирует с OpenAI за генеративный искусственный интеллект. Если она продаст TPU, она бросит прямой вызов Nvidia. «Борьба с обоих концов», возможно, не самая разумная стратегия на данный момент. В то же время продажа оборудования напрямую предполагает высокие накладные расходы и сложное управление цепочкой поставок, тогда как предоставление TPU через облачные сервисы может упростить процесс установки, развертывания и управления, снижая неопределенность и дополнительные накладные расходы.

С другой стороны, также необходимо учитывать тесное сотрудничество между Google Cloud и Nvidia. Google не только использует графические процессоры NVIDIA внутри компании, но также предоставляет услуги на базе графических процессоров NVIDIA на своей платформе облачных сервисов для удовлетворения потребностей клиентов в высокопроизводительных вычислениях и приложениях искусственного интеллекта.

Это правда, что ИИ-чипы Nvidia стали «обязательным конкурентом» для технологических гигантов, но отрасль также изучает более разнообразные варианты. Несмотря на то, что он широко используется внутри компании, Google также пытается использовать TPU, чтобы идти в ногу с инновациями в области искусственного интеллекта и предоставлять услуги ИИ большему количеству клиентов. Энди Свинг сказал: «Наш TPU и модуль расположены в месте, которое лучше всего соответствует текущим возможностям центра обработки данных, но мы меняем конструкцию центра обработки данных, чтобы лучше соответствовать потребностям. Поэтому решение, подготовленное сегодня, будет сильно отличаться от решения. Завтра мы строим глобальную сеть центров обработки данных, полную TPU».



В настоящее время многие технологические компании по всему миру используют чипы TPU Google. Например, Apple признала, что использует Google TPU для обучения своей модели искусственного интеллекта, заявив, что «эта система позволяет нам эффективно и масштабируемо обучать модели AFM, включая устройства AFM, серверы AFM и более крупные модели». обучил сервер AFM с нуля на 8192 чипах TPUv4, используя длину последовательности 4096 и размер пакета 4096 последовательностей для проведения обучения 6,3 триллиона токенов. Кроме того, AFM на стороне устройства обучен на 2048 чипах Google TPUv5p.

Другие данные показывают, что более 60% стартапов генеративного ИИ, получивших финансирование, и почти 90% единорогов генеративного ИИ используют инфраструктуру ИИ Google Cloud и сервисы Cloud TPU и широко используются в различных социально-экономических областях.

Например, такие известные стартапы в области искусственного интеллекта, как Anthropic, Midjourney, Salesforce, Hugging Face и AssemblyAI, широко используют Cloud TPU. Среди них, как «конкурент OpenAI», Anthropic использует чип Google Cloud TPU v5e для обеспечения аппаратной поддержки своей большой языковой модели Claude для ускорения процесса обучения модели и вывода. Кроме того, многие научно-исследовательские и образовательные учреждения также используют чипы Google TPU для поддержки своих исследовательских проектов, связанных с искусственным интеллектом. Эти учреждения могут использовать высокопроизводительную вычислительную мощность чипов ТПУ для ускорения экспериментальных процессов, тем самым способствуя передовым научным исследованиям и прогрессу в образовании.

Стоит отметить, что, по официальной информации Google, стоимость эксплуатации ее новейшего TPU составляет менее 2 долларов в час, но клиентам необходимо зарезервировать его за три года, чтобы гарантировать использование. Это может создать серьезные проблемы для крупных модельных компаний в быстро меняющейся отрасли.

В любом случае, десятилетний опыт TPU успешно доказал, что помимо процессоров и графических процессоров у отрасли есть новый путь в поиске вычислительной мощности, необходимой для искусственного интеллекта. Он также стал основой функций искусственного интеллекта почти во всех продуктах Google. поддерживает передовые технологии Google DeepMind. Быстрое развитие базовых моделей и даже всей крупной модельной индустрии. В будущем, поскольку технология искусственного интеллекта продолжает развиваться, а рынок продолжает расширяться, все больше компаний могут использовать чипы Google TPU для удовлетворения своих вычислительных потребностей в области искусственного интеллекта. Но аппаратное обеспечение ИИ также может стать более специализированным, что приведет к более тесной интеграции оборудования и моделей, что затруднит поиск новых инновационных возможностей за пределами рамок.