Моя контактная информация
Почта[email protected]
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
С тех порЧатGPTПосле бума исследования и разработки больших моделей искусственного интеллекта возникли одна за другой. Пока эта «Битва 100 моделей» была в самом разгаре, американская компания-производитель чипов NVIDIA заработала много денег благодаря выдающейся производительности своего графического процессора в расчетах больших моделей.
Однако недавний шаг Apple несколько охладил энтузиазм Nvidia.
Обучение модели искусственного интеллекта: Apple выбирает TPU вместо GPU
NVIDIA всегда была лидером в области вычислительной инфраструктуры для искусственного интеллекта. На рынке оборудования для искусственного интеллекта, особенно в сфере обучения искусственному интеллекту, ее доля рынка составляет более 80%. NVIDIA GPU всегда была лидером в Amazon, Microsoft. , Мета,OpenAI Это предпочтительное решение вычислительной мощности для многих технологических гигантов в области искусственного интеллекта и машинного обучения.
Таким образом, Nvidia продолжает сталкиваться с разнообразными проблемами в отрасли. Среди ее конкурентов есть много сильных игроков в независимых исследованиях и разработках графических процессоров, а также пионеры в изучении инновационных архитектур. TPU от Google также стал мощным противником, которого Nvidia не может игнорировать в силу своих уникальных преимуществ.
30 июля Apple опубликовала исследовательскую работу. В документе Apple представила две модели, обеспечивающие поддержку Apple Intelligence — AFM-on-device (AFM — это аббревиатура Apple Basic Model) и AFM-server (большая серверная языковая модель). летняя языковая модель со 100 миллионами параметров, последняя представляет собой серверную языковую модель.
В документе Apple заявила, что для обучения своей модели искусственного интеллекта она использовала два типа тензорных процессоров (TPU) от Google, и эти блоки были организованы в большие кластеры микросхем. Для создания AFM-on-device — модели искусственного интеллекта, которая может работать на iPhone и других устройствах, Apple использует 2048 чипов TPUv5p. Для своей серверной модели AFM-сервера с искусственным интеллектом Apple использовала 8192 процессора TPUv4.
Стратегический выбор Apple отказаться от графических процессоров Nvidia и перейти на TPU Google стал шоковой бомбой для мира технологий. Цена акций Nvidia в тот день упала более чем на 7%, что стало самым большим падением за три месяца, а ее рыночная стоимость испарилась на 193 миллиарда долларов США.
Инсайдеры отрасли заявили, что решение Apple указывает на то, что некоторые крупные технологические компании, возможно, ищут альтернативы графическим процессорам Nvidia, когда дело доходит до обучения искусственному интеллекту.
TPU VS GPU, какой из них больше подходит для больших моделей?
Прежде чем обсуждать, какой тип процессора или графического процессора больше подходит для больших моделей, нам необходимо иметь предварительное представление об этих двух устройствах.
Сравнение TPU и GPU
TPU, полное название Tensor Processing Unit, представляет собой специальный чип, разработанный Google для ускорения рабочих нагрузок машинного обучения. Он в основном используется для обучения и обоснования моделей глубокого обучения. Стоит отметить, что TPU также относится к категории чипов ASIC, а ASIC — это чип, специально настроенный для определенных конкретных нужд.
Все знакомы с графическим процессором — это процессор, изначально предназначенный для рендеринга графики, а затем широко используемый в параллельных вычислениях и глубоком обучении. Он обладает мощными возможностями параллельной обработки, а оптимизированный графический процессор также очень подходит для параллельных задач, таких как глубокое обучение и научные вычисления.
Видно, что эти два разных чипа изначально преследовали разные цели.
По сравнению с традиционными процессорами, возможности параллельных вычислений графических процессоров делают их особенно подходящими для обработки крупномасштабных наборов данных и сложных вычислительных задач. Поэтому, с бурным ростом количества крупных моделей искусственного интеллекта в последние годы, графические процессоры когда-то стали первым выбором вычислительного оборудования. Обучение ИИ.
Однако с постоянным развитием крупных моделей ИИ вычислительные задачи становятся экспоненциально большими и сложными, что выдвигает новые требования к вычислительной мощности и вычислительным ресурсам. Когда для вычислений ИИ используется графический процессор, коэффициент использования вычислительной мощности низкий. Высокая энергоэффективность, а также высокая цена и ограниченное предложение графических процессоров NVIDIA привлекли больше внимания к архитектуре TPU, которая изначально была разработана для глубокого и машинного обучения. Доминирование GPU в этой области начинает сталкиваться с проблемами.
Сообщается, что Google начала внутреннюю разработку чипов, предназначенных для алгоритмов машинного обучения искусственного интеллекта, еще в 2013 году, и только в 2016 году этот чип собственной разработки под названием TPU был официально обнародован. Победил Ли Седоля в марте 2016 года и Ке Цзе в мае 2017 года. AlphaGo, который обучается с использованием чипов Google серии TPU.
Если говорят, что ТПУ больше подходит для обучения крупных моделей ИИ, возможно, будет сложно убедить всех, не объяснив его «навыки» подробно.
Насколько ТПУ подходит для обучения крупных моделей?
Во-первых, ТПУ имеет многомерные вычислительные блоки для повышения эффективности вычислений.По сравнению со скалярным вычислительным блоком в ЦП и векторным вычислительным блоком в графическом процессоре, TPU использует двумерные или даже многомерные вычислительные блоки для выполнения вычислительных задач и расширяет цикл операции свертки для достижения максимального повторного использования данных и сокращения объема данных. затраты на передачу и повысить эффективность ускорения.
Во-вторых, ТПУ имеет более экономящую время передачу данных и высокоэффективный блок управления.Проблема со стенками памяти, вызванная архитектурой фон Неймана, особенно заметна в задачах глубокого обучения, и TPU использует более радикальную стратегию для разработки передачи данных, а блок управления меньше, оставляя больше места для встроенной памяти и вычислительных блоков.
Наконец, TPU предназначен для ускорения искусственного интеллекта и расширения вычислительных возможностей AI/ML.Благодаря точному позиционированию, простой архитектуре, однопоточному управлению и настраиваемому набору команд архитектура TPU чрезвычайно эффективна в операциях глубокого обучения и легко расширяется, что делает ее более подходящей для сверхкрупномасштабных вычислений обучения ИИ.
Сообщается, что Google TPUv4 имеет в 1,3-1,9 раза меньшее энергопотребление, чем NVIDIA A100. В различных рабочих моделях, таких как Bert и ResNet, эффективность в 1,2-1,9 раза выше, чем у A100. При этом ее продукты TPUv5/TPU Trillium. может обеспечить более высокое энергопотребление, чем TPUv4, по сравнению с TPUv4. Дальнейшее повышение производительности вычислений в 2 раза/почти в 10 раз. Видно, что продукты Google TPU имеют больше преимуществ по стоимости и энергопотреблению, чем продукты NVIDIA.
На конференции разработчиков I/O 2024 в мае этого года генеральный директор Alphabet Сундар Пичаи анонсировал тензорный процессор (TPU)-Trillium для центров обработки данных шестого поколения, заявив, что этот продукт почти в пять раз быстрее, чем его предшественник, и в компании говорят, что поставки начнутся позднее в этом году.
В Google заявили, что вычислительная производительность чипа Trillium шестого поколения в 4,7 раза выше, чем у чипа TPU v5e, а энергоэффективность на 67% выше, чем у v5e. Чип предназначен для поддержки технологии, которая генерирует текст и другой контент из больших моделей. Google также заявила, что чипы Trillium шестого поколения будут доступны ее облачным клиентам к концу года.
Инженеры Google добились дополнительного прироста производительности за счет увеличения объема памяти с высокой пропускной способностью и общей пропускной способности. Модели искусственного интеллекта требуют большого объема расширенной памяти, что является узким местом в дальнейшем повышении производительности.
Стоит отметить, что Google не будет продавать собственные чипы TPU отдельно как независимые продукты, а будет предоставлять вычислительные услуги на базе TPU внешним клиентам через Google Cloud Platform (GCP).
В этом плане также можно увидеть сообразительность Google: продажа оборудования напрямую связана с высокими расходами и сложным управлением цепочкой поставок. Предоставляя TPU через облачные сервисы, Google может упростить процесс установки, развертывания и управления, снижая неопределенность и дополнительные накладные расходы. Эта модель также упрощает процесс продаж, устраняя необходимость создания дополнительной группы продаж оборудования. Кроме того, Google находится в жесткой конкуренции с OpenAI за генеративный искусственный интеллект. Если Google начнет продавать TPU, ему придется конкурировать одновременно с двумя сильными противниками: Nvidia и OpenAI, что, возможно, не самая разумная стратегия на данный момент.
В этом месте статьи кто-то может спросить: поскольку TPU обладает такими превосходными преимуществами в производительности, заменит ли он графический процессор в ближайшем будущем?
Сейчас речь идет о замене графического процессора? Может быть, еще слишком рано
Эта проблема не так проста.
Просто говорить о преимуществах ТПУ, не говоря о преимуществах графического процессора, — значит ослеплять глаза. Далее нам также необходимо понять, насколько графический процессор подходит для текущего обучения крупных моделей ИИ по сравнению с TPU.
Мы видим, что преимущества TPU заключаются в его выдающемся коэффициенте энергоэффективности и показателях вычислительной мощности. Однако, как для чипа ASIC, его недостаток, связанный с высокой стоимостью проб и ошибок, также относительно очевиден.
А также с точки зрения зрелости экосистемы. После многих лет разработки у GPU появилась большая и зрелая экосистема программного обеспечения и инструментов разработки. Многие разработчики и исследовательские институты уже давно занимаются разработкой и оптимизацией на базе графических процессоров и накопили множество библиотек, фреймворков и алгоритмов. Экосистема TPU относительно новая, а доступные ресурсы и инструменты могут быть не такими богатыми, как у графических процессоров, что может затруднить адаптацию и оптимизацию для разработчиков.
В плане универсальности. Изначально графические процессоры были разработаны для рендеринга графики, но их архитектура очень гибкая и может адаптироваться ко множеству различных типов вычислительных задач, а не только к глубокому обучению. Это делает графический процессор более адаптируемым при работе с различными сценариями приложений. Напротив, TPU специально разработаны для рабочих нагрузок машинного обучения и могут быть не в состоянии выполнять другие вычислительные задачи, не связанные с машинным обучением, так же эффективно, как графические процессоры.
Наконец, конкуренция на рынке графических процессоров является жесткой. Различные производители продолжают продвигать технологические инновации и обновления продуктов, а новые архитектуры и улучшения производительности появляются все чаще. Разработкой TPU в основном руководит Google, и темпы его обновления и развития могут быть относительно медленными.
В целом, NVIDIA и Google имеют разные стратегии в отношении чипов искусственного интеллекта: NVIDIA расширяет границы производительности моделей искусственного интеллекта, предоставляя мощные вычислительные мощности и обширную поддержку разработчиков, в то время как Google повышает производительность чипов искусственного интеллекта за счет эффективной архитектуры распределенных вычислений. . Эти два разных пути позволяют им демонстрировать уникальные преимущества в соответствующих областях применения.
Причина, по которой Apple выбрала Google TPU, может быть связана со следующими моментами: во-первых, TPU хорошо справляется с крупномасштабными распределенными обучающими задачами, обеспечивая эффективные вычислительные возможности с малой задержкой, во-вторых, используя платформу Google Cloud, Apple может сократить количество аппаратного обеспечения; затраты и быть гибкими. Регулируйте вычислительные ресурсы для оптимизации общих затрат на разработку ИИ. Кроме того, экосистема разработки искусственного интеллекта Google также предоставляет множество инструментов и поддержки, позволяющих Apple более эффективно разрабатывать и развертывать свои модели искусственного интеллекта.
Пример Apple доказывает возможности TPU в обучении больших моделей. Однако по сравнению с NVIDIA, TPU по-прежнему редко используется в области больших моделей. За ним стоят более крупные модельные компании, включая таких гигантов, как OpenAI, Tesla и ByteDance. Основные центры обработки данных AI по-прежнему обычно используют графические процессоры NVIDIA.
Поэтому, возможно, еще слишком рано говорить о том, что TPU Google сможет победить GPU Nvidia, но TPU должен быть очень сложным игроком.
Претендентом на GPU является не только ТПУ
В Китае также есть компания, которая делает ставку на чипы ТПУ — Zhonghao Xinying. Ян Гонъифань, основатель Zhonghao Xinying, когда-то работал в Google в качестве основного сотрудника по исследованиям и разработкам чипов и принимал активное участие в проектировании и разработке Google TPU 2/3/4. По его мнению, TPU является выгодной архитектурой для крупных моделей искусственного интеллекта. .
В 2023 году официально появился чип Snap от Чжунхао Синьин. Благодаря своим уникальным возможностям высокоскоростного межчипового соединения, состоящим из 1024 чипов, чип Snap создал крупномасштабный интеллектуальный вычислительный кластер под названием Taize. Производительность его системного кластера в десятки раз выше, чем у традиционных графических процессоров. это AIGC с более чем 100 миллиардами параметров. Обучение и вывод больших моделей обеспечивают беспрецедентную гарантию вычислительной мощности. Это достижение не только демонстрирует глубокие достижения Чжунхао Синьин в области вычислительных технологий искусственного интеллекта, но и занимает ценное место для отечественных чипов на международной арене.
Тем не менее, в условиях сегодняшней золотой лихорадки искусственного интеллекта, а чип NVIDIA H100 дефицитен и дорог, компании, большие и малые, стремятся заменить продукты NVIDIA на чипах AI, в том числе компании, выбирающие традиционный маршрут графических процессоров, а также изучающие новые архитектуры предприятий.
Проблемы, стоящие перед графическими процессорами, выходят далеко за рамки TPU.
В области исследований и разработок графических процессоров крупнейшим конкурентом Nvidia являетсяАМДВ январе этого года исследователи использовали около 8% графических процессоров суперкомпьютерного кластера Frontier для обучения большой модели на уровне GPT 3.5. Суперкомпьютерный кластер Frontier полностью основан на оборудовании AMD и состоит из 37 888 графических процессоров MI250X и 9 472 процессоров Epyc 7A53. Это исследование также позволило преодолеть трудности расширенных моделей распределенного обучения на оборудовании AMD, предоставив большую базу обучения для платформы AMD. проверил осуществимость.
В то же время экосистема CUDA постепенно разрушается. В июле этого года британская компания Spectral Compute запустила решение, способное компилировать исходный код CUDA для графических процессоров AMD, что значительно повысило эффективность совместимости графических процессоров AMD с CUDA.
ИнтелGaudi 3 также напрямую сравнивал Nvidia H100, когда он был выпущен. В апреле этого года Intel запустила Gaudi 3 для глубокого обучения и крупномасштабных генеративных моделей искусственного интеллекта. Intel заявила, что по сравнению с предыдущим поколением Gaudi 3 может обеспечить в четыре раза большую вычислительную мощность AI в формате с плавающей запятой, а пропускная способность памяти увеличена в 1,5 раза. время и обслуживание. Пропускная способность сети для крупномасштабного расширения системы удваивается. По сравнению с чипом NVIDIA H100, если применить его к модели Meta Llama2 с параметрами 7B и 13B и модели OpenAI GPT-3 с параметрами 175B, ожидается, что Gaudi 3 сократит время обучения этих моделей в среднем на 50%.
Кроме того, при применении к Llama с параметрами 7B и 70B и модели Falcon с открытым исходным кодом с параметрами 180B ожидается, что пропускная способность вывода Gaudi 3 будет в среднем на 50 % выше, чем у H100, а эффективность вывода в среднем на 40 % выше. Более того, Gaudi 3 имеет большее преимущество в производительности вывода при более длинных последовательностях ввода и вывода.
При применении к Llama с параметрами 7B и 70B и модели Falcon с параметрами 180B скорость вывода Gaudi 3 увеличивается на 30% по сравнению с NVIDIA H200.
Intel заявила, что Gaudi 3 будет доступен клиентам в третьем квартале этого года, а OEM-производителям, включая Dell, HPE, Lenovo и Supermicro, во втором квартале, но ценовой диапазон Gaudi 3 не был объявлен.
В прошлом ноябре,МайкрософтНа конференции Ignite Technology Conference компания представила свой первый AI-чип собственной разработки Azure Maia 100, а также Azure Cobalt, чип, используемый в облачных программных сервисах. Оба чипа будут производиться TSMC по 5-нм техпроцессу.
Сообщается, что высококлассные продукты Nvidia иногда могут продаваться по цене от 30 000 до 40 000 долларов США каждый. Считается, что чипы, используемые для ChatGPT, требуют около 10 000, что является огромной стоимостью для компаний, занимающихся искусственным интеллектом. Крупные технологические компании с большим спросом на чипы искусственного интеллекта отчаянно ищут альтернативные источники поставок. Microsoft решила разработать свои собственные продукты в надежде повысить производительность продуктов генеративного искусственного интеллекта, таких как ChatGPT, при одновременном снижении затрат.
Cobalt — это чип общего назначения на базе архитектуры Arm со 128 ядрами. Maia 100 — это чип ASIC, специально разработанный для облачных сервисов Azure и рабочих нагрузок искусственного интеллекта. Он используется для облачного обучения и рассуждений, а количество транзисторов достигает 105 миллиардов. Эти два чипа будут импортированы в центр обработки данных Microsoft Azure и службы поддержки, такие как OpenAI и Copilot.
Рани Боркар, вице-президент, отвечающий за отдел чипов Azure, сообщил, что Microsoft начала тестирование чипа Maia 100 с продуктами Bing и Office AI, главный партнер Microsoft в области искусственного интеллекта, разработчик ChatGPT OpenAI, также проходит тестирование. Некоторые комментарии рынка полагают, что время реализации проекта чипа искусственного интеллекта от Microsoft является случайным, поскольку крупномасштабные языковые модели, культивируемые Microsoft, OpenAI и другими компаниями, начали набирать обороты.
Однако Microsoft не верит, что ее ИИ-чипы смогут широко заменить продукты Nvidia. Некоторые аналитики полагают, что если усилия Microsoft окажутся успешными, это также может помочь ей получить преимущество в будущих переговорах с Nvidia.
Помимо гигантов производства чипов, влияние стартапов также заметно. Например, LPU, запущенный Groq, Wafer Scale Engine 3, запущенный Cerebras, Sohu, запущенный Etched, и т. д.
В настоящее время Nvidia контролирует примерно 80% рынка чипов для центров обработки данных искусственного интеллекта, тогда как большая часть оставшихся 20% контролируется различными версиями Google TPU. Будет ли доля ТПУ на рынке расти в будущем? Насколько он вырастет? Будут ли существовать другие архитектуры ИИ-чипов, которые разделят существующую структуру рынка на три части? Ожидается, что в ближайшие несколько лет эта неопределенность будет постепенно раскрываться.