Диалог с Сюн Дапэном, председателем Yizhu Technology: Интеграция хранения и вычислений может положить начало второй кривой роста вычислительной мощности в эпоху искусственного интеллекта
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Взрыв искусственного интеллекта (ИИ) привел к огромному спросу на вычислительную мощность. В эпоху после Мура передовые процессы производства чипов приближаются к физическим пределам, и ожидается, что интеграция систем хранения данных и вычислений станет одним из важных технологических направлений. в будущем.
Хранение и вычисления интегрированы, то есть хранение данных и вычисления интегрированы в одной области одного и того же чипа. В каких аспектах отражаются преимущества в производительности и стоимости интегрированных микросхем хранения и вычислительной архитектуры? Каковы текущие проблемы, стоящие перед крупномасштабной коммерциализацией? Станет ли интеграция систем хранения данных и вычислений возможностью для отечественной индустрии микросхем сменить курс и обогнать ее?
China Business News недавно провела беседу с Сюн Дапэном, основателем, председателем и генеральным директором Yizhu Technology, по вышеуказанным темам. По его мнению, интегрированные технологии хранения и вычислений обладают преобразующим потенциалом в будущей вычислительной области, нарушат закон Мура и положат начало второй кривой роста вычислительной мощности. «Особенно в эпоху искусственного интеллекта эта технология может стать ключевым фактором роста вычислительной мощности».
Разрушьте архитектуру фон Неймана и устраните три основные проблемы
В традиционной архитектуре фон Неймана функции вычислений и хранения выполняются вычислительными блоками (ЦП, графический процессор и т. д. XPU) и блоками хранения соответственно. Данные получаются из памяти и возвращаются в память после обработки. Время, необходимое для транспортировки и чтения данных из памяти вне блока обработки, часто в несколько раз превышает время вычислений, что приводит к снижению эффективности вычислений или эффективной вычислительной мощности.
«Сегодня, когда преобладают большие модели, для завершения расчетов необходимо перемещать параметры модели. Количество параметров очень велико, а затраченное время составляет высокую долю, даже более 80%. В некоторых случаях это Эта доля еще выше, поэтому пропускная способность данных ограничивает фактическую эффективность. Эффективная производительность чипа может быть равна P, но фактическая производительность может быть намного ниже этого числа. Это так называемая «стена хранения», — Сюн Дапэн. сообщил China Business News.
Наряду с проблемой «проблемы стенки хранилища», в процессе передачи потребляется большое количество энергии, что приводит к значительному снижению коэффициента энергоэффективности чипа, что является «проблемой энергетической стенки».
Кроме того, существует проблема «стены компиляции» — то есть динамическое планирование потоков данных является сложным, и компилятор не может автоматически оптимизировать операторы и исполняемые программы для достижения оптимизации потока данных в статических и предсказуемых условиях, и ему приходится полагаться на ручное управление. настройка для достижения этой цели. Более высокая эффективная вычислительная мощность увеличивает время и трудозатраты на фактическое развертывание и миграцию. «Эти три пункта сильно ограничили развитие индустрии искусственного интеллекта, которая испытывает все большую нехватку ресурсов и значительно увеличивает энергопотребление», — сказал Сюн Дапэн.
Интегрированная технология хранения и вычислений разрушает архитектуру фон Неймана, объединяет функции хранения и вычислительные функции на одном кристалле и напрямую использует блоки хранения для обработки данных. Модифицируя архитектуру вычислений в памяти схемы «считывания», ее можно использовать. в схеме «чтения». Результаты операции получаются в схеме и результаты непосредственно «записываются» обратно по адресу назначения памяти. Частая передача данных между вычислительным блоком и запоминающим устройством больше не требуется, что исключает необходимость потребление, вызванное перемещением данных, и значительно снижает затраты на энергопотребление, что значительно повышает эффективность вычислений.
«Ожидается, что интегрированные технологии хранения и вычислений станут одним из важных технических путей в эпоху после Мура. Исходя из первого принципа эффективной вычислительной мощности, для интеграции хранения и вычислений объем передачи данных значительно сокращается, а эффективная вычислительная мощность демонстрирует линейный рост. Можно сказать, что память и вычислительная мощность интегрированы. Интеграция вычислений нарушит закон Мура и откроет вторую кривую роста вычислительной мощности. В то же время мы считаем, что технология интеграции хранения и вычислений имеет преобразующий характер. потенциал в будущей вычислительной сфере, особенно в эпоху искусственного интеллекта, эта технология может стать ключевым фактором, способствующим росту вычислительной мощности», — сказал Сюн Дапэн.
Решение с более высокой энергоэффективностью и экономичностью
По сравнению с недавно популярным чипом памяти HBM с высокой пропускной способностью, чип интегрированной архитектуры хранения и вычислений имеет лучшую энергоэффективность системы и экономичность.
HBM — это технология высокопроизводительного интерфейса памяти, в основном используемая для улучшения возможностей обработки данных графических процессоров и систем высокопроизводительных вычислений (HPC). Эта технология значительно увеличивает пропускную способность за счет вертикального расположения микросхем DRAM и плотного соединения их с процессором с помощью высокоскоростных межсоединений.
«HBM — это эффективный технический путь решения проблемы «стены хранения», но он требует затрат и энергопотребления, поскольку обеспечение большой пропускной способности требует более высокого энергопотребления, а цена также очень высока, намного превышая цену традиционной DRAM». Сюн Дапэн сказал: «По сути, HBM — это микросхема памяти, не имеющая вычислительных функций. Для реализации вычислительных функций ее необходимо соединить с вычислительными чипами, такими как GPGPU».
С точки зрения стоимости системы интегрированный чип хранения и вычислений может быть ниже, чем комбинация традиционного GPGPU и HBM.
С одной стороны, это связано с более высокой плотностью вычислительной мощности или PPA интегрированной архитектуры хранения и вычислений. «Эквивалентная пропускная способность интегрированной архитектуры хранения и вычислений намного выше, чем у HBM, разница может быть в несколько или даже в десять раз. В то же время ее плотность вычислительной мощности более выгодна. Фактическая эффективная вычислительная мощность , соотношение затрат и энергоэффективности будет намного выше, чем у решения GPGPU+HBM», — сказал Сюн Дапэн.
С другой стороны, интегрированные технологии хранения и вычислений относительно меньше зависят от передовых процессов, в то время как GPGPU и HBM в значительной степени полагаются на передовые процессы. «HBM полагается на передовые процессы и несет большие риски в цепочке поставок. Однако, если она выберет путь интегрированных технологий хранения и вычислений, даже если она не использует передовые процессы, такие как 12 нм и 22 нм, производительность не может быть хуже, чем 4 нм или даже 3 нм. Это тоже изменение концепции обгона».
С точки зрения экономической эффективности, хотя интегрированное хранилище и вычисления могут потребовать больше чипов для достижения той же производительности, его высокая стоимость и высокий коэффициент энергоэффективности являются одними из его существенных преимуществ.
Масштабно это может быть реализовано в области больших моделей в ближайшие 2-3 года.
Исследования и применение интегрированных технологий хранения и вычислений ускоряются во всем мире.
В настоящее время в число крупных зарубежных компаний, производящих вычислительные микросхемы, которые используют интегрированное хранилище и вычислительные технологии, входят стартап по производству ИИ-чипов Groq, который оценивается более чем в 2,8 миллиарда долларов США и считается сильным конкурентом Nvidia d-Matrix; приобрели Microsoft, Temasek, Samsung, Marvell, Hainan и др. Инвестировали Lux, Ericsson и многие другие компании.
Кроме того, Samsung также опубликовала исследование вычислений в памяти на основе MRAM в журнале Nature и продемонстрировала высокую точность своего алгоритма искусственного интеллекта. SK Hynix выпустила продукты для вычислений в памяти DRAM на основе интерфейса GDDR, которые позволяют значительно увеличить скорость вычислений и снизить энергопотребление.
«Насколько мне известно, большинство зарубежных компаний реализуют хранилище и вычисления на базе SRAM, но ее емкость невелика, а стоимость высока. Например, для комплексного решения Groq требуется более 570 чипов. Если используется NVIDIA H100, число Количество чипов выражается только однозначными числами. Это главным образом вызвано недостаточной плотностью хранения данных. «Сюн Дапенг сказал, что многие отечественные развивающиеся компании совершили прорыв в интегрированных технологиях хранения и вычислений, предоставив китайской индустрии микросхем возможность сменить направление и обогнать.
Однако, когда вычислительная мощность интегрированных хранилищ и вычислительных микросхем расширяется в больших масштабах, она по-прежнему сталкивается со многими проблемами: во-первых, проблема ненадежной точности, во-вторых, цифро-аналоговое преобразование, основанное на аналоговых вычислениях, создает узкие места в энергетике; потребление, размер кристалла и производительность; в-третьих, большие модели ИИ имеют требования к емкости.
«Полностью цифровой путь может хорошо решить эти проблемы, что также является основой для Yizhu Technology для разработки чипов вывода большой вычислительной мощности искусственного интеллекта», — сказал Сюн Дапэн.
В общей аналоговой интегрированной системе хранения и вычислений данные хранятся в форме аналоговых сигналов, представленных различными уровнями напряжения внутри блока хранения, а такие операции, как MAC, выполняются на основе закона Ома и законов Кирхгофа. Самая большая проблема этого подхода заключается в том, что точность и аккуратность не заслуживают доверия из-за шума аналоговой схемы и различных переменных. Независимо от производственного процесса или рабочей среды значения, представленные мемристором, будут иметь ошибки или отклонения. Цифро-аналоговые гибридные методы пытаются сбалансировать вопросы эффективности и точности, но они по-прежнему не могут гарантировать высокую точность и надежность точности.
Сюн Дапэн сообщил, что решение Yizhu Technology представляет собой полностью цифровую интеграцию хранилища и вычислений на основе мемристора (ReRAM). Поскольку он полностью цифровой, данные помещаются в устройство хранения в двоичной форме. Мемристор представляет собой только один бит, и в этом случае существуют различия только между высоким и низким уровнями, высоким и низким сопротивлением, а также высоким и низким током. это может быть надежно.
Кроме того, развитие интегрированных систем хранения и вычислений также сталкивается с проблемами реализации проекта. «Поскольку это новый технологический маршрут, то, как использовать и интегрировать его в существующую экологию, является большой проблемой. Программируемость и совместимость с существующей экологией имеют решающее значение», — сказал Сюн Дапэн в интервью China Business News.
В совокупности интегрированные технологии хранения и вычислений рассматриваются во всем мире как эффективное средство разрешения противоречия между высоким спросом на вычислительную мощность и высокими затратами на энергопотребление. Они также предоставляют важную возможность китайской индустрии микросхем наверстать упущенное. Ожидается, что в ближайшие несколько лет, по мере развития технологий и увеличения рыночного спроса, интегрированные чипы хранения и вычислений будут широко использоваться во многих областях и будут способствовать инновационному развитию всей отрасли. В настоящее время применение интегрированных чипов хранения и вычислений в области больших моделей все еще находится на стадии разработки, и Сюн Дапэн прогнозирует, что оно будет реализовано в больших масштабах в ближайшие 2-3 года.
(Эта статья взята из China Business News)