Эксперт: Китай не может полагаться на «складывающиеся чипы» для разработки AI

Эксперт: развитие искусственного интеллекта в Китае не может опираться на «наложение чипов»

2024-07-29

Источник: Глобал Таймс

[Репортер Global Times Ма Цзюнь] Соединенные Штаты полагаются на свои преимущества в области программного и аппаратного обеспечения, чтобы использовать свои масштабы для создания самого мощного в мире искусственного интеллекта (ИИ). Американский миллиардер Маск недавно объявил в социальных сетях, что его стартап в сфере искусственного интеллекта xAI начал использовать «Мемфисский суперкластер», состоящий из 100 000 графических процессоров H100, для обучения искусственному интеллекту, утверждая, что это «самый мощный кластер обучения искусственному интеллекту в мире». Должен ли Китай следовать по этому технологическому пути, возглавляемому Соединенными Штатами? Недавно на экспертном семинаре по развитию вычислительной мощности Китая в 2024 году, спонсируемом Китайским альянсом индустрии интеллектуальных вычислений и рабочей группой по стандартам вычислительной мощности Национального комитета маяков, ряд академиков и экспертов высказали свои соответствующие мнения.

Будущее интеграции сверхинтеллекта будет разделено на три этапа

Чэнь Жуньшэн, академик Китайской академии наук, заявил на семинаре: «Большие модели искусственного интеллекта являются представителями новой производительности. Комплексное развитие больших моделей и суперкомпьютеров очень важно. Нашей стране необходимо серьезно это продумать и рассмотреть». Исследователь Института вычислительных технологий Китайской академии наук Чжан Юньцюань отметил, что быстрое развитие больших моделей демонстрирует характеристики новой производительности, но в настоящее время оно также сталкивается с узким местом в вычислительной мощности. Учитывая глубокие технологические достижения Китая в области суперкомпьютеров, есть надежда, что сверхразумное слияние (объединение суперкомпьютеров и интеллектуальных вычислений, представленное большими моделями) сможет эффективно решить эту проблему. Шан Чжигуан, директор Департамента информатизации и промышленного развития Национального информационного центра, объяснил: «Суперинтеллектуальный синтез родился в результате нынешнего диверсифицированного развития базовой вычислительной мощности, интеллектуальной вычислительной мощности, супервычислительной мощности и т. д., то есть сможет ли он использовать гибридные вычислительные ресурсы или интегрированные вычислительные системы для одновременного удовлетворения потребностей приложений нескольких различных вычислительных ресурсов».

Прогнозируя будущий процесс интеграции сверхразума, Цянь Дэпэй, академик Китайской академии наук, полагает, что он явно будет развиваться по трем этапам: для ИИ — через ИИ и быть ИИ, развиваясь всесторонним образом. от аппаратного обеспечения к программному обеспечению для адаптации и продвижения искусственного интеллекта. На первом этапе развития ИИ основное внимание будет уделено трансформации и модернизации существующих компьютерных систем и разработке специального аппаратного обеспечения, чтобы обеспечить эффективную поддержку и выполнение задач ИИ, а также обеспечить надежную инфраструктуру для исследований в области искусственного интеллекта. На втором этапе ИИ будет использоваться для преобразования традиционных вычислений. С одной стороны, методы ИИ используются для решения традиционных суперкомпьютерных задач. С другой стороны, ИИ также влияет на структуру традиционных компьютеров. стать очевидным. На заключительном этапе становления ИИ компьютерная система проявит присущие ей интеллектуальные характеристики. Искусственный интеллект больше не является внешней способностью, а стал основным атрибутом и основным компонентом компьютера. Вполне возможно, что вычислительная мощность или уровень. интеллект будет сильно отличаться от суперкомпьютеров или интеллектуальных вычислений, которые мы имеем сегодня.

Чэнь Жуньшэн отметил, что научное сообщество и промышленность пытаются решить проблему интеграции суперкомпьютеров и интеллектуальных вычислений. Например, новейшая архитектура Nvidia GB200 на самом деле представляет собой два графических процессора плюс один процессор. В каком-то смысле ее можно рассматривать как использование преимуществ как интеллектуальных вычислений, так и супервычислений. В схеме двух графических процессоров, выполняющих машинное обучение, добавлен центральный процессор, обеспечивающий высокую скорость. передача данных. Но он считает, что такая архитектура принципиально не решает проблему эффективности. «Сочетание суперкомпьютеров и интеллектуальных вычислений неизбежно и будет органично интегрировано, а не просто объединено».

Чжэн Вэйминь, академик Китайской инженерной академии, также сказал, что все аспекты разработки, обучения, точной настройки и вывода больших моделей неотделимы от вычислительной мощности, а стоимость вычислительной мощности составляет большую часть общей стоимости. затраты, особенно на этапе обучения, на которые приходится до 70%. На этапе рассуждения они достигают 95%. Ввиду этого вычислительная мощность стала ключевым фактором, поддерживающим разработку больших моделей.

Интеллектуальные вычисления должны относиться к «человеческому интеллекту».

Китайские академики и эксперты выдвинули свои собственные взгляды на нынешнее увлечение крупномасштабными моделями в Китае и на технологический путь, который следует примеру «реакторных масштабов» США. Цянь Дэпэй заявил, что сейчас у Китая больше масштабных моделей по количеству и типам, чем у США, и они также занимаются общим искусственным интеллектом. Однако США не только строго ограничивают нас в плане аппаратного обеспечения, но и в плане аппаратного обеспечения. Качество данных, используемых для обучения крупномасштабных моделей, относительно невелико. «Может ли большая модель, созданная таким образом, быть лучше, чем в Соединенных Штатах? Я думаю, нам все равно придется соответствовать национальным стандартам Китая. условиях и не может полностью следовать за американцами».

Чэнь Жуньшэн также считает, что большие модели, возникающие в настоящее время в Китае, по сути являются усовершенствованием больших моделей и алгоритмов, предложенных Соединенными Штатами, но при этом мало учитывается основная теория всей большой модели. На семинаре он отметил, что по сравнению с моделью локальной памяти, используемой традиционными суперкомпьютерами, интеллектуальные вычисления демонстрируют фундаментальное отличие – распределенное хранение информации. Этот метод хранения имитирует сложную структуру нейронной сети человеческого мозга, перенося все более крупные модели через крупномасштабные, плотно взаимосвязанные сети микросхем. Однако то, как эффективно внедрить человеческие знания в эти сложные системы и как информация распределяется и хранится в системе, алгоритмы и технические теории, стоящие за этим, еще не полностью изучены. «При неконтролируемом расширении масштаба моделей непреодолимой проблемой является энергопотребление. Поэтому не совсем целесообразно слепо добавлять чипы и полагаться на увеличение сложности системы для решения проблемы хранения больших моделей».

Поэтому Чэнь Жуньшэн считает, что будущие интеллектуальные вычисления по-прежнему должны относиться к «человеческому интеллекту», который должен моделировать рабочий механизм человеческого мозга. Человеческий мозг очень мал и потребляет всего несколько десятков ватт энергии, но генерируемый им интеллект превосходит современный искусственный интеллект, который потребляет столько же энергии, сколько целый город. «Разработка больших моделей и интеллектуальных вычислений требует не только усовершенствования моделей и алгоритмов на уровне приложений, но и требует прорывов с точки зрения базовой теории. В настоящее время большие модели разработали только первые 10% и 90% работа не была проделана. Я также считаю, что большие модели определенно не могут быть достигнуты путем установки все большего и большего количества чипов. Они должны учиться, как человеческий мозг, сжимая пространственную сложность и временную сложность, чтобы уменьшить потребление энергии. думаю, что это самое основное. Проблема в том, чтобы изучить нынешнюю сложность пространства, чтобы завершить базовую теорию интеллектуальных вычислений. Если мы сможем добиться некоторого прогресса в базовой теории, мы сможем достичь фундаментальных и оригинальных инноваций».

Юань Госин, исследователь из Пекинского института прикладной физики и вычислительной математики, считает, что невозможно ожидать, что общая большая модель сможет решать проблемы во всех сферах жизни. Судя по реальной ситуации, разные приложения используют разные технологии, требуют разных алгоритмов и предъявляют разные требования к вычислительной мощности. Например, в научных вычислениях требования к точности вычислений становятся все выше и выше. По мере расширения масштабов компьютеров данных становится все больше, а достоверность постоянно снижается. Национальное управление по аэронавтике и исследованию космического пространства (НАСА) также высказало аналогичную точку зрения, у них очень высокие требования к точности расчетов. Поэтому в будущем разные приложения будут иметь разные большие модели и разные расчеты для решения разных задач. Сегодняшние большие модели предъявляют совершенно другие требования к точности вычислений и алгоритмам.

Хэ Баохун, директор Института облачных вычислений и больших данных Китайской академии информационных и коммуникационных технологий, добавил: «Вычисления и обучение предъявляют разные требования к базовой инфраструктуре, и также необходимо определить, в каких сценариях должны возникать различия». быть экранированы и в каких сценариях должны быть отражены различия».

Необходимость разработки крупных моделей суверенного уровня

Чжан Юньцюань сказал, что Соединенные Штаты недавно пытались «застрять» мою страну в развитии искусственного интеллекта посредством ряда действий, включая запрет на продажу высокопроизводительных графических процессоров, прекращение обмена исходным кодом для крупных моделей и прерывание экологическое сотрудничество. В то же время, когда масштаб вычислений крупных моделей теперь достигает 10 000 графических процессоров или даже 100 000 графических процессоров, необходимо разрабатывать специальные суперкомпьютеры для больших моделей, чтобы преодолевать технические узкие места, такие как стены энергопотребления, стены надежности и параллельные стены. На этом фоне, если Китай хочет преодолеть узкое место в вычислительной мощности больших моделей в краткосрочной перспективе, у Китая есть путь: использовать передовые суперкомпьютерные технологии, накопленные за последние два десятилетия, для разработки суперкомпьютеров, предназначенных для больших моделей, чтобы преодолеть вычислительная мощность узкого места проблем больших моделей, так что наша страна может твердо понять самый продвинутый уровень глобальных больших моделей и не отставать.

Когда Чжан Юньцюань представил план «Суверенной большой модели» в рамках сверхинтеллектуальной термоядерной системы, он сказал, что наша страна обладает глубокими технологическими накоплениями в области суперкомпьютеров. В последние годы она вложила огромные суммы денег в развитие интеллектуальных вычислений. вычислительная мощность, сосредоточенная на создании сверхинтеллектуальной системы термоядерной вычислительной мощности в качестве центра. Системное проектирование отвечает потребностям в вычислительной мощности больших моделей, надеясь максимально использовать преимущества суперкомпьютерных технологий для решения проблем вычислительной мощности. В соответствии с планом «Большая модель суверенного уровня», инновационный консорциум «Большая модель суверенного уровня» будет опираться на национальный суперкомпьютер, известные команды профессоров из Китайской академии наук и ключевые национальные университеты, компании, производящие интеллектуальные чипы, крупные компании, занимающиеся модельными решениями, и т. д. для совместного создания аналогичной открытой организации OpenAI, разработанной некоммерческим сектором для организации «большой модели суверенного уровня», а коммерческий сектор организован для реализации «большой модели суверенного уровня». ". Он предположил, что суперкомпьютер является «самым важным оружием страны» и его необходимо использовать для решения самых больших и сложных задач. Большая модель суверенного уровня — это базовая модель, которая может поддерживать национальное развитие, а не обычная большая модель. Подобные супермодели национального уровня также привлекли большое внимание в других странах. Например, Microsoft в США и OpenAI объявили о планах инвестировать 100 миллиардов долларов в новый суперкомпьютер с искусственным интеллектом. Япония также недавно объявила, что будет вкладывать значительные средства в него. разработка моделей национального уровня.

Чэнь Жуньшэн считает, что, исходя из нынешних базовых условий Китая и неизбежной тенденции развития крупных моделей, нам нереально полностью следовать западному подходу, и нам будет трудно догнать их в краткосрочной перспективе. Поэтому еще важнее найти способ разработки крупномасштабных моделей суверенного уровня.

Новости

Эксперт: развитие искусственного интеллекта в Китае не может опираться на «наложение чипов»

Введение

моя контактная информация