новости

исполнительный вице-президент baidu group шэнь доу: большие модели тесно интегрированы с облачными вычислениями и становятся новым типом инфраструктуры.

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

25 сентября на конференции baidu cloud intelligence 2024 года шэнь доу, исполнительный вице-президент baidu group и президент baidu intelligent cloud business group, заявил на конференции cloud intelligence conference, что прошлый год стал ключевым для перехода крупных моделей от технологических переход к промышленным изменениям. всего за несколько лет большие модели тесно интегрируются с облачными вычислениями и становятся новым типом инфраструктуры. «большие модели и связанные с ними системы быстро становятся инфраструктурой нового поколения всего за несколько лет. это изменение беспрецедентно».

шен доу, исполнительный вице-президент baidu group и президент baidu intelligent cloud business group. источник фотографии: фотография предоставлена ​​компанией.

что касается вычислительной мощности больших моделей, шэнь доу сказал, что когда речь идет о вычислительной мощности, многие люди слышали о «кластере ванка». проще говоря, кластеры графических процессоров обладают тремя характеристиками: экстремальный масштаб, чрезвычайно высокая плотность и экстремальная взаимосвязь.

и эти «крайности» создают несколько серьезных проблем. шэнь доу сообщил, что во-первых, это огромные затраты на строительство и эксплуатацию. для создания кластера wanka стоимость покупки одного только графического процессора достигает нескольких миллиардов юаней. во-вторых, на таком масштабном кластере резко возрастает сложность эксплуатации и обслуживания. он отметил, что аппаратное обеспечение неизбежно выйдет из строя, и чем больше масштаб, тем выше вероятность отказа. «когда meta обучала llama3, в кластере, использующем 16 000 графических карт, происходил сбой в среднем каждые 3 часа».

шэнь доу далее сказал, что подавляющее большинство этих сбоев вызвано графическим процессором. на самом деле графический процессор является очень чувствительным оборудованием, и даже колебания температуры в полдень будут влиять на частоту отказов графического процессора. эти две проблемы заставили baidu переосмыслить способы создания, управления и обслуживания больших и сложных кластеров графических процессоров, скрыть сложность аппаратного уровня и предоставить простую и удобную в использовании вычислительную платформу для всего процесса реализации больших моделей, позволяющую пользователям стало проще управлять вычислительной мощностью графического процессора и эффективно использовать вычислительную мощность при низких затратах. «в прошлом году мы почувствовали, что потребности клиентов в обучении моделей резко возросли, а требуемый размер кластера становится все больше и больше. в то же время всеобщие ожидания относительно дальнейшего снижения затрат на логические выводы также становятся все выше и выше. все это оказывает большое влияние на графические процессоры. к стабильности и эффективности управления выдвинуты более высокие требования».

основываясь на этом, baidu intelligent cloud объявила, что полностью обновит гетерогенную вычислительную платформу baige ai до версии 4.0. ориентируясь на потребности в вычислительной мощности на всем пути внедрения больших моделей, она предоставит предприятиям четыре основных аспекта: создание кластера, эксперименты по разработке, обучение моделей и вывод моделей. обеспечьте «множественную, быструю, стабильную и экономичную» инфраструктуру искусственного интеллекта.

среди них, чтобы решить проблему нехватки вычислительных ресурсов, baige 4.0 внес ключевые обновления в возможности «многоядерного смешанного обучения», достигнув 95% эффективности многоядерного смешанного обучения в кластерах масштаба wanka, достигнув максимального уровня. продвинутый уровень в бизнесе. в процессе развертывания кластера обновленный baige может обеспечить развертывание второго уровня на уровне инструмента, сокращая время подготовки к операциям кластера wanka с недель до одного часа максимум, что значительно повышает эффективность развертывания и сокращает цикл запуска бизнеса. в ответ на проблему частых ошибок во время обучения больших моделей в baige 4.0 были полностью обновлены методы обнаружения ошибок и механизмы автоматической отказоустойчивости, которые могут эффективно снизить частоту ошибок и значительно сократить время обработки ошибок кластера. оно достигло более 99,5. % от эффективной продолжительности обучения в кластере ванка.

кроме того, baidu intelligent cloud также анонсировала новейший «табель успеваемости» платформы больших моделей qianfan. на платформе больших моделей qianfan средняя ежедневная громкость вызовов большой модели wenxin превышает 700 миллионов раз, и это помогло пользователям добиться штрафа. -настроить в общей сложности 30 000 крупных моделей, разработать более 700 000 приложений корпоративного уровня. в прошлом году цена флагманской большой модели wenxin упала более чем на 90%.

ежедневные экономические новости

отчет/отзыв