новости

ACL2024: Представлен движок Yuntian Lifei SPACE, рассуждения о больших моделях могут выйти на новый этап

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

С 11 по 16 августа в Бангкоке, Таиланд, прошло 62-е ежегодное собрание Ассоциации компьютерной лингвистики (ACL).
Статья «Поколение встречается с проверкой: ускорение вывода больших языковых моделей с помощью интеллектуального параллельного автокорректирующего декодирования», написанная большой командой моделей Yuntian Lifei, была принята в качестве длинного документа ACL24 Findings. Это поэтапное отображение некоторых результатов исследований большой модели Юньтян Лайфэй.
Ежегодная конференция ACL — это крупнейшая в мире научная конференция в области компьютерной лингвистики и обработки естественного языка. Она организуется Международной ассоциацией компьютерной лингвистики и проводится ежегодно. В списке рекомендуемых конференций она включена в список конференций класса А. список Китайской компьютерной федерации (CCF).
В избранной статье Юньтян Лайфэй предлагался механизм SPACE — инновационное решение для ускорения вывода больших моделей без потерь. Результаты испытаний на разных типах больших моделей показывают, чтоПосле использования механизма SPACE скорость вывода модели на тестовом наборе HumanEval увеличилась на 270–400%., качество результатов вывода остается неизменным, и можно достичь как «быстрого расчета», так и «точного расчета».
Избранные статьи большой модельной группы Yuntian Lifei
Обычным решениям, основанным на рассуждениях, трудно достичь «одновременно потребностей и желаний».
ПРОСТРАНСТВО - этоСмаркетПараллелАуто-Справильный DеАббревиатура кодирования означает «интеллектуальное параллельное декодирование с автоматической коррекцией ошибок».
Эта схема рассуждения имеет две основные характеристики: во-первых, она принимаетполуавторегрессивныймодель рассуждения, которая значительно ускоряет рассуждения; второе — добавить;проверятьЭтот метод может улучшить скорость рассуждений, обеспечивая при этом точность рассуждений.
Что такое «полуавторегрессия»? Зачем нам добавлять проверку? Прежде чем объяснять эти проблемы, нам нужно сначала понять, как «работает» текущая большая модель.
Откройте приложение большой языковой модели, введите «Что такое большая модель?» в диалоговом окне, и большая модель выведет ответ слово в слово: «Большая модель — это модель глубокого обучения с десятками миллионов». параметры.» Процесс этого ответа можно увидеть. Кажется очень простым. Но на самом деле большие модели за кулисами пережили несколько циклов «авторегрессии».
Во-первых, большая модель сначала предсказывает первое слово вывода — «большое» на основе введенного нами содержимого, затем возвращает слово «большое» обратно на входной конец и прогнозирует, какое следующее слово должно быть выведено на основе введенного нами содержимого. слово «большой». Конечно, этот «прогноз» не является «слепой догадкой» из воздуха, но модель вынесет комплексное суждение на основе данных, полученных в предыдущем процессе обучения, и выберет слово с наибольшей вероятностью в качестве следующего выходного слова. .
В этом случае вторым выходным словом является «модуль». После вывода второго слова большая модель снова вернет слова «большой модуль» на входной терминал и спрогнозирует третье сгенерированное слово. Этот цикл продолжается до тех пор, пока не закончится полное предложение.
Этот процесс называется «авторегрессией».
В настоящее время авторегрессия является основным решением, используемым для вывода больших моделей.Будь то ChatGPT, Llama с открытым исходным кодом или многие крупные отечественные модели, они в основном используют решения авторегрессионного вывода.
Принципиальная схема авторегрессионной схемы
Преимущества и недостатки авторегрессионной схемы также весьма очевидны. Преимущество заключается в том, что он гарантирует, что сгенерированный контент является точным, значимым и контекстуально последовательным. Недостатками являются высокие вычислительные затраты и длительная задержка вывода.
Чтобы преодолеть эти проблемы, отрасли предлагают решения:«Полуавторегрессия»и«Расшифровка спекуляций»
«Полуавторегрессия» — это компромисс между «авторегрессией» и «неавторегрессией». упомянутый выше,«Авторегрессия»Он использует сгенерированные слова для прогнозирования следующего слова;«Неавторегрессивный»Это противоположность «авторегрессии», предсказывающей все предложение сразу.«Неавторегрессивный»Решение может повысить эффективность рассуждений, но точность вывода значительно снижается. «Полуавторегрессионное» решение всесторонне учитывает преимущества и недостатки «авторегрессии» и «неавторегрессии», чтобы сбалансировать требования к скорости и точности рассуждений на больших моделях.
Однако использование «полуавторегрессионного» решения породило новые проблемы — во-первых, большинство крупных моделей невозможно использовать, а во-вторых, точность не может соответствовать отраслевым требованиям.Основные большие модели строятся в соответствии с режимом авторегрессионного вывода. Если вы хотите использовать полуавторегрессионное решение, вам необходимо переобучить большую модель с нуля. Обучение большой модели требует много электричества, вычислительных мощностей и рабочей силы. Почти никто не будет свергать наконец обученную большую модель и начинать заново, чтобы изменить схему вывода.
Другой вариант — «спекулятивное декодирование».Этот план основан на«Черновик – Проверить»Для процессной работы сначала необходимо ввести вспомогательную модель с относительно небольшим количеством параметров. Малая модель сначала «нарисовывает» ответы кандидата, а затем большая модель проверяет, правильные ответы кандидата или нет. Благодаря тому, что маленькие модели рассуждают быстрее, чем большие модели, а большие модели могут одновременно проверять несколько вариантов ответа, этот метод декодирования может не только обеспечить точность выходных результатов, но и ускорить рассуждение.
Но у этого решения есть и недостатки. Во-первых, необходимо сначала сделать очень «надежную» небольшую модель и уметь быстро и точно «чертить» ответ, что само по себе сложно. Во-вторых, две модели должны иметь «один и тот же текст, одну и ту же дорожку и одну и ту же систему» ​​между двумя моделями. Только достижение высокой степени согласованности с точки зрения сегментаторов слов и списков слов может гарантировать результаты проверки.
Механизм вывода SPACE — небольшие модификации, большое ускорение
Поскольку несколько решений не могут удовлетворить «одновременно потребности и желания», существует ли решение, которое может только сохранить их преимущества и избежать их недостатков? Это механизм вывода SPACE, предложенный большой модельной командой Yuntian Lifei. SPACE сочетает в себе два решения: «полуавторегрессионную контролируемую точную настройку» и «автоматическое корректирующее декодирование», что позволяет крупным моделям генерировать несколько результатов за один вывод и одновременно выполнять проверку результатов для обеспечения качества генерируемых результатов. в то же время,Эта машина вывода подходит для любой большой модели.. Благодаря тонкой настройке и оптимизации модели, когда любая крупная модель использует этот механизм вывода, ей не только не нужно обучать дополнительные вспомогательные модели, но также повышается эффективность вывода, в полной мере используются ресурсы параллельных вычислений, такие как графический процессор, и достигается высокое использование вычислительной мощности.
Разница между схемой авторегрессии (слева) и схемой SPACE (справа)
Как упоминалось выше, большинство больших языковых моделей обладают собственными «авторегрессионными» свойствами и не могут напрямую применять «полуавторегрессионное» решение. В этом отношении SPACE использует метод «полуавторегрессионной контролируемой точной настройки». Посредством контролируемого обучения модель учится предлагать серию возможных слов-кандидатов при обнаружении специальной отметки [MASK] (как показано на рисунке выше). . Это позволяет модели выполнять операции, подобные «угадыванию», во время рассуждений и выводить несколько наиболее вероятных правильных слов-кандидатов, тем самым имея возможность полуавторегрессионного рассуждения.
Проще говоря, при поддержке схемы «полуавторегрессионной контролируемой точной настройки» большая модель может сама делать «догадки» во время рассуждений и выводить несколько слов, которые, вероятно, будут правильными в качестве возможных ответов.
Однако, как и на экзамене, в черновике может быть указано большое количество контента, но правильные ответы должны быть указаны в экзаменационной работе. Как убедиться в правильности? Для этого требуется проверка результатов, и именно это и делает «автоматическое корректирующее декодирование».
В частности, во время рассуждения мы также вводим в модель слова-кандидаты, сгенерированные большой моделью на предыдущем этапе рассуждения, что позволяет модели самостоятельно проверить и определить, верны ли эти ответы-кандидаты.
Метод оценки также очень прост. Если слово, сгенерированное моделью, соответствует предыдущему варианту ответа, слово-кандидат считается правильным. Для проверки в традиционном авторегрессионном рассуждении, если слово правильное, его необходимо повторно ввести в языковую модель, чтобы вывести следующее слово.
Но здесь, в SPACE, этого не требуется. Поскольку мы заранее ввели слово-кандидат в модель и правильность слова-кандидата была проверена, мы можем напрямую получить новый ответ из правильного слова-кандидата в этот момент, тем самым избавляя от необходимости повторно вводить ответ. в модель, а затем приступим к рассуждениям. Следовательно, преимущество этого механизма заключается в том, что, когда правильность слова-кандидата проверена, нет необходимости передавать его обратно в модель для генерации следующего ответа, что сокращает время рассуждения.
В качестве аналогии традиционное авторегрессионное рассуждение можно сравнить с эстафетой 4×100 метров: в обычном соревновании четырем спортсменам необходимо один за другим перехватить эстафету, чтобы пройти весь забег. Это похоже на авторегрессионную схему. и требует дословного рассуждения. По плану SPACE, четыре спортсмена начали бежать одновременно. Когда первый спортсмен пробежал 100 метров и достиг конечной точки, остальные спортсмены также достигли конечной точки своего 100-метрового этапа. Однако первый спортсмен должен быть проверен после достижения финишной линии. Если проверка пройдена, результат второго спортсмена может быть подтвержден, а затем может быть проверен второй спортсмен и так далее.
Если спортсмену не удалось пройти проверку, ему необходимо вернуться на свою стартовую дистанцию ​​на 100 метров и начать заново, чтобы завершить забег. В лучшем случае, если каждый из четырех спортсменов сможет пройти проверку, то этой группе достаточно провести в обычной игре всего лишь 1/4 времени, чтобы завершить игру, таким образом достигается эффект ускорения в худшем случае; каждый спортсмен не пройдет проверку, то требуемое время будет таким же, как и в обычных соревнованиях. Сможет ли он пройти проверку, во многом зависит от точности ответов кандидата.
В то же время в процессе вывода модели SPACE мы также вставляем во входные данные специальный идентификатор [MASK], чтобы помочь большой модели сгенерировать обновленную версию ответа-кандидата. В соответствии с этим механизмом каждый раунд модели рассуждения не только проверяет точность слов-кандидатов, сгенерированных в предыдущем раунде, но также предоставляет новые слова-кандидаты для следующих рассуждений.
Эта конструкция предназначена дляПовысьте точность слов-кандидатов, потому что каждый раз, когда появляется новый ответ, исходные слова-кандидаты будут становиться более точными за счет обновления. Этот процесс подобен прогнозированию погоды: мы делаем прогнозы погодных условий на предстоящую неделю каждый день, и с течением времени точность прогнозов погоды на конкретный день в будущем постепенно возрастает. Это связано с тем, что со временем мы накапливаем больше данных с датчиков, что позволяет нам предоставлять более точные прогнозы погоды.
Традиционный метод проверки и исправления — это упомянутое выше «спекулятивное декодирование», что означает, что вам нужно сначала обучить надежную маленькую модель, а затем использовать для ее проверки большую модель. Качество генерации маленькой модели сильно влияет на конечный результат.
Однако SPACE предложила новое решение, которое позволяет достичь цели генерации и проверки без использования небольших моделей, а работа по проверке и работе по генерации может выполняться одновременно. Таким образом можно значительно повысить эффективность и точность рассуждений.
Давайте вернемся к исходному примеру. Когда мы вводим «Что такое большая модель?» в режиме вывода SPACE, большая модель сначала автоматически генерирует слова «Большие модели имеют десятки миллионов параметров». исправьте их одновременно. Алгоритм декодирования немедленно проверит сгенерированные слова одно за другим и сохранит только слова с правильными результатами проверки в качестве окончательного ответа, тем самым достигая эффекта генерации нескольких слов в процессе прямого рассуждения. большая модель, достигающая цели ускорения.
Наконец, давайте посмотрим на эффекты ПРОСТРАНСТВА.
Мы провели эксперименты на ряде моделей больших языков с открытым исходным кодом, охватывая основные модели больших языков с различными размерами параметров от 6 до 70 миллиардов.Как видно из таблицы ниже, SPACE имеет более очевидный эффект ускорения на моделях с большими параметрами.
Кроме того, SPACE также можно использовать в сочетании с другими технологиями ускорения вывода, такими как непрерывное пакетирование, флэш-внимание, KV-кэш, квантование и т. д., чтобы повысить скорость вывода.
Чтобы проверить эту точку зрения, мы реализовали SPACE в основной системе вывода TGI. Эксперименты доказали, что в сочетании с другими технологиями ускорения вывода эффект ускорения, обеспечиваемый SPACE, также является выдающимся.
Большие модели вошли в тысячи отраслей, и «рассуждение» имеет решающее значение.
Обучение и вывод — это два основных этапа жизненного цикла больших моделей. Обучение решает проблему «создания большой модели с нуля», а вывод решает проблему применения больших моделей в тысячах отраслей.
Если прошлый год можно назвать первым годом бурного развития больших моделей, то этот год является первым годом внедрения приложений больших моделей. Поэтому рассуждениям больших моделей уделяется все больше внимания.
Yuntian Lifei приложила немало усилий для ускорения применения крупных моделей. Что касается вычислительной мощности, в прошлом году компания выпустила DeepEdge10, чип для вывода больших моделей, а недавно выпустила карту-ускоритель IPU-X6000, которую можно применять для ускорения вывода различных крупных моделей, таких как язык, зрение и многоуровневые модели. модальность.
Что касается алгоритмов, Юньтян Лайфэй предложил механизм вывода SPACE, который значительно повышает скорость вывода больших моделей. С точки зрения применения, крупномасштабная модель Yuntian Lifei, разработанная компанией Yuntian Lifei, применяется во многих отраслях, таких как интеллектуальное государственное управление, городское управление, интеллектуальная безопасность, интеллектуальный транспорт, интеллектуальный бизнес, интеллектуальное образование и т. д., исследование и создание промышленности. ориентиры.
В будущем Yuntian Lifei продолжит усердно работать и вносить больший вклад в исследования и разработки, применение и продвижение технологий, связанных с большими моделями.
Отчет/Отзыв