все еще боретесь с заклинаниями ии? пекинский университет-байчуань разработал инженерную систему автоматического напоминания pas

2024-09-10

колонка aixiv — это колонка, в которой machine heart публикует академический и технический контент. за последние несколько лет колонка heart of the machine aixiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. электронная почта для отправки: [email protected]; [email protected];

чжэн мяо, соавтор статьи, работает в команде baichuan alignment team под руководством чжоу цзэнаня. его исследовательские интересы включают большие языковые модели, мультимодальное обучение и компьютерное зрение. такие проекты, как mmflow. соавтор лян хао — аспирант института пограничных междисциплинарных исследований пекинского университета. его направление исследований — обработка данных в больших моделях, а его научным руководителем — профессор чжан вэньтао. совместная лаборатория интеллектуальных систем искусственного интеллекта пекинского университета и байчуаня была создана в январе 2024 года. ее целью является изучение таких важных вопросов, как научное и систематическое генерирование данных и стратегии оценки качества, обучение крупных моделей и ускорение вывода в рамках всего технического процесса систем моделирования искусственного интеллекта. . объединенной лабораторией руководят цуй бинь, заслуженный профессор бойя пекинского университета, и чэнь вэйпэн, соучредитель baichuan intelligence.

большие языковые модели, основанные на архитектуре transformer, достигают прорывных результатов в различных областях. оперативное проектирование играет в этом решающую роль.

используя хорошие слова-подсказки, исследователи и разработчики могут помочь моделям лучше справляться с конкретными задачами. этот метод позволяет не только существенно улучшить производительность модели, но и повысить адаптивность модели, сделав ее более гибкой и эффективной при решении различных сложных задач.

кроме того, проект подсказки слова также может оптимизировать процесс обучения модели, повысить эффективность обработки сложных задач, а также сократить время обучения и требования к вычислительным ресурсам.

по сравнению с традиционными методами точной настройки, быстрое словесное проектирование может адаптировать модель к множеству последующих задач с очень низкими затратами, что значительно экономит вычислительные ресурсы и затраты на сбор данных. однако создание эффективных ключевых слов по-прежнему является сложной задачей для неспециалистов и часто требует длительного обучения и практики.

обычно трудно добиться идеальных результатов, напрямую используя большие языковые модели для проектов с автоматическими подсказками. неподходящие подсказки могут отвлекать модель и фактически снижать производительность. поэтому особенно важно разработать автоматическую систему оперативного проектирования, которая может помочь пользователям и проста в эксплуатации.

pas: революционная инженерная система автоматического оповещения

для решения этой проблемы совместная лаборатория пекинского университета и байчуаня предложила систему автоматического оперативного проектирования pas. инновация pas заключается в следующем:

1. создайте высококачественный набор данных для автоматических подсказок.

2. выполните обучение с использованием нескольких выборок и проверку данных на модели gpt.

3. автоматически создавайте оптимизированный и эффективный набор данных для подсказок.

4. внедрить эффективное автоматическое оперативное проектирование посредством тонкой настройки.

pas может кратко и эффективно дополнять вводимые пользователем данные, реализуя быстрый, простой и автоматический проект подсказок, поддерживающий потоковое отображение.

в многочисленных тестах производительности pas намного превосходит существующие модели sota и требует меньше данных. результаты ручной оценки также показывают, что pas имеет отличные характеристики, подчеркивая его огромный потенциал в практическом применении.

этот прорывной результат не только способствует развитию оперативной инженерии слов, но и открывает путь к применению больших языковых моделей в более широком спектре областей.

адрес статьи: https://arxiv.org/abs/2407.06027.
pku-baichuan-mlsystemlab：

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

метод

обучение pas в основном делится на три этапа:

шаг 1. создайте высококачественный набор проблемных данных.

первой задачей при обучении pas является создание качественного набора проблемных данных. как показано на рисунке (а), исследователи отбирали качественные вопросы на основе наборов данных lmsys-1m и wildchat по следующим трем аспектам:

1. дедупликация данных. используйте технологию внедрения в сочетании с алгоритмами кластеризации для эффективного удаления повторяющихся данных.

2. проверка качества: используйте большую модель байчуань для оценки и проверки качества данных.

3. гарантия разнообразия: наконец-то были отобраны 9000 высококачественных вопросов, охватывающих более 10 категорий.

шаг 2: дополните оперативные инженерные данные

на этом этапе исследователи всесторонне использовали 100 высококачественных данных, накопленных внутри компании, и проблемные данные, проверенные на первом этапе, а также использовали метод обучения в несколько этапов для создания автоматических оперативных инженерных данных с помощью модели gpt:

1. генерация исходных данных. используйте обучение в несколько этапов, чтобы помочь gpt сгенерировать предварительные оперативные инженерные данные.

2. контроль качества. разработайте этап «критика» и снова используйте пошаговое обучение, чтобы позволить gpt оценить качество сгенерированных данных.

3. итеративная оптимизация: автоматическая фильтрация данных низкого качества и их регенерация для обеспечения качества данных посредством нескольких раундов итерации.

4. конечный результат: наконец-то было получено 9000 высококачественных автоматических оперативных инженерных данных.

распределение данных

распределение 9000 сгенерированных фрагментов данных показано на рисунке выше, что обеспечивает разнообразие и репрезентативность данных.

шаг 3. точная настройка модели автоматического запроса

на последнем этапе будет использоваться набор данных, полученный на первых двух этапах, для точной настройки большой языковой модели:

1. выберите базовую модель: например, qwen2-7b и другие модели.

2. направленная точная настройка. для точной настройки используйте наборы высококачественных данных.

3. специализированное обучение. наконец, получается большая языковая модель специально для проектов автоматических подсказок.

эксперименты и результаты

ручная проверка

по оценкам оценщиков, pas показывает более высокий процент выигрышей в различных областях по сравнению с предыдущей моделью sota (state-of-the-art). средний коэффициент выигрыша во многих областях превышает 50%, а сумма коэффициента выигрыша и коэффициента розыгрыша достигает более 80%.

оценка машиныбенчмарк

чтобы всесторонне оценить производительность pas, исследователи выбрали три теста: arena-hard, alpaca-eval 2.0 и alpaca-eval 2.0 (lc).

затем исследователи применили pas к шести ведущим моделям искусственного интеллекта, в том числе:

гпт-4 (три варианта)
гпт-3.5
qwen2-72-инструктировать
llama3-70b-инструктировать

результаты оценки показывают:

pas обеспечивает значительные улучшения по сравнению как со случаем без подсказок, так и с предыдущей инженерной моделью sota с автоматическими подсказками.
по сравнению с предыдущими моделями bpo, pas демонстрирует большую адаптируемость, совместим с множеством очень больших моделей и обеспечивает повышение производительности каждой модели.

анализ вычислительной эффективности

pas не только хорошо работает с точки зрения производительности, но и очень эффективен в вычислительном отношении: с точки зрения эффективности данных ему требуется всего 9000 фрагментов точно настроенных данных, чтобы продемонстрировать превосходную производительность. с точки зрения эффективности вывода, он может ограничить длину дополнительных автоматических подсказок, обычно не более 30 слов.

с точки зрения пользовательского опыта, pas также приносит пользу большим моделям, а именно:

в отличие от предыдущих моделей, таких как bpo, pas не нужно изменять исходный вопрос пользователя, а только дополнительные автоматические подсказки.
обеспечьте превосходный пользовательский опыт с контролируемым временем отклика.
поддерживает потоковое отображение в стиле gpt для дальнейшего улучшения интерактивных возможностей.

пример: pas помогает крупным моделям избежать логических ловушек.

«если на дереве 10 птиц и одна из них застрелена, сколько птиц останется на земле?»

этот, казалось бы, простой вопрос на самом деле таит в себе хитроумную логическую ловушку. когда вы его увидите, вам может потребоваться несколько секунд, чтобы понять, что на дереве осталось 9 птиц и только 1 на земле.

как показано на рисунке, без помощи pas gpt дает неправильные ответы. система pas существенно повышает производительность модели, дополняя подсказки словами:

под руководством pas новый раунд ответов модели показал значительные улучшения. он не только успешно обошел логические ловушки в вопросах, продемонстрировал четкий, многоэтапный процесс логического рассуждения, но и дал пользователям правильный ответ. весь процесс рассуждения.

заинтересованные читатели могут прочитать оригинальный текст статьи, чтобы узнать больше о содержании исследования.

новости

все еще боретесь с заклинаниями ии? пекинский университет-байчуань разработал инженерную систему автоматического напоминания pas

введение

моя контактная информация