новости

Новая работа команды Тан Цзе из Университета Цинхуа: создание 20 000 слов за один раз, большая модель открытой книги и длинный вывод

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Минмин родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Сгенерируйте 20 000 слов за один раз, и выходные данные большой модели также будут свернуты!

Последние исследования Tsinghua & Zhipu AI успешно увеличили выходную длину GLM-4 и Llama-3.1.

При той же проблеме выходной результат сразу увеличился с 1800 слов до 7800 слов.4 раза



Вы должны знать, что длина больших моделей текущего поколения обычно ниже 2 КБ. Это влияет на создание контента, ответы на вопросы и т. д., что может привести к неполным ответам на вопросы модели и снижению креативности.

Исследование проводилось под руководством Ли Цзюаньцзы и Тан Цзе, основателей Zhipu AI и профессоров Университета Цинхуа.



Документ и код были выложены в открытый доступ на GitHub.

Некоторые пользователи сети уже испытали это впервые. LongWriter-llama3.1-8b может генерировать текст «История упадка Римской империи» объемом 10 000 слов, который можно запустить на MacBook Pro 2018 (32 ГБ).

Выходной контент очень точен и может получить оценку A++.



Модель 9B обрабатывает вывод объемом 10 000 слов.

Это исследование в основном включает в себя три аспекта работы.

  • Анализ факторов, ограничивающих длину генерации текста
  • предложенный агентЗапись
  • Увеличить размер окна вывода LLM

Сначала исследователи создали инструмент тестирования LongWrite-Ruler. Протестировав несколько больших моделей, они обнаружили, что все модели генерируютБолее 2000 словтрудности с текстом.

Проанализировав журналы взаимодействия пользователей с большими моделями, исследователи обнаружили, что чуть более 1% пользовательских запросов явно упоминаютСгенерировать более 2000 словтекст.

Для этого они изменили модель, используемую на этапе контролируемой точной настройки (SFT).Максимальная выходная длина набора данных

Было обнаружено, что максимальная выходная длина модели соответствует максимальной выходной длине в наборе данных SFT.значительная положительная корреляция

Таким образом, делается вывод, что существующие модели ограничены по длине вывода главным образом потому, чтоДлинные выходные выборки отсутствуют в наборе данных SFT.

Даже если модель видела более длинные последовательности на этапе предварительного обучения, отсутствие длинных текстовых образцов на этапе SFT все равно будет влиять на длину выходных данных.



Чтобы преодолеть это ограничение, исследователи предложилиАгентНаписать

Это конвейер на основе агента.



Он позволяет разложить очень длинные задачи по генерации текста на несколько подзадач, каждая из которых обрабатывает свой раздел.

Конкретный процесс заключается в том, что AgentWrite сначала разрабатывает подробный план написания на основе инструкций пользователя. План включает в себя основные пункты содержания и целевое количество слов для каждого абзаца. По плану AgentWrite последовательно предлагает модели сгенерировать содержимое каждого абзаца.



На основе AgentWrite команда использовала GPT-4o для генерации 6000 выходных данных SFT длиной от 2 до 32 тысяч слов, формируя набор данных LongWriter-6k. и добавить эти данные в процесс обучения.

Чтобы проверить эффективность метода, команда также предложила LongBench-Write. Он содержит различные инструкции пользователя по написанию, а выходные характеристики длины составляют 0–500 слов, 500–2000 слов, 2000–4000 слов и более 4000 слов.

Результаты оценки показывают, что длина выходных данных модели значительно увеличивается после использования AgentWrite.



Благодаря оптимизации прямых предпочтений (DPO) GLM-4-9B достигает лучшей производительности среди моделей.



Пользователи сети с быстрыми руками уже взяли на себя инициативу в его тестировании.

Пользователь сети Reddit попросил LongWriter-llama3.1-8b сгенерировать историю упадка Римской империи. В целом это заняло 22 минуты (в зависимости от оборудования) и генерировало в среднем 3,34 токена в секунду.



Создаваемый контент относительно шаблонен, а структура и ритм ответов на разные вопросы схожи.

В любом случае, это хорошее начало, и улучшения очевидны.



Исследовательская группа также заявила, что в будущем она еще больше увеличит длину и качество вывода модели, а также начнет изучать способы повышения эффективности без ущерба для качества генерации.

Справочные ссылки:
https://github.com/THUDM/LongWriter