Первая серия блогов бывшего ученого Google Йи Тая «История LLM»: Почему исчез BERT?

2024-07-21

Новый отчет мудрости

Монтажер: Юнён Цяо Ян

[Введение в новую мудрость]Бывший ученый Google Йи Тай запустил серию блогов «Модельная архитектура в эпоху LLM». Первая запись в блоге посвящена тому, как BERT, основанный на архитектуре только для кодировщика, был заменен на T5, основанный на архитектуре кодировщика-декодера, и проанализировал. исчезновение BERT Вся история, а также преимущества и недостатки различных архитектурных моделей. Урок истории имеет большое значение для будущих инноваций.

Йи Тай, бывший учёный Google, увлекающийся блоггерством, недавно было слишком скучно, чтобы летать, поэтому он написал подробную статью, обсуждающую тему, которая в настоящее время волнует многих людей, — приливы и отливы модельных архитектур в эпоху LLM. .

На этот раз Йи Тай попытался разгадать все, что происходит в новую эпоху LLM, насчет «Что случилось с BERT и T5»? Также о взлете и падении кодировщика Transformer, PrefixLM и целей шумоподавления.

Адрес блога: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Почему модель, использующая только кодировщик, «больше не популярна»? Почему BERT настолько мощный, но не может его «масштабировать»?

Трудно увидеть всю картину, находясь в ней. Что касается проблем, которые заставляют людей в отрасли ломать голову, И Тай поделился своими наблюдениями и мыслями.

И Тай также сказал, что это всего лишь первый пост в серии сообщений в блоге, и вы можете ожидать от него большего контента на тему «Модельная архитектура в эпоху LLM».

Решил начать новую серию блогов, посвященную архитектуре моделей в эпоху LLM. Ниже представлена часть 1, посвященная более широкой архитектуре преобразовательных кодеров/кодировщиков-декодеров, PrefixLM и целей шумоподавления. Вопрос, который зададут многие люди: «Люди, которые около 5 лет назад занимались исследованиями языка и НЛП, ломали голову, задаваясь вопросом, куда делись модели кодировщиков. Если BERT настолько эффективен, почему бы не расширить его масштаб?» Кроме того, что случилось с моделью кодера-декодера или чистого кодера? Хорошая ли цель шумоподавления? Я делюсь своими мыслями в этом блоге.

Йи Тай — настоящий «рассказчик» в эпоху LLM. В своем блоге он кратко обобщил развитие модельной архитектуры за последние несколько лет и изложил свои собственные идеи.

фон

Чтобы облегчить чтение людям, которые не так близки к технологиям, И Тай сначала объяснил предысторию этой истории.

За последние несколько лет в модельной архитектуре сложились три важные парадигмы.

модели только для кодера (например, BERT), модели кодера-декодера (например, T5) и модели только для декодера (например, серия GPT).

Но люди очень сбиты с толку этим разделением, и существует много недопониманий, поэтому И Тай пишет этот пост в блоге. Он надеется помочь всем установить более четкое понимание.

Первое, что нужно прояснить, это то, что модель кодера-декодера на самом деле все еще является авторегрессионной моделью. Декодер в модели кодера-декодера по-прежнему является причинным декодером, как в буквальном, так и в существенном смысле.

Текст сначала передается в кодировщик, а затем отправляется в декодер через механизм перекрестного внимания вместо предварительного заполнения модели декодера.

Следовательно, модель Т5 — это еще и языковая модель!

Ее вариантом является префиксная языковая модель или архитектура PrefixLM, которая делает почти то же самое, за исключением механизма перекрестного внимания. (И некоторые другие мелкие детали, такие как распределение веса между кодером/декодером и отсутствие узких мест в кодере)

PrefixLM иногда называют непричинным декодером. Короче говоря, кодер-декодер, только кодер и PrefixLM не так уж и отличаются!

Если у вас все еще есть сомнения по этому поводу, И Тай также дал ссылку - замечательную речь Хён Вона в Стэнфорде в апреле этого года, в которой он ловко объяснил взаимосвязь между этими моделями.

Адрес лекции: https://www.youtube.com/watch?v=orDKvo8h71o

В то же время метод шумоподавления моделей, предназначенных только для кодировщиков, таких как BERT, отличается (т. Е. На месте) и в определенной степени полагается на дополнительную «голову задачи», добавленную для работы с различными предварительно обученными базовыми моделями. операции.

Цель шумоподавления BERT позже была применена к таким моделям, как T5, но с некоторыми модификациями и последовательным форматом.

Сказав это, стоит отметить, что шумоподавление в T5 само по себе является не совсем новой целевой функцией (в смысле машинного обучения), а, скорее, преобразованием данных на входах, то есть вы также можете использовать цель искажения диапазона декодера причин и следствий. тренировать!

Люди всегда думают, что модель кодера-декодера должна быть моделью шумоподавления, и отчасти причина этой иллюзии заключается в том, что модель T5 слишком репрезентативна.

Тем не менее, это не всегда так.

Вы можете использовать обычную задачу языкового моделирования (например, CLM) для обучения кодировщика-декодера или использовать задачу повреждения диапазона для обучения причинного декодера.

Как говорилось ранее, это прежде всего преобразование данных.

Следует также отметить, что, как правило, кодер-декодер с 2N параметрами имеет те же вычислительные затраты, что и модель, состоящая только из N параметров, поэтому их соотношение FLOP/параметр различно.

Основываясь на нашем понимании вышеизложенного, теперь мы введем текст ——

Что касается целей шумоподавления (это бесполезно? Разве это не масштабируется? Это слишком просто?)

Чтобы внести ясность, цель шумоподавления, упомянутая И Тай, относится к любому варианту искажения диапазона.

Иногда это также называют заполнением или заполнением пробела. Есть много способов выразить это (а также длина интервала, случайность, дозорные токены и т. д.). Насколько вы понимаете, все они означают одно и то же.

Хотя цели шумоподавления в моделях в стиле BERT в основном сохраняются, немного более современный подход — это «стиль T5», который представляет собой преобразование данных, выполняемое моделями кодер/-экодер или только декодер.

При этом преобразовании данных токен маски просто «перемещается назад», чтобы модель могла делать прогнозы.

Основная цель предварительного обучения — создать полезные внутренние представления, которые наиболее эффективным и результативным образом согласуются с последующими задачами.

Чем лучше внутренние представления, тем легче использовать эти изученные представления для чего-то полезного позже.

Как мы все знаем, простая цель «моделирования причинно-следственного языка» (CLM) — предсказание следующих токенов — хорошо справляется с этой задачей и стала основой революции LLM. Вопрос теперь в том, одинаково ли хороша цель шумоподавления.

Из общедоступной информации мы знаем, что T5-11B работает очень хорошо даже после выравнивания/SFT (Flan-T5 XXL имеет показатель MMLU 55+, что довольно хорошо для модели такого размера на тот момент).

Таким образом, мы можем сделать некоторые выводы: перенос способности шумоподавления целей от предварительного обучения к выравниванию может помочь модели лучше работать в масштабе 11B.

По мнению Йи Тая, цели по снижению шума хороши, но недостаточны в качестве отдельной цели.

Мы можем описать его недостаток как меньшую «подверженность убыткам». В цели шумоподавления лишь небольшое количество токенов маскируется и используется в процессе обучения (т. е. обновляется значение потерь).

Напротив, при традиционном языковом моделировании использование токена близко к 100%.

Эта характеристика цели шумоподавления делает эффективность выборки на FLOP довольно низкой и, следовательно, ставит ее в очень невыгодное положение при сравнениях на основе FLOP.

Еще одним недостатком является то, что цели шумоподавления менее естественны, чем моделирование на обычном языке, поскольку они странным образом переформатируют ввод/вывод, что делает их немного неудобными для кратковременного обучения. (Тем не менее, эти модели все еще можно настроить для достаточно хорошей работы при выполнении задач с небольшим количеством выстрелов.)

Поэтому Йи Тай считает, что цели шумоподавления можно использовать почти только как дополнение к традиционному языковому моделированию, а не как независимую цель обучения.

Первые дни единства и почему xBERT вымер

Поэтапный отказ от моделей, подобных BERT, — интересный этап, но в наши дни об этом мало кто говорит, это незаметно.

Это также может объяснить, почему мы больше не видим работающих очень больших моделей BERT. какова причина?

Это прежде всего вопрос унификации и трансформации парадигм задач/моделирования.

Модели в стиле BERT были неуклюжими, но они действительно устарели, поскольку люди хотели использовать одну модель для всех задач, поэтому был введен лучший способ шумоподавления — использование авторегрессионных моделей.

В период с 2018 по 2021 год произошел скрытый сдвиг парадигмы от тонкой настройки одной задачи к крупномасштабным многозадачным моделям.

Всеобщее внимание постепенно было привлечено к единой модели SFT, которая также является единой общей моделью, которую мы видим сегодня.

С BERT сделать это слишком сложно.

Однако эта «неуклюжесть» BERT не имеет ничего общего с задачей «шумоподавления». Если вы все еще хотите использовать этот тип модели, вы можете выразить задачу «снижения шума» другим способом (например, T5).

Таким образом, модели в стиле BERT на данный момент практически устарели, поскольку появляется строго лучшая альтернатива.

Более конкретно, модели кодировщика-декодера и модели только декодера могут выражать несколько задач одновременно, не требуя заголовков классификации для конкретных задач.

В то же время исследователи и инженеры обнаружили, что для модели кодер-декодер, если кодер просто удалить и оставить только декодер, его производительность будет такой же конкурентоспособной, как у кодера BERT.

Мало того, что оставление только декодера также сохраняет преимущество двунаправленного внимания, которое делает BERT превосходящим модели GPT в мелкомасштабных (обычно производственных) задачах.

Значение цели шумоподавления

Подобно тому, как работает обычное языковое моделирование, цель предварительного обучения по шумоподавлению также учится предсказывать следующее слово.

Однако, в отличие от обычного CLM, последний выполняет преобразование данных в последовательности, чтобы научиться «заполнять пробелы», а не просто предсказывать текст, который естественным образом появляется слева направо.

Стоит отметить, что задачи шумоподавления иногда называют «задачами заполнения» и иногда смешивают с обычными задачами моделирования языка для предварительного обучения.

Хотя конкретные детали конфигурации и реализации могут различаться, сегодняшний LLM, скорее всего, будет использовать некоторую комбинацию языкового моделирования и заполнения.

И, что интересно, гибрид языкового моделирования и заполнения, похоже, распространился примерно в то же время (например, UL2, FIM, GLM, CM3), и многие команды каким-то образом привнесли в гибрид свой «изюминку».

Между прочим, самой крупной публично раскрытой и заявленной моделью, обученной таким образом, является PaLM-2.

Стоит отметить, что смешанное обучение не обязательно должно быть смешанным одновременно, его можно совмещать последовательно.

Например, Flan-T5 изначально был обучен на токенах повреждения 1Tspan, а затем переключился на задачу моделирования префиксного языка токенов 100B перед точной настройкой инструкций.

В каком-то смысле это можно назвать целевой гибридной моделью шумоподавления и моделирования языка.

И Тай также поделился неофициальным опытом: представления, полученные путем шумоподавления целей, работают лучше в определенных категориях задач и иногда отбираются более эффективно.

Точно настроенные модели, обученные с этой целью, обычно создают более качественные модели SFT, особенно в меньших масштабах.

Говоря об однозадачной доводке, мы видим, что модель PaLM-1 62B проигрывает меньшей модели T5.

Двунаправленное внимание + цели с шумоподавлением могут сыграть огромную роль в относительно небольшом диапазоне! Я считаю, что многие практикующие сейчас увидели эту ситуацию, особенно на производстве.

Преимущества и недостатки архитектуры кодера/декодера

Архитектура кодер-декодер на самом деле имеет некоторые преимущества по сравнению с обычной моделью, состоящей только из декодера.

Сторона кодировщика не ограничена причинными масками до такой степени, что вы можете как сумасшедший совмещать уровни внимания с агрессивным объединением или любой формой линейного внимания, не беспокоясь об ограничениях авторегрессионного дизайна.

Это хороший способ передать менее важный «контекст» кодировщику. Еще можно уменьшить энкодер, что тоже приятно.

Пример в Charformer иллюстрирует необходимость архитектуры кодер-декодер. Мы можем устроить большую суету вокруг кодера, чтобы уменьшить дефекты скорости при кодировании на уровне байтов.

Но в то же время одним из недостатков кодировщика-декодера по сравнению с PrefixLM является то, что вход и цель должны иметь фиксированную длину выделения.

Например, если заранее определенная длина входных данных составляет 1024 токена, сторона кодера должна быть дополнена этим значением, что может привести к большому количеству вычислительных затрат.

Напротив, в PrefixLM входы и цели могут быть связаны напрямую, что облегчает эту проблему.

Актуальность для сегодняшних моделей и ключевые выводы

Будь то с точки зрения архитектуры модели или с точки зрения предварительного обучения, чтобы стать компетентным исследователем и практиком LLM, необходима способность использовать индуктивную предвзятость для рассуждений. А понимание фундаментальных нюансов между различными архитектурами моделей может помочь в будущих инновациях.

И Тай поделился своими основными выводами:

Модели «кодер-декодер» и «только декодер» являются авторегрессионными моделями, но на уровне реализации существуют различия, каждая из которых имеет свои преимущества и недостатки. Их индуктивные смещения слегка различаются, и оптимальное использование действительно зависит от последующего варианта использования и значительных ограничений приложения. Для большинства приложений LLM и нишевых вариантов использования модели, использующие только кодировщики в стиле BERT, в большинстве случаев считаются устаревшими.
Цель шумоподавления в основном является дополнением к CLM. В качестве «вспомогательной цели» при предварительной тренировке она обычно приносит некоторую помощь. Хотя это часто случается с моделями кода (т. е. наполнение кодом), в современных моделях общего назначения нередко используется CLM с некоторой целью шумоподавления для предварительного обучения (хотя это не является обязательным требованием).
Механизмы двунаправленного внимания очень помогают в меньших масштабах, но часто являются лишь опцией для моделей более крупного масштаба. Йи Тай считает, что двунаправленное внимание имеет индуктивный уклон, как и многие другие типы модификаций в архитектуре Трансформера.

Наконец, подведем итог: мы не увидели никакого успешного масштабирования xBERT: модель BERT устарела в пользу более гибкой модели шумоподавления (авторегрессии) T5.

В основном это связано с унификацией парадигм, и все хотят использовать общие модели, а не модели для конкретных задач.

В то же время авторегрессионное шумоподавление иногда включается в CLM как второстепенная цель обучения.

об авторе

Йи Тай в настоящее время является соучредителем и главным научным сотрудником AI-стартапа Reka. Reka занимается созданием современных генеративных моделей и продвижением исследований в области искусственного интеллекта.

До этого он был старшим научным сотрудником в Google Brain, занимался LLM и работой, связанной с искусственным интеллектом, а также работал техническим директором американской исследовательской группы в Google Research, работая над расширениями и архитектурой Transformer.

Работая в Google, Йи Тай участвовал в выпуске примерно 20 продуктов.

Во время работы И Тая в качестве научного сотрудника в Google большинство его опубликованных работ было посвящено Transformer, особенно в отношении эффективности, масштабируемости и архитектурных исследований.

Помимо ведения блога, И Тай также любит классическую музыку. Он сказал: «Если бы я не стал исследователем, я бы, возможно, захотел стать профессиональным музыкантом». Интересно, что диплом по этому поводу он действительно получил.

Я с нетерпением жду, когда И Тай снова совершит дальний перелет, чтобы увидеть, как он снова обновляет свой блог.

Использованная литература:

https://x.com/YiTayML/status/1813262126162845772

Новости

Первая серия блогов бывшего ученого Google Йи Тая «История LLM»: Почему исчез BERT?

Введение

моя контактная информация