OpenAI Венг Ли предложил большую модель «внешних галлюцинаций»: подробное объяснение в десяти тысячах слов причин, по которым методы сопротивления вызывают галлюцинации...

2024-07-15

Западный ветер дует из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Иллюзия больших моделей также делится на внутреннюю и внешнюю——

Последний блог китайского ученого OpenAI Вен Ли предлагаетLLM внешняя галлюцинация(внешняя галлюцинация).

В отличие от контента, генерируемого референтной моделью, который не соответствует реальности, является фиктивным, непоследовательным или бессмысленным, Вен Ли определил проблему «иллюзии» LLM какВыходное содержимое модели является вымышленным и не основано на предоставленном контексте или мировых знаниях.。

Отсюда выделяют два типа галлюцинаций:

Контекстные галлюцинации: модельВывод должен соответствовать исходному контенту в контексте.(Когда возникает контекстная галлюцинация, вывод не соответствует исходному содержимому).
Внешняя иллюзия: выходные данные модели должны быть основаны на предварительно обученном наборе данных. Однако, учитывая размер набора данных перед обучением, извлечение и идентификация каждого сгенерированного конфликта является непомерно дорогостоящим.Если мы думаем о наборе данных перед обучением какмировые знания , затем, по сути, пытается гарантировать, что выходные данные модели являются фактическими и могут быть проверены на основе знаний о внешнем мире. Не менее важно,Когда модель не знает факта, она должна явно указать, что она не знает факта.

Ранее Вэн Ли также предложил формулу агента: агент = большая модель + память + активное планирование + использование инструментов, которую некоторые пользователи сети назвали «лучшей статьей об агенте, которую я когда-либо видел».

Этот блог об иллюзиях больших моделей тоже «тяжелая работа». Статья очень длинная, всего 24 ссылки:

Вэн Ли сосредоточился на внешних галлюцинациях и обсудил три вопроса: Какова причина галлюцинаций? Обнаружение галлюцинаций, методы борьбы с галлюцинациями.

Компания Qubits скомпилировала и систематизировала исходный текст, не меняя исходного значения.

Книга «Кубиты» переведена и переиздана с разрешения оригинального автора.

Оригинальный текст здесь:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

Что вызывает галлюцинации?

Учитывая, что стандартный развертываемый LLM необходимо предварительно обучить и настроить для согласования и улучшения, анализ причин начинается с этих двух этапов.

Проблема с данными перед тренировкой

Набор данных для предварительного обучения предназначен для представления всех доступных мировых знаний в письменной форме и поэтому огромен.

Удаление данных из общедоступного Интернета является наиболее распространенным вариантом, но это может привести к появлению устаревшей, отсутствующей или ошибочной информации. Поскольку модель может неправильно запомнить эту информацию просто за счет максимизации логарифмического правдоподобия, модель может допускать ошибки.

Отточить новые знания

Точная настройка предварительно обученного LLM посредством контролируемой тонкой настройки (SFT) и обучения с подкреплением с обратной связью от человека (RLHF) является распространенным методом улучшения определенных возможностей модели (например, отслеживания инструкций). Фаза тонкой настройки неизбежно привносит новые знания.

Хотя точная настройка обычно требует меньше вычислительных ресурсов,Вопрос о том, можно ли надежно получить новые знания путем точной настройки модели в небольших масштабах, остается под вопросом.。

В исследовании этого года Гехман и др. обсуждали вопрос о том, будет ли точная настройка LLM с учетом новых знаний способствовать возникновению галлюцинаций.

Они обнаружили, что LLM учится медленнее на точно подобранных примерах с новыми знаниями, чем на примерах, которые согласуются с уже существующими знаниями модели. Как только эти примеры с новыми знаниями выучены, склонность модели к галлюцинациям возрастает.

В частности, при наличии закрытого набора данных вопросов и ответов (т. е. EntityQuestions) = (,), Correct(,;,) определяется как оценка вероятности того, что модель M точно сгенерирует правильный ответ при использовании случайных примеров и определенном декодировании. подсказали с температурой, правильный ответ на вопрос.

Они разделили примеры на 4 категории в соответствии с различными условиями: Правильные(,;,): Известная группа (включая три подгруппы: HighlyKnown, MaybeKnown, WeakKnown) и Неизвестная группа.

Несколько интересных наблюдений из экспериментов, где точность набора разработчиков воспринимается как символический показатель иллюзии:

Неизвестная скорость установки значительно медленнее известной;
Наилучшая производительность достигается, когда LLM соответствует большинству известных примеров обучения, но лишь нескольким неизвестным примерам;
Когда выучено большинство неизвестных примеров, у модели начинаются галлюцинации.

Эти результаты Гехмана и др. указывают на риски использования контролируемой точной настройки для обновления знаний LLM.

Обнаружение галлюцинаций

Поиск расширенного оценивания

Для количественной оценки феномена галлюцинаций в модели Ли и др. представили новый набор контрольных данных в 2022 году.ФактичностьПодсказка, этот набор данных содержит фактические и нефактические подсказки, используя документы или предложения Википедии в качестве базовой фактической базы знаний.

Документы Википедии представляют собой истинную информацию из набора данных FEVER, а предложения выбираются через tf-idf или по сходству на основе встраивания предложений.

Были рассмотрены две метрики для оценки галлюцинаций с учетом продолжения модели и парного текста из Википедии:галлюцинация по имени сущности(СВ)Частота ошибок、Коэффициент вовлеченности(Коэффициенты вывода)。

Было обнаружено, что более высокие показатели ошибок NE и более низкие коэффициенты следствия указывают на более высокую фактичность. Оба показателя коррелируют с человеческими аннотациями, при этом более крупные модели работают лучше в этом тесте.

Кроме того, Мин и др. в 2023 г. предложили.ФактСкорость , разлагать создание длинных статей на несколько атомарных фактов и проверять каждый факт индивидуально по базам знаний, таким как Википедия. Затем можно измерить соотношение (точность) предложений, поддерживаемых источниками знаний, созданными каждой моделью, при этом FActScore представляет собой среднюю точность, генерируемую моделью по набору сигналов.

В этой статье были протестированы различные методы проверки фактов в задаче создания биографических данных и обнаружено, чтоИспользование извлечения обеспечивает лучшую согласованность, чем контекстно-свободный LLM. . В методах улучшения поиска выбор лучшей оценки зависит от модели.

Бесконтекстный LLM: напрямую используйте «True or False?» для запроса LLM без дополнительного контекста.
Поиск → LLM: подсказка с соответствующими отрывками, полученными из источников знаний в качестве контекста.
Непараметрическая вероятность (NP): рассчитайте среднюю вероятность тегов в атомарных фактах с помощью замаскированного LM и используйте ее для прогнозирования.
Поиск→LLM+NP: Интеграция двух методов

Несколько интересных наблюдений о галлюцинаторном поведении модели:

Редкие сущности имеют более высокий уровень ошибок в задачах по созданию биографии.
Факты, упомянутые позже в сгенерированном контенте, также имеют более высокий уровень ошибок.
Использование поиска в качестве основы для создания моделей может значительно помочь уменьшить явления галлюцинаций.

Вэй и др. в 2024 году также предложили метод оценки фактичности LLM, названныйБЕЗОПАСНЫЙ(Оценщик фактов с расширенным поиском)。

Основное отличие от FActScore состоит в том, что SAFE использует языковую модель в качестве агента.Итеративно выдавайте поисковые запросы Google посредством многоэтапного процесса.и рассуждать о том, подтверждают или не подтверждают результаты поиска этот факт.

На каждом этапе агент генерирует поисковый запрос на основе проверяемых фактов и ранее полученных результатов поиска. После нескольких шагов модель выполняет вывод, чтобы определить, подтверждается ли этот факт результатами поиска.

Согласно экспериментам,Хотя метод SAFE стоит в 20 раз дешевле, чем аннотации, выполняемые человеком, он работает лучше, чем аннотации, выполняемые человеком.: Уровень согласия с людьми составил 72%, а уровень превосходства людей в несогласии составил 76%.

Индекс оценки SAFE — F1@K. Для длинных фактических ответов модели в идеале должны быть достигнуты как точность, так и полнота, поскольку ответ должен одновременно удовлетворять:

фактический: измеряется точностью, которая представляет собой процент подтвержденных фактов во всем ответе.
длинный : Измеряется по отзыву, который представляет собой процент предоставленных фактов от всех соответствующих фактов, которые должны появиться в ответе. Поэтому учитывается максимальное количество подтвержденных фактов.

Учитывая реакцию модели, метрика F1@K определяется как:

Кроме того, Chern et al. 2023 предложили рабочий процесс проверки фактов, соответствующий стандартам.FacTool . Он предназначен для обнаружения фактических ошибок в различных задачах, включая ответы на вопросы, основанные на знаниях, генерацию кода, решение математических задач и обзор научной литературы. Шаги включают в себя:

Извлечение претензий: извлеките все поддающиеся проверке претензии, запросив LLM.
Генерация запросов. Преобразуйте каждый оператор в серию запросов, подходящих для внешних инструментов, таких как запросы поисковых систем, примеры модульного тестирования, фрагменты кода и названия статей.
Инструментальный запрос и сбор доказательств. Запрашивайте внешние инструменты, такие как поисковые системы, интерпретаторы кода и Google Scholar, и получайте возвращаемые результаты.
Проверка непротиворечивости: каждому утверждению присваивается двоичная фактическая метка в зависимости от степени доказательной поддержки, предоставленной внешними инструментами.

Обнаружение на основе выборки

Манакул и др. в 2023 году предложили проверку согласованности, основанную на нескольких образцах из LLM «черного ящика».SelfCheckGPT, для выявления фактических ошибок.

Учитывая, что для измерений по «серому ящику» требуется доступ к лог-пробу уровня токена LLM, SelfCheckGPT.Просто используйте примеры, которые не полагаются на внешние базы знаний, поэтому достаточно доступа к «черному ящику»., никакая внешняя база знаний не требуется.

Этот метод использует различные метрики для измерения согласованности между ответом модели и другими случайными выборками модели, включая BERTScore, NLI, подсказки (с вопросом «да/нет») и т. д. SelfCheckGPT с использованием подсказок, по-видимому, лучше всего работает при проведении экспериментальных проверок отрывков WikiBio, сгенерированных GPT-3.

Калибровка неизвестных знаний

Если попросить модель дать ответы на вопросы, на которые нет ответа или неизвестны, это может вызвать галлюцинации.TruthfulQA(Лин и др., 2021) иСамоосознание(Yin et al., 2023) — это два критерия, которые измеряют способность модели генерировать реалистичные ответы в таких ситуациях: первый построен состязательно, чтобы подчеркнуть человеческую ошибку, а второй включает вопросы, на которые нет ответа.

Столкнувшись с этими проблемами,Модель должна отказаться отвечать или предоставлять соответствующую информацию.。

В TruthfulQA тестовые вопросы составлены состязательно на основе распространенных человеческих недоразумений или ошибок. Тест содержит 817 вопросов, охватывающих 38 тем, включая здравоохранение, право, финансы и политику.

При тестировании лучший LLM достиг точности 58%, тогда как люди могли достичь точности 94%. Исследовательская группа обнаружила, чтоИз-за распространенного заблуждения более крупные модели менее реалистичны, но эта тенденция не отражена в других стандартах.(неконфронтационное)фактическая основа。

Вот пример неправильного ответа GPT-3 на TruthfulQA:

Инь и др. 2023 г. изучали.СамоосознаниеПонятие , относится к тому, знают ли языковые модели то, что они знают, или не знают.

SelfAware содержит 1032 вопроса, на которые нет ответа, и 2337 вопросов, на которые можно ответить, в пяти категориях. Вопросы, на которые нет ответа, берутся с онлайн-форумов с человеческими аннотациями, а вопросы, на которые можно ответить, — с SQuAD, HotpotQA и TriviaQA.

Вопрос может оставаться без ответа по разным причинам, например, отсутствие научного консенсуса, воображение будущего, полная субъективность, философские причины, которые могут вызвать множественные ответы и т. д.

В исследовании различение вопросов, на которые можно ответить и на которые нет ответа, рассматривается как задача двоичной классификации, и для оценки эффективности модели используется показатель F1 или точность. Эксперименты показывают, что более крупные модели лучше справляются с этой задачей.

Другой способ оценить, насколько хорошо модель понимает неизвестные знания, — это измерить неопределенность выходных данных модели. Когда проблема лежит между известным и неизвестным, модель должна демонстрировать правильный уровень достоверности.

Эксперимент Кадавата и др., проведенный в 2022 году, показал, что в различных многомерных вариантах ответа с видимыми буквамиВыбор темыформатах (MMLU, TruthfulQA, QuALITY, LogiQA), LLM хорошо оценивает вероятность того, что ответ правильный, а это означает, что прогнозируемая вероятность соответствует тому, как часто этот ответ оказывается верным.

Точная настройка RLHF приводит к ухудшению калибровки модели, но более высокие температуры отбора проб приводят к лучшим результатам калибровки.

Лин и др. предложили в 2022 г.КалиброваннаяМатематика Миссический комплект. CalibrateMath — это набор программно создаваемых математических задач с различными уровнями сложности, которые проверяют калибровку вероятностей выходных данных модели.

На каждый вопрос модель должна предоставить числовой ответ и уверенность в этом ответе. Рассматриваются три типа вероятностей:

Буквальное число или слово (например, «самый низкий», «низкий», «средний», «высокий», «самый высокий»), например «Доверие: 60 %/Умеренный».
Нормализованная логарифмическая вероятность токена ответа. Обратите внимание, что этот параметр не использовался в экспериментах по точной настройке.
Logprob для косвенного флага «True/False» после исходного ответа. Эксперименты направлены на калибровку обобщения при изменении распределения сложности или содержания задачи. Каждая точка данных точной настройки представляет собой вопрос, ответ модели (который может быть неправильным) и достоверность калибровки. В обоих случаях текстовые вероятности хорошо обобщались, и все настройки хорошо выполнялись при выполнении задач умножения и деления. С точки зрения достоверности прогноза модели, модель с несколькими выстрелами слабее, чем модель с точной настройкой. Будет полезно включить больше примеров: 50-зарядная версия почти так же хороша, как и доработанная версия.

косвенный запрос

Агравал и др. (2023) специально изучали случаи галлюцинаторных цитат при генерации LLM, включая вымышленные названия книг, статей и статей. Они использовали два метода, основанных на согласованности, для обнаружения галлюцинаций, а именно прямой запрос и косвенный запрос. Оба метода запускают проверку несколько раз, когда T > 0, и проверяют согласованность.

Прямые запросы требуют, чтобы модель определила, существует ли сгенерированный справочный материал, тогда как косвенные запросы требуют вспомогательных сведений, таких какКто автор ссылки?。

Гипотеза состоит в том, что для галлюцинаторной ссылки последовательность генерации одного и того же автора несколько раз меньше, чем вероятность того, что множественные ответы на прямой запрос выявят наличие ссылки.

Эксперименты показывают, чтоМетоды косвенных запросов работают лучше, более крупные модели более эффективны и меньше галлюцинаций.。

Способы борьбы с галлюцинациями

Далее мы рассмотрим набор методов повышения достоверности ответов LLM, включая извлечение из внешних баз знаний, специальные методы выборки и точную настройку согласования. Некоторые методы интерпретации, позволяющие уменьшить галлюцинации посредством редактирования нейронов, здесь не обсуждаются.

RAG → Монтаж и атрибуция

RAG (Поисковая расширенная генерация) — это очень распространенный метод предоставления базовой информации путем извлечения соответствующих документов и их последующего создания с использованием дополнительных соответствующих документов в качестве контекста.

РАРР(Модернизация атрибуции с использованием исследований и редакций) — это концепция, предложенная Гао и др. в 2022 году, которая позволяет LLM задним числом поддерживать атрибуцию внешних доказательств посредством редакционной атрибуции.

Учитывая текст, сгенерированный моделью, RARR обрабатывает его в два этапа, выдавая исправленный текст и отчет об атрибуции:

1. Этап исследования: Найдите соответствующие документы в качестве доказательств.

Модель генерации запросов сначала используется (с помощью подсказок из нескольких фрагментов, →1,…, ) для построения набора поисковых запросов 1,… для проверки различных аспектов каждого предложения.
Запуск поиска Google, каждый запрос = 5 результатов.
Для присвоения оценок релевантности используется предварительно обученная модель релевантности запроса и документа, и для каждого запроса сохраняется только один наиболее релевантный = 1 документ 1,….

2. Этап пересмотра: отредактируйте выходные данные, чтобы исправить контент, который не подтверждается доказательствами, сохраняя при этом как можно большую часть исходного контента.Инициализировать исправленный текст =.

Согласно (,), модель протокола (посредством нескольких подсказок + CoT, (,,) → 0,1) проверяет, не согласуются ли доказательства с текущим пересмотренным текстом.

Только при обнаружении несоответствия модель редактирования (с помощью нескольких подсказок + CoT, (,,)→ new ) выводит новую версию, предназначенную для минимального изменения одновременно с доказательствами.

Наконец, в отчет об атрибуции включается лишь ограниченное количество =5 доказательств.

При оценке пересмотренного текста важны как атрибуция, так и удержание.

При атрибуции используется показатель AIS (приписывается идентифицированному источнику), чтобы определить, какая часть контента может быть атрибуирована. Можно собирать человеческие аннотации или использовать модели NLI для аппроксимации автоматической оценки AIS.

Под сохранностью понимается степень сохранения исходного текста, измеряемая как Previntent × PrevLev, где Previntent требует ручных аннотаций, а PrevLev основан на расстоянии редактирования Левенштейна на уровне символов. По сравнению с двумя базовыми показателями RARR приводит к более сбалансированным результатам, особенно с точки зрения показателей удержания.

Аналогично RARR с использованием поиска+редактирования, предложенному Мишрой и др., 2024 г.ФАВА (Проверка фактов с использованием расширенных знаний) также извлекает соответствующую документацию, а затем редактирует выходные данные модели, чтобы избежать иллюзорных ошибок. Модель FAVA состоит из ретривера и редактора.

Учитывая подсказку и выходные данные модели, извлеките наиболее релевантные документы:

Редактор генерирует расширенный вывод:

RARR не требует обучения, а вот редактирование модели редактора в FAVA требует тонкой настройки. Более подробно классифицируя различные типы ошибок галлюцинаций, можно генерировать синтетические данные обучения для отредактированных моделей, вставляя случайные ошибки в генерацию модели.

Каждый пример представляет собой тройку (,,∗), где — исходный отрывок из Википедии в качестве золотого контекста, — вывод LM с ошибками, а * — вывод с метками ошибок и правильными изменениями.

Предложено He et al. в 2022 г.РРПодход (переосмысление с поиском) также основан на извлечении соответствующих внешних знаний, но не предполагает дополнительного редактирования.

Вместо использования модели генерации поисковых запросов извлечение RR основано на разложенных подсказках CoT.

Учитывая входную подсказку, RR использует подсказки CoT для создания нескольких путей вывода 1,…, при температуре > 0, где каждый путь вывода содержит объяснение (т. е. часть вывода), за которым следует прогноз (т. е. фактический результат модели). . Извлеките внешние знания 1,… для подтверждения каждого объяснения. Затем выбирается наиболее верный ответ по степени соответствия полученным знаниям 1,…,.

поиск знаний: В экспериментах RR применяется разреженный поиск BM25 для поиска в Википедии с последующим повторным ранжированием путем внедрения косинусного сходства, обеспечиваемого предварительно обученной моделью MPNet.
Оценка верности : Точность каждого пути вывода оценивается комбинацией оценки следствия, оценки противоречий и сходства MPNet. И оценка следствия, и оценка противоречия предоставляются предварительно обученной моделью NLI.

Самостоятельно-RAG(Asai et al., 2024) комплексно обучает языковую модель, чтобы она научилась размышлять над собственной продукцией, выводя результаты задач и периодические специальные маркеры отражения.

Исследовательская группа создала контролируемый набор данных для оценки и создания моделей, используя GPT-4, а затем превратила его во внутреннюю модель, чтобы снизить стоимость вывода.

Учитывая приглашение ввода, сгенерированный вывод состоит из нескольких частей (например, сегмент — это предложение). Существует четыре типа маркеров отражения: один для поиска и три для оценки:

Получить: определяет, следует ли параллельно выполнять поиск для получения набора выходных значений: {да, нет, продолжить}.
IsRel: определяет, соответствует ли запрос полученному документу, выходное значение: {релевантно, нерелевантно};
IsSup: Определите, поддерживается ли выходной текст; выходное значение: {полностью поддерживается, частично поддерживается, нет поддержки}.
IsUse: определяет, является ли выходной текст полезным, выходное значение: {5, 4, 3, 2, 1}.

Self-RAG генерирует по одному сегменту за раз. На основе данного и предыдущего поколения < модель декодирует токен получения:

Если Получить==нет, генерировать напрямую;
Если Retieve==yes, модель параллельно извлекает несколько абзацев и использует токен IsRel для проверки релевантности полученных документов. Если необходимо, сгенерируйте и используйте другие жетоны рейтинга для оценки, ранжирования и выбора лучшего результата среди нескольких результатов.

цепочка действий

Без внешних знаний поиска можно спроектироватьИспользуйте саму модель для проверки и пересмотра.процесс уменьшения галлюцинаций.

Дулиавала и др. предложили метод проверки планирования и выполнения на основе цепочек действий в 2023 году, названный.Цепочка проверки (КоВе). CoVe состоит из четырех основных этапов:

базовый ответ: модель генерирует первоначальный проект ответа, называемый «базовым планом».
Проверка планирования: На основе этого необработанного поколения модель разрабатывает нешаблонные проверочные вопросы для проверки фактов; этого можно достичь с помощью небольшого количества примеров подсказок (ответов на проверочные вопросы).
Выполнить проверку : Модель самостоятельно отвечает на эти вопросы. Существует несколько вариантов установки:

1) Объединение: в сочетании с шагом 2, где структура примера состоит из нескольких кадров (ответ, проверочный вопрос, проверочный ответ), недостатком является то, что исходный ответ находится в контексте, и модель может повторять аналогичные иллюзии.

2) Двухэтапный подход: разделите этапы планирования и выполнения проверки, если это не влияет на первоначальный ответ.

3) Декомпозиция: Ответьте на каждый проверочный вопрос отдельно. Например, если при сборке длинной базы возникает несколько вопросов проверки, на каждый вопрос будет дан ответ один за другим.

4) Декомпозиция + пересмотр: добавьте этап «перекрестной проверки» после выполнения проверки декомпозиции, чтобы кондиционировать и обнаруживать несоответствия на основе базовых ответов, а также проверочных вопросов и ответов.

конечный результат : Создать окончательный, уточненный результат. Если обнаружены какие-либо несоответствия, на этом этапе выходные данные изменяются.

CoVe разработан таким образом, потому что использование длинной цепочки проверки может привести к повторным галлюцинациям, поскольку первоначальная галлюцинирующая реакция все еще находится в контексте и к ней можно уделять внимание во время процессов новой генерации, в то время какБыло обнаружено, что индивидуальный ответ на каждый проверочный вопрос приводит к лучшим результатам, чем создание длинных форм.。

Вот несколько интересных наблюдений из экспериментов CoVe:

Корректировки команд и CoT не уменьшили галлюцинации.
Декомпозиция и двухэтапный CoVe повышают производительность, а дальнейшее четкое обоснование обнаружения несоответствий также помогает (подход «декомпозиция + пересмотр»).
Короткие проверочные вопросы вызвали более точные ответы, чем длинные вопросы.
LLM в свободной форме генерирует проверочные вопросы лучше, чем эвристические вопросы (например, ответил ли X на вопрос?), а вопросы, требующие открытой генерации, лучше, чем вопросы «да/нет».

Кроме того, Сан и др. предложили в 2023 г.ЧИТАТЬМетод основан на повторении как промежуточном этапе для повышения фактической правильности построения модели и уменьшения галлюцинаций.

Мотивация состоит в том, чтобы использовать память Трансформера в качестве модели поиска информации. В схеме пересказа и ответа RECITE LLM сначала просят пересказать соответствующую информацию, а затем генерирует выходные данные.

В частности, можно использовать несколько контекстных подсказок, чтобы научить модель перефразировать, а затем генерировать ответы на основе перефразирования. Кроме того, его можно комбинировать с методами самосогласованного ансамбля, которые используют несколько выборок, и расширять для поддержки ответов на вопросы с несколькими переходами.

Сгенерированные парафразы сопоставимы с поисковой моделью на основе BM25, но в обеих есть пробелы при использовании реальных отрывков. Согласно анализу ошибок, проведенному исследовательской группой, около 7–10% вопросов были произнесены правильно, но не смогли дать правильного ответа, около 12% вопросов были произнесены неправильно, но на них все равно можно было ответить правильно;

Метод выборки

Ли и др. в 2022 году обнаружили, что выборка ядра (верхняя выборка) работает хуже, чем жадная выборка в тесте FactorityPrompt, хотя выборка ядра добавляет дополнительную случайность, обеспечивая лучшее разнообразие и меньшее повторение.

Поэтому они предложили основанный на гипотезах алгоритм выборки ядра факта,Эта гипотеза утверждает, что случайность выборки оказывает большее влияние на фактичность второй половины предложения, чем начало предложения. . Основная выборка фактов направлена на динамическую корректировку вероятности выборки слов в каждом предложении. Для th токена в предложении существует =max(,⋅−1), который используется для предотвращения возврата выборки к жадной выборке, которая ухудшает качество генерации и разнообразие.

Ли и др. предложили в 2023 г.Вмешательство во время вывода(ITI) исследует, являются ли определенные головы внимания более соответствующими фактам, путем линейного исследования активаций на каждом уровне, чтобы отличить реальные результаты от ложных.

Они обнаружили, что для многих голов внимания детектор работал не лучше, чем случайный выбор, в то время как некоторые показали хорошие результаты. После идентификации группы редких голов внимания с высокой точностью линейного обнаружения аутентичности ITI будет корректировать активацию выбранных сверху голов внимания вдоль «реального» направления во время вывода.

Фактическая точная настройка

Ли и др. в 2022 году предложили две идеи обучения с подкреплением:

Представляем TopicPrefix для лучшего понимания фактов: добавляйте тему (т. е. заголовок документа Википедии) перед каждым предложением документа.
Возьмите потерю завершения предложения в качестве цели обучения: обновите потерю обучения, чтобы сосредоточиться на второй половине предложения, предполагая, что вторая половина предложения содержит больше фактических знаний. Реализация очень проста: выберите точку поворота и примените нулевую маску ко всем токенам перед первым токеном. В своих экспериментах оптимальная точка поворота была выбрана равной 0,5 длины предложения.

Лин и др. предложили в 2024 году провести тренинг по согласованию SFT + RLHF, ориентированный на факты, названные.ПЛАМЯ。

Этап SFT (SFT с учетом фактов): цель состоит в том, чтобы создать обучающие данные, которые являются более фактическими, чем сама модель (измеряется с помощью FActScore).
Этап RLHF (DPO с учетом фактов): два метода были протестированы: метод 1 работал плохо, а метод 2 работал нормально, вероятно, потому, что метод 1 пытался внедрить новые знания в модель без достаточного обучения.

Как упоминалось ранее, есть некоторые свидетельства того, что точная настройка новых знаний может вызвать галлюцинации, а надзор RAG содержит информацию, неизвестную LLM.

Метод 1. Используйте образцы данных RAG в качестве положительных образцов, а исходную модель модели — в качестве отрицательных образцов в качестве данных RM.

Метод 2. Используйте FActScore в качестве фактического сигнала вознаграждения.

Чтобы избежать случайного включения неизвестных знаний в модель во время обучения выравниванию, они предлагают использовать ответы, сгенерированные моделью, для построения набора данных SFT/DPO.

Предложено Tian&Mitchell et al. в 2024 г.Настройка фактов Также полагается на точную настройку языковых моделей для улучшения фактологического соответствия. Они экспериментировали с различными методами, чтобы оценить достоверность атомарных утверждений в каждом образце модели, а затем запустили DPO.

Фактический процесс корректировки:

1. Пары примеров завершения модели для заданного набора подсказок (например, «Напишите биографию Йо-Йо Ма»)

2. Отметьте его подлинность двумя способами, не требующими ручного вмешательства:

На основе ссылок: проверяет, поддерживается ли утверждение модели внешней базой знаний, аналогично разделу оценки галлюцинаций на основе поиска, приведенному выше. (а) извлечь серию атомарных объявлений; (б) найти ссылки в Википедии; (в) использовать тонко настроенную небольшую модель NLI, чтобы проверить, поддерживает ли ссылочный текст атомарные объявления.

Не на основе ссылок: использует собственную уверенность модели в качестве символа ее подлинности, аналогично методам косвенного запроса. (а) преобразовать каждое утверждение в соответствующий вопрос/требуется тщательное перефразирование, чтобы вопрос был ясен; (б) несколько раз выполнить выборку из модели, чтобы ответить на вопрос; (в) рассчитать совокупный балл/использовать; символы Сопоставление строк или запрос GPT определить, являются ли два ответа семантически эквивалентными.

3. Создайте набор обучающих данных, создав несколько выборок из модели и назначив предпочтения на основе оценок аутентичности. Затем используйте DPO для точной настройки модели в этом наборе данных.

Тонкая настройка атрибуции

Атрибуция атрибуции — хороший способ уменьшить иллюзии при создании выходных данных модели, которые зависят от результатов поиска. Проводится большая работа, направленная на обучение LLM более эффективному использованию извлеченного контента и назначению высококачественной атрибуции.

Предложено Накано и др. в 2022 г.WebGPT, сочетает в себе веб-поиск для поиска документов с точно настроенными моделями GPT, предназначенными для ответа на длинные вопросы, чтобы уменьшить галлюцинации и повысить точность фактов.

Модель взаимодействует с поиском в Интернете в текстовом веб-браузере и учится цитировать веб-страницы, чтобы отвечать на вопросы. Пока модель просматривает страницу, она может выполнить одно действие — сослаться на отрывок из текущей страницы. При этом заголовок страницы, имя домена и отрывок записываются для дальнейшего использования.Суть WebGPT – использование справочных материалов, помогающих людям оценить фактическую правильность.。

Впервые модель подверглась контролируемой тонкой настройке для поведенческого клонирования на демонстрации людей, использующих среду просмотра веб-страниц для ответа на вопросы.

Сравнительные данные собираются между двумя ответами на один и тот же вопрос, сгенерированными моделью, каждый из которых имеет свой собственный эталонный набор, где ответы оцениваются по их фактической точности, согласованности и общей полезности. Модели вознаграждения используются для обучения RL и выборки «лучший из n» для отклонения. Напротив, RL имеет ограниченный эффект, а когда используется отбраковочная выборка, эффект еще более ограничен.

Меник и др. предложили в 2022 г.GopherCite , очень похож на WebGPT в использовании поисковых систем для создания вспомогательных материалов и обучения моделей предоставлению справочных материалов. Оба выполняют контролируемую точную настройку наведения и оба применяют обучение RLHF.

В отличие от WebGPT, который поведенческого клонирования опирается на человеческие демонстрации, GopherCiteСоздайте демо-версию с помощью подсказок, состоящих из нескольких кадров., и каждое поколение заполняется контекстом из соответствующих документов, а затем используется модель вознаграждения, чтобы определить, какие из них являются лучшими.

Еще один способ избежать некачественных ответов — настроить модель на отклонение ответов с использованием стандартного ответа «Я не знаю», который определяется глобальным порогом RM, называемым выборочным прогнозированием.

Эмпирические результаты RL аналогичны результатам WebGPT, то есть RL приносит лишь ограниченное улучшение или не дает никаких улучшений в сочетании с отбраковочной выборкой.

Кто такой Вен Ли?

Вен Ли — китайский учёный из OpenAI и один из авторов ChatGPT. Он окончил Пекинский университет.

Она отвечает за исследования приложений OpenAI в области искусственного интеллекта. Она присоединилась к OpenAI в 2018 году и в основном занимается предварительным обучением, обучением с подкреплением и согласованием, а также безопасностью моделей в проекте GPT-4.

В консультативной группе по безопасности, созданной OpenAI в конце прошлого года, она возглавляет команду систем безопасности, занимающуюся решением таких проблем, как сокращение злоупотреблений существующими моделями, такими как ChatGPT.

Новости

Что вызывает галлюцинации?

Обнаружение галлюцинаций

Способы борьбы с галлюцинациями

Кто такой Вен Ли?

Введение

моя контактная информация