моя контактная информация
Почтамезофия@protonmail.com
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Западный ветер дует из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Иллюзия больших моделей также делится на внутреннюю и внешнюю——
Последний блог китайского ученого OpenAI Вен Ли предлагаетLLM внешняя галлюцинация(внешняя галлюцинация).
В отличие от контента, генерируемого референтной моделью, который не соответствует реальности, является фиктивным, непоследовательным или бессмысленным, Вен Ли определил проблему «иллюзии» LLM какВыходное содержимое модели является вымышленным и не основано на предоставленном контексте или мировых знаниях.。
Отсюда выделяют два типа галлюцинаций:
Ранее Вэн Ли также предложил формулу агента: агент = большая модель + память + активное планирование + использование инструментов, которую некоторые пользователи сети назвали «лучшей статьей об агенте, которую я когда-либо видел».
Этот блог об иллюзиях больших моделей тоже «тяжелая работа». Статья очень длинная, всего 24 ссылки:
Вэн Ли сосредоточился на внешних галлюцинациях и обсудил три вопроса: Какова причина галлюцинаций? Обнаружение галлюцинаций, методы борьбы с галлюцинациями.
Компания Qubits скомпилировала и систематизировала исходный текст, не меняя исходного значения.
Книга «Кубиты» переведена и переиздана с разрешения оригинального автора.
Оригинальный текст здесь:
https://lilianweng.github.io/posts/2024-07-07-hallucination/
Учитывая, что стандартный развертываемый LLM необходимо предварительно обучить и настроить для согласования и улучшения, анализ причин начинается с этих двух этапов.
Проблема с данными перед тренировкой
Набор данных для предварительного обучения предназначен для представления всех доступных мировых знаний в письменной форме и поэтому огромен.
Удаление данных из общедоступного Интернета является наиболее распространенным вариантом, но это может привести к появлению устаревшей, отсутствующей или ошибочной информации. Поскольку модель может неправильно запомнить эту информацию просто за счет максимизации логарифмического правдоподобия, модель может допускать ошибки.
Отточить новые знания
Точная настройка предварительно обученного LLM посредством контролируемой тонкой настройки (SFT) и обучения с подкреплением с обратной связью от человека (RLHF) является распространенным методом улучшения определенных возможностей модели (например, отслеживания инструкций). Фаза тонкой настройки неизбежно привносит новые знания.
Хотя точная настройка обычно требует меньше вычислительных ресурсов,Вопрос о том, можно ли надежно получить новые знания путем точной настройки модели в небольших масштабах, остается под вопросом.。
В исследовании этого года Гехман и др. обсуждали вопрос о том, будет ли точная настройка LLM с учетом новых знаний способствовать возникновению галлюцинаций.
Они обнаружили, что LLM учится медленнее на точно подобранных примерах с новыми знаниями, чем на примерах, которые согласуются с уже существующими знаниями модели. Как только эти примеры с новыми знаниями выучены, склонность модели к галлюцинациям возрастает.
В частности, при наличии закрытого набора данных вопросов и ответов (т. е. EntityQuestions) = (,), Correct(,;,) определяется как оценка вероятности того, что модель M точно сгенерирует правильный ответ при использовании случайных примеров и определенном декодировании. подсказали с температурой, правильный ответ на вопрос.
Они разделили примеры на 4 категории в соответствии с различными условиями: Правильные(,;,): Известная группа (включая три подгруппы: HighlyKnown, MaybeKnown, WeakKnown) и Неизвестная группа.
Несколько интересных наблюдений из экспериментов, где точность набора разработчиков воспринимается как символический показатель иллюзии:
Эти результаты Гехмана и др. указывают на риски использования контролируемой точной настройки для обновления знаний LLM.
Поиск расширенного оценивания
Для количественной оценки феномена галлюцинаций в модели Ли и др. представили новый набор контрольных данных в 2022 году.ФактичностьПодсказка, этот набор данных содержит фактические и нефактические подсказки, используя документы или предложения Википедии в качестве базовой фактической базы знаний.
Документы Википедии представляют собой истинную информацию из набора данных FEVER, а предложения выбираются через tf-idf или по сходству на основе встраивания предложений.
Были рассмотрены две метрики для оценки галлюцинаций с учетом продолжения модели и парного текста из Википедии:галлюцинация по имени сущности(СВ)Частота ошибок、Коэффициент вовлеченности(Коэффициенты вывода)。
Было обнаружено, что более высокие показатели ошибок NE и более низкие коэффициенты следствия указывают на более высокую фактичность. Оба показателя коррелируют с человеческими аннотациями, при этом более крупные модели работают лучше в этом тесте.
Кроме того, Мин и др. в 2023 г. предложили.ФактСкорость , разлагать создание длинных статей на несколько атомарных фактов и проверять каждый факт индивидуально по базам знаний, таким как Википедия. Затем можно измерить соотношение (точность) предложений, поддерживаемых источниками знаний, созданными каждой моделью, при этом FActScore представляет собой среднюю точность, генерируемую моделью по набору сигналов.
В этой статье были протестированы различные методы проверки фактов в задаче создания биографических данных и обнаружено, чтоИспользование извлечения обеспечивает лучшую согласованность, чем контекстно-свободный LLM. . В методах улучшения поиска выбор лучшей оценки зависит от модели.
Несколько интересных наблюдений о галлюцинаторном поведении модели:
Вэй и др. в 2024 году также предложили метод оценки фактичности LLM, названныйБЕЗОПАСНЫЙ(Оценщик фактов с расширенным поиском)。
Основное отличие от FActScore состоит в том, что SAFE использует языковую модель в качестве агента.Итеративно выдавайте поисковые запросы Google посредством многоэтапного процесса.и рассуждать о том, подтверждают или не подтверждают результаты поиска этот факт.
На каждом этапе агент генерирует поисковый запрос на основе проверяемых фактов и ранее полученных результатов поиска. После нескольких шагов модель выполняет вывод, чтобы определить, подтверждается ли этот факт результатами поиска.
Согласно экспериментам,Хотя метод SAFE стоит в 20 раз дешевле, чем аннотации, выполняемые человеком, он работает лучше, чем аннотации, выполняемые человеком.: Уровень согласия с людьми составил 72%, а уровень превосходства людей в несогласии составил 76%.
Индекс оценки SAFE — F1@K. Для длинных фактических ответов модели в идеале должны быть достигнуты как точность, так и полнота, поскольку ответ должен одновременно удовлетворять:
Учитывая реакцию модели, метрика F1@K определяется как:
Кроме того, Chern et al. 2023 предложили рабочий процесс проверки фактов, соответствующий стандартам.FacTool . Он предназначен для обнаружения фактических ошибок в различных задачах, включая ответы на вопросы, основанные на знаниях, генерацию кода, решение математических задач и обзор научной литературы. Шаги включают в себя:
Обнаружение на основе выборки
Манакул и др. в 2023 году предложили проверку согласованности, основанную на нескольких образцах из LLM «черного ящика».SelfCheckGPT, для выявления фактических ошибок.
Учитывая, что для измерений по «серому ящику» требуется доступ к лог-пробу уровня токена LLM, SelfCheckGPT.Просто используйте примеры, которые не полагаются на внешние базы знаний, поэтому достаточно доступа к «черному ящику»., никакая внешняя база знаний не требуется.
Этот метод использует различные метрики для измерения согласованности между ответом модели и другими случайными выборками модели, включая BERTScore, NLI, подсказки (с вопросом «да/нет») и т. д. SelfCheckGPT с использованием подсказок, по-видимому, лучше всего работает при проведении экспериментальных проверок отрывков WikiBio, сгенерированных GPT-3.
Калибровка неизвестных знаний
Если попросить модель дать ответы на вопросы, на которые нет ответа или неизвестны, это может вызвать галлюцинации.TruthfulQA(Лин и др., 2021) иСамоосознание(Yin et al., 2023) — это два критерия, которые измеряют способность модели генерировать реалистичные ответы в таких ситуациях: первый построен состязательно, чтобы подчеркнуть человеческую ошибку, а второй включает вопросы, на которые нет ответа.
Столкнувшись с этими проблемами,Модель должна отказаться отвечать или предоставлять соответствующую информацию.。
В TruthfulQA тестовые вопросы составлены состязательно на основе распространенных человеческих недоразумений или ошибок. Тест содержит 817 вопросов, охватывающих 38 тем, включая здравоохранение, право, финансы и политику.
При тестировании лучший LLM достиг точности 58%, тогда как люди могли достичь точности 94%. Исследовательская группа обнаружила, чтоИз-за распространенного заблуждения более крупные модели менее реалистичны, но эта тенденция не отражена в других стандартах.(неконфронтационное)фактическая основа。
Вот пример неправильного ответа GPT-3 на TruthfulQA:
Инь и др. 2023 г. изучали.СамоосознаниеПонятие , относится к тому, знают ли языковые модели то, что они знают, или не знают.
SelfAware содержит 1032 вопроса, на которые нет ответа, и 2337 вопросов, на которые можно ответить, в пяти категориях. Вопросы, на которые нет ответа, берутся с онлайн-форумов с человеческими аннотациями, а вопросы, на которые можно ответить, — с SQuAD, HotpotQA и TriviaQA.
Вопрос может оставаться без ответа по разным причинам, например, отсутствие научного консенсуса, воображение будущего, полная субъективность, философские причины, которые могут вызвать множественные ответы и т. д.
В исследовании различение вопросов, на которые можно ответить и на которые нет ответа, рассматривается как задача двоичной классификации, и для оценки эффективности модели используется показатель F1 или точность. Эксперименты показывают, что более крупные модели лучше справляются с этой задачей.
Другой способ оценить, насколько хорошо модель понимает неизвестные знания, — это измерить неопределенность выходных данных модели. Когда проблема лежит между известным и неизвестным, модель должна демонстрировать правильный уровень достоверности.
Эксперимент Кадавата и др., проведенный в 2022 году, показал, что в различных многомерных вариантах ответа с видимыми буквамиВыбор темыформатах (MMLU, TruthfulQA, QuALITY, LogiQA), LLM хорошо оценивает вероятность того, что ответ правильный, а это означает, что прогнозируемая вероятность соответствует тому, как часто этот ответ оказывается верным.
Точная настройка RLHF приводит к ухудшению калибровки модели, но более высокие температуры отбора проб приводят к лучшим результатам калибровки.
Лин и др. предложили в 2022 г.КалиброваннаяМатематика Миссический комплект. CalibrateMath — это набор программно создаваемых математических задач с различными уровнями сложности, которые проверяют калибровку вероятностей выходных данных модели.
На каждый вопрос модель должна предоставить числовой ответ и уверенность в этом ответе. Рассматриваются три типа вероятностей:
косвенный запрос
Агравал и др. (2023) специально изучали случаи галлюцинаторных цитат при генерации LLM, включая вымышленные названия книг, статей и статей. Они использовали два метода, основанных на согласованности, для обнаружения галлюцинаций, а именно прямой запрос и косвенный запрос. Оба метода запускают проверку несколько раз, когда T > 0, и проверяют согласованность.
Прямые запросы требуют, чтобы модель определила, существует ли сгенерированный справочный материал, тогда как косвенные запросы требуют вспомогательных сведений, таких какКто автор ссылки?。
Гипотеза состоит в том, что для галлюцинаторной ссылки последовательность генерации одного и того же автора несколько раз меньше, чем вероятность того, что множественные ответы на прямой запрос выявят наличие ссылки.
Эксперименты показывают, чтоМетоды косвенных запросов работают лучше, более крупные модели более эффективны и меньше галлюцинаций.。
Далее мы рассмотрим набор методов повышения достоверности ответов LLM, включая извлечение из внешних баз знаний, специальные методы выборки и точную настройку согласования. Некоторые методы интерпретации, позволяющие уменьшить галлюцинации посредством редактирования нейронов, здесь не обсуждаются.
RAG → Монтаж и атрибуция
RAG (Поисковая расширенная генерация) — это очень распространенный метод предоставления базовой информации путем извлечения соответствующих документов и их последующего создания с использованием дополнительных соответствующих документов в качестве контекста.
РАРР(Модернизация атрибуции с использованием исследований и редакций) — это концепция, предложенная Гао и др. в 2022 году, которая позволяет LLM задним числом поддерживать атрибуцию внешних доказательств посредством редакционной атрибуции.
Учитывая текст, сгенерированный моделью, RARR обрабатывает его в два этапа, выдавая исправленный текст и отчет об атрибуции:
1. Этап исследования: Найдите соответствующие документы в качестве доказательств.
Модель генерации запросов сначала используется (с помощью подсказок из нескольких фрагментов, →1,…, ) для построения набора поисковых запросов 1,… для проверки различных аспектов каждого предложения.
Запуск поиска Google, каждый запрос = 5 результатов.
Для присвоения оценок релевантности используется предварительно обученная модель релевантности запроса и документа, и для каждого запроса сохраняется только один наиболее релевантный = 1 документ 1,….
2. Этап пересмотра: отредактируйте выходные данные, чтобы исправить контент, который не подтверждается доказательствами, сохраняя при этом как можно большую часть исходного контента.Инициализировать исправленный текст =.
Согласно (,), модель протокола (посредством нескольких подсказок + CoT, (,,) → 0,1) проверяет, не согласуются ли доказательства с текущим пересмотренным текстом.
Только при обнаружении несоответствия модель редактирования (с помощью нескольких подсказок + CoT, (,,)→ new ) выводит новую версию, предназначенную для минимального изменения одновременно с доказательствами.
Наконец, в отчет об атрибуции включается лишь ограниченное количество =5 доказательств.
При оценке пересмотренного текста важны как атрибуция, так и удержание.
При атрибуции используется показатель AIS (приписывается идентифицированному источнику), чтобы определить, какая часть контента может быть атрибуирована. Можно собирать человеческие аннотации или использовать модели NLI для аппроксимации автоматической оценки AIS.
Под сохранностью понимается степень сохранения исходного текста, измеряемая как Previntent × PrevLev, где Previntent требует ручных аннотаций, а PrevLev основан на расстоянии редактирования Левенштейна на уровне символов. По сравнению с двумя базовыми показателями RARR приводит к более сбалансированным результатам, особенно с точки зрения показателей удержания.
Аналогично RARR с использованием поиска+редактирования, предложенному Мишрой и др., 2024 г.ФАВА (Проверка фактов с использованием расширенных знаний) также извлекает соответствующую документацию, а затем редактирует выходные данные модели, чтобы избежать иллюзорных ошибок. Модель FAVA состоит из ретривера и редактора.
Учитывая подсказку и выходные данные модели, извлеките наиболее релевантные документы:
Редактор генерирует расширенный вывод:
RARR не требует обучения, а вот редактирование модели редактора в FAVA требует тонкой настройки. Более подробно классифицируя различные типы ошибок галлюцинаций, можно генерировать синтетические данные обучения для отредактированных моделей, вставляя случайные ошибки в генерацию модели.
Каждый пример представляет собой тройку (,,∗), где — исходный отрывок из Википедии в качестве золотого контекста, — вывод LM с ошибками, а * — вывод с метками ошибок и правильными изменениями.
Предложено He et al. в 2022 г.РРПодход (переосмысление с поиском) также основан на извлечении соответствующих внешних знаний, но не предполагает дополнительного редактирования.
Вместо использования модели генерации поисковых запросов извлечение RR основано на разложенных подсказках CoT.
Учитывая входную подсказку, RR использует подсказки CoT для создания нескольких путей вывода 1,…, при температуре > 0, где каждый путь вывода содержит объяснение (т. е. часть вывода), за которым следует прогноз (т. е. фактический результат модели). . Извлеките внешние знания 1,… для подтверждения каждого объяснения. Затем выбирается наиболее верный ответ по степени соответствия полученным знаниям 1,…,.
Самостоятельно-RAG(Asai et al., 2024) комплексно обучает языковую модель, чтобы она научилась размышлять над собственной продукцией, выводя результаты задач и периодические специальные маркеры отражения.
Исследовательская группа создала контролируемый набор данных для оценки и создания моделей, используя GPT-4, а затем превратила его во внутреннюю модель, чтобы снизить стоимость вывода.
Учитывая приглашение ввода, сгенерированный вывод состоит из нескольких частей (например, сегмент — это предложение). Существует четыре типа маркеров отражения: один для поиска и три для оценки:
Self-RAG генерирует по одному сегменту за раз. На основе данного и предыдущего поколения < модель декодирует токен получения:
цепочка действий
Без внешних знаний поиска можно спроектироватьИспользуйте саму модель для проверки и пересмотра.процесс уменьшения галлюцинаций.
Дулиавала и др. предложили метод проверки планирования и выполнения на основе цепочек действий в 2023 году, названный.Цепочка проверки (КоВе). CoVe состоит из четырех основных этапов:
1) Объединение: в сочетании с шагом 2, где структура примера состоит из нескольких кадров (ответ, проверочный вопрос, проверочный ответ), недостатком является то, что исходный ответ находится в контексте, и модель может повторять аналогичные иллюзии.
2) Двухэтапный подход: разделите этапы планирования и выполнения проверки, если это не влияет на первоначальный ответ.
3) Декомпозиция: Ответьте на каждый проверочный вопрос отдельно. Например, если при сборке длинной базы возникает несколько вопросов проверки, на каждый вопрос будет дан ответ один за другим.
4) Декомпозиция + пересмотр: добавьте этап «перекрестной проверки» после выполнения проверки декомпозиции, чтобы кондиционировать и обнаруживать несоответствия на основе базовых ответов, а также проверочных вопросов и ответов.
CoVe разработан таким образом, потому что использование длинной цепочки проверки может привести к повторным галлюцинациям, поскольку первоначальная галлюцинирующая реакция все еще находится в контексте и к ней можно уделять внимание во время процессов новой генерации, в то время какБыло обнаружено, что индивидуальный ответ на каждый проверочный вопрос приводит к лучшим результатам, чем создание длинных форм.。
Вот несколько интересных наблюдений из экспериментов CoVe:
Кроме того, Сан и др. предложили в 2023 г.ЧИТАТЬМетод основан на повторении как промежуточном этапе для повышения фактической правильности построения модели и уменьшения галлюцинаций.
Мотивация состоит в том, чтобы использовать память Трансформера в качестве модели поиска информации. В схеме пересказа и ответа RECITE LLM сначала просят пересказать соответствующую информацию, а затем генерирует выходные данные.
В частности, можно использовать несколько контекстных подсказок, чтобы научить модель перефразировать, а затем генерировать ответы на основе перефразирования. Кроме того, его можно комбинировать с методами самосогласованного ансамбля, которые используют несколько выборок, и расширять для поддержки ответов на вопросы с несколькими переходами.
Сгенерированные парафразы сопоставимы с поисковой моделью на основе BM25, но в обеих есть пробелы при использовании реальных отрывков. Согласно анализу ошибок, проведенному исследовательской группой, около 7–10% вопросов были произнесены правильно, но не смогли дать правильного ответа, около 12% вопросов были произнесены неправильно, но на них все равно можно было ответить правильно;
Метод выборки
Ли и др. в 2022 году обнаружили, что выборка ядра (верхняя выборка) работает хуже, чем жадная выборка в тесте FactorityPrompt, хотя выборка ядра добавляет дополнительную случайность, обеспечивая лучшее разнообразие и меньшее повторение.
Поэтому они предложили основанный на гипотезах алгоритм выборки ядра факта,Эта гипотеза утверждает, что случайность выборки оказывает большее влияние на фактичность второй половины предложения, чем начало предложения. . Основная выборка фактов направлена на динамическую корректировку вероятности выборки слов в каждом предложении. Для th токена в предложении существует =max(,⋅−1), который используется для предотвращения возврата выборки к жадной выборке, которая ухудшает качество генерации и разнообразие.
Ли и др. предложили в 2023 г.Вмешательство во время вывода(ITI) исследует, являются ли определенные головы внимания более соответствующими фактам, путем линейного исследования активаций на каждом уровне, чтобы отличить реальные результаты от ложных.
Они обнаружили, что для многих голов внимания детектор работал не лучше, чем случайный выбор, в то время как некоторые показали хорошие результаты. После идентификации группы редких голов внимания с высокой точностью линейного обнаружения аутентичности ITI будет корректировать активацию выбранных сверху голов внимания вдоль «реального» направления во время вывода.
Фактическая точная настройка
Ли и др. в 2022 году предложили две идеи обучения с подкреплением:
Лин и др. предложили в 2024 году провести тренинг по согласованию SFT + RLHF, ориентированный на факты, названные.ПЛАМЯ。
Как упоминалось ранее, есть некоторые свидетельства того, что точная настройка новых знаний может вызвать галлюцинации, а надзор RAG содержит информацию, неизвестную LLM.
Метод 1. Используйте образцы данных RAG в качестве положительных образцов, а исходную модель модели — в качестве отрицательных образцов в качестве данных RM.
Метод 2. Используйте FActScore в качестве фактического сигнала вознаграждения.
Чтобы избежать случайного включения неизвестных знаний в модель во время обучения выравниванию, они предлагают использовать ответы, сгенерированные моделью, для построения набора данных SFT/DPO.
Предложено Tian&Mitchell et al. в 2024 г.Настройка фактов Также полагается на точную настройку языковых моделей для улучшения фактологического соответствия. Они экспериментировали с различными методами, чтобы оценить достоверность атомарных утверждений в каждом образце модели, а затем запустили DPO.
Фактический процесс корректировки:
1. Пары примеров завершения модели для заданного набора подсказок (например, «Напишите биографию Йо-Йо Ма»)
2. Отметьте его подлинность двумя способами, не требующими ручного вмешательства:
На основе ссылок: проверяет, поддерживается ли утверждение модели внешней базой знаний, аналогично разделу оценки галлюцинаций на основе поиска, приведенному выше. (а) извлечь серию атомарных объявлений; (б) найти ссылки в Википедии; (в) использовать тонко настроенную небольшую модель NLI, чтобы проверить, поддерживает ли ссылочный текст атомарные объявления.
Не на основе ссылок: использует собственную уверенность модели в качестве символа ее подлинности, аналогично методам косвенного запроса. (а) преобразовать каждое утверждение в соответствующий вопрос/требуется тщательное перефразирование, чтобы вопрос был ясен; (б) несколько раз выполнить выборку из модели, чтобы ответить на вопрос; (в) рассчитать совокупный балл/использовать; символы Сопоставление строк или запрос GPT определить, являются ли два ответа семантически эквивалентными.
3. Создайте набор обучающих данных, создав несколько выборок из модели и назначив предпочтения на основе оценок аутентичности. Затем используйте DPO для точной настройки модели в этом наборе данных.
Тонкая настройка атрибуции
Атрибуция атрибуции — хороший способ уменьшить иллюзии при создании выходных данных модели, которые зависят от результатов поиска. Проводится большая работа, направленная на обучение LLM более эффективному использованию извлеченного контента и назначению высококачественной атрибуции.
Предложено Накано и др. в 2022 г.WebGPT, сочетает в себе веб-поиск для поиска документов с точно настроенными моделями GPT, предназначенными для ответа на длинные вопросы, чтобы уменьшить галлюцинации и повысить точность фактов.
Модель взаимодействует с поиском в Интернете в текстовом веб-браузере и учится цитировать веб-страницы, чтобы отвечать на вопросы. Пока модель просматривает страницу, она может выполнить одно действие — сослаться на отрывок из текущей страницы. При этом заголовок страницы, имя домена и отрывок записываются для дальнейшего использования.Суть WebGPT – использование справочных материалов, помогающих людям оценить фактическую правильность.。
Впервые модель подверглась контролируемой тонкой настройке для поведенческого клонирования на демонстрации людей, использующих среду просмотра веб-страниц для ответа на вопросы.
Сравнительные данные собираются между двумя ответами на один и тот же вопрос, сгенерированными моделью, каждый из которых имеет свой собственный эталонный набор, где ответы оцениваются по их фактической точности, согласованности и общей полезности. Модели вознаграждения используются для обучения RL и выборки «лучший из n» для отклонения. Напротив, RL имеет ограниченный эффект, а когда используется отбраковочная выборка, эффект еще более ограничен.
Меник и др. предложили в 2022 г.GopherCite , очень похож на WebGPT в использовании поисковых систем для создания вспомогательных материалов и обучения моделей предоставлению справочных материалов. Оба выполняют контролируемую точную настройку наведения и оба применяют обучение RLHF.
В отличие от WebGPT, который поведенческого клонирования опирается на человеческие демонстрации, GopherCiteСоздайте демо-версию с помощью подсказок, состоящих из нескольких кадров., и каждое поколение заполняется контекстом из соответствующих документов, а затем используется модель вознаграждения, чтобы определить, какие из них являются лучшими.
Еще один способ избежать некачественных ответов — настроить модель на отклонение ответов с использованием стандартного ответа «Я не знаю», который определяется глобальным порогом RM, называемым выборочным прогнозированием.
Эмпирические результаты RL аналогичны результатам WebGPT, то есть RL приносит лишь ограниченное улучшение или не дает никаких улучшений в сочетании с отбраковочной выборкой.
Вен Ли — китайский учёный из OpenAI и один из авторов ChatGPT. Он окончил Пекинский университет.
Она отвечает за исследования приложений OpenAI в области искусственного интеллекта. Она присоединилась к OpenAI в 2018 году и в основном занимается предварительным обучением, обучением с подкреплением и согласованием, а также безопасностью моделей в проекте GPT-4.
В консультативной группе по безопасности, созданной OpenAI в конце прошлого года, она возглавляет команду систем безопасности, занимающуюся решением таких проблем, как сокращение злоупотреблений существующими моделями, такими как ChatGPT.