моя контактная информация
Почтамезофия@protonmail.com
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Западный ветер с рыбами и овцами исходит из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Большой модельный круг в очередной раз разоблачил плагиат Дагуа, на этот раз«Обвиняемым» по-прежнему является знаменитый Google DeepMind。
«Истец» прямо гневно крикнул:Они просто смыли наш технический отчет!
Конкретно:
Статья Google DeepMind, принятая на ведущую конференцию нового поколения CoLM 2024, была отклонена. Владелец отметил, что она является плагиатом исследования, опубликованного на arXiv год назад. Тип с открытым исходным кодом.
Обе статьи исследуют метод формализации структуры генерации текста модели.
Загвоздка в том, что документ Google DeepMind явно цитирует документ «истца».
Однако, даже если цитаты указаны, два автора статьи «истца», Брэндон Т. Уиллард (Брэндон) и Реми Луф (Реми), по-прежнему настаивают на плагиате Google и полагают, что:
Описание Google различий между ними «просто смешно».
Многие пользователи сети после прочтения статьи медленно подняли вопросительный знак: Как CoLM проверял рукопись?
Разница лишь в том, что концепция была изменена?
Быстро взгляните на сравнение бумаги...
Давайте кратко рассмотрим абстрактное сравнение двух статей.
В статье Google DeepMind говорится, что токенизация приводит к проблемам с ограниченным выводом языковой модели. Для решения этих проблем они представили теорию автоматов. Суть заключается в том, чтобы избежать прохождения всех логических значений (логитов) на каждом этапе декодирования.
Этот метод требует доступа только к декодированному логическому значению каждого токена, а вычисления не зависят от размера языковой модели. Он эффективен и прост в использовании практически во всех архитектурах языковых моделей.
Заявление «истца» примерно следующее:
Предлагается эффективная структура, позволяющая значительно повысить эффективность генерации ограниченного текста за счет создания индекса словарного запаса языковой модели.Проще говоря, этоИзбегайте прохождения всех логических значений посредством индексации。
Также «не зависит от конкретной модели».
Действительно, существует большая разница в направлении, поэтому давайте посмотрим на детали.
Мы использовали Google Gemini 1.5 Pro, чтобы обобщить основное содержание двух статей, а затем попросили Gemini сравнить сходства и различия между ними.
Что касается «ответчика» документа Google, Gemini резюмировал свой метод следующим образом:Переопределите детокенизацию как операцию конечного преобразователя состояний (FST)。
Объедините это FST с автоматом, который представляет целевой формальный язык, который может быть представлен регулярным выражением или грамматикой.
Посредством вышеуказанной комбинации генерируется автомат на основе токенов, который используется для ограничения языковой модели во время процесса декодирования, чтобы гарантировать, что его выходной текст соответствует заранее заданным формальным спецификациям языка.
Кроме того, в документе Google также была создана серия расширений регулярных выражений, которые были написаны с использованием специально названных групп захвата, чтобы значительно повысить эффективность и выразительность системы при обработке текста.
Что касается статьи «истца», Gemini резюмировала суть своего подхода следующим образом:Переформулируйте проблему генерации текста как преобразование между конечными автоматами (FSM).。
Конкретный метод «истца»:
Gemini перечисляет общие черты между двумя статьями.
Что касается разницы между ними, то она немного похожа на то, что сказал предыдущий пользователь сети. Простое резюме таково: Google определяет словарь как FST.
Как упоминалось ранее, Google включил статью истца в список «Связанных работ» как «наиболее релевантную» работу:
Наиболее актуальным исследованием является Outlines (Willard & Louf, 2023), в котором в качестве ограничений также используются конечные автоматы (FSA) и автоматы с понижением уровня (PDA) — наш метод был независимо разработан в начале 2023 года.
Google считает, что разница между ними заключается в том, что метод Outlines основан на специально созданной операции «индексации», которая требует ручного расширения для новых сценариев применения. Напротив, Google полностью переопределил весь процесс, используя теорию автоматов, упрощая применение FSA и обобщение на КПК.
Еще одно отличие состоит в том, что Google определил расширения для поддержки сопоставления с подстановочными знаками и повышения удобства использования.
Google также упомянул Outlines, представляя следующие две связанные работы.
Во-первых, Инь и др. (2024) расширили Outlines, добавив возможность «сжимать» текстовые сегменты к предварительному заполнению.
Другая — система, недавно предложенная Угаре и др. (2024) под названием SynCode. Он также использует FSA, но для обработки грамматики использует анализаторы LALR и LR вместо PDA.
Подобно Outlines, этот метод основан на пользовательских алгоритмах.
Но люди, которые едят дыню, очевидно, не очень-то ее покупают:
Рецензенты CoLM должны принять это к сведению. Я не думаю, что это отдельные «одновременные усилия».
Как только об этом инциденте стало известно, многие пользователи сети были возмущены. Плагиат был позорным, не говоря уже о том, что «это не первый случай, когда технологический гигант занимается плагиатом работы небольшой команды».
Кстати, и Брэндон, и Реми работали удаленно в Normal Computing, компании AI Infra, основанной в 2022 году, когда они опубликовали статью истца.
О, кстати, часть команды основателей Normal Computing пришла из Google Brain...
Кроме того, Брэндон и Реми начали совместный бизнес. Новая компания называется .txt. Согласно информации на официальном сайте, ее цель — предоставить быструю и надежную модель извлечения информации. Домашняя страница GitHub, указанная на официальном сайте, представляет собой склад Outlines.
Возвращаясь к пользователям сети: что еще больше злит всех, так это то, что «эта ситуация стала обычным явлением».
Постдок из Делфтского технологического университета в Нидерландах поделился своим опытом:
Мы завершили часть работы в октябре прошлого года, и недавно была принята статья, в которой использовались те же идеи и концепции, но даже не цитировалась наша статья.
Есть также старик из Северо-Восточного университета в Соединенных Штатах, которому еще хуже. Он сталкивался с такой ситуацией дважды, и преступники всегда были одной и той же группой. И первый автор напротив тоже добавил звездочку на свой GitHub...
Однако некоторые пользователи сети высказали другое мнение:
Если публикация сообщения в блоге или неоцененного препринта считается мошенничеством, то жульничают все, верно?
В ответ Реми сердито сказал:
Привет, ребята, опубликовать препринт и открыть исходный код = воспользоваться ситуацией;
Написать математическую работу, которая даже не требует псевдокода = хорошая работа? ? ?
Брат Брэндон также сказал Юэ:
Открытый исходный код и написание соответствующих статей — это «использование в своих интересах других», но копировать работу других людей и говорить: «У меня была эта идея раньше» и представлять ее на конференции — это неправильно? Какая гадость.
Давай сначала съедим дыню. Что ты об этом думаешь? Возможно, вы захотите продолжить обсуждение в комментариях~
Нажмите здесь, чтобы просмотреть две статьи:
Документ Google DeepMind: https://arxiv.org/abs/2407.08103v1
Документ истца: https://arxiv.org/abs/2307.09702.
Справочные ссылки:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46