Если данных ИИ недостаточно, можем ли мы использовать бумаги, чтобы «восполнить это»?

2024-08-17

14 августа

Официальный сайт Nature опубликовал статью, в которой говорится, что

Несколько академических издателей инвестируют в технологические компании

Продажа прав на использование научных статей.

Используется для обучения моделей ИИ.

Во многих случаях эти транзакции

С автором не консультировались

Это вызвало сильное недовольство у некоторых исследователей.

Бумаги, которые были «преданы»

Масштаб природы

Британские академические издательства

Тейлор Фрэнсис

Уже подписал контракт с Microsoft

Соглашение стоимостью 10 миллионов долларов

Разрешить Microsoft доступ к своим данным

улучшить системы искусственного интеллекта

В июне появилась новость, что

Американский издатель Уайли

Разрешить компании использовать свой контент для обучения моделей

таким образом заработав 23 миллиона долларов

Масштаб природы

Эти документы охватывают

Естественные науки, социальные науки и другие области

Он стал важным корпусом для обучения моделей ИИ.

Робот-рисунок продемонстрировал живопись на «Глобальном саммите искусственного интеллекта на благо человечества» 2024 года в Женеве, Швейцария.

Источник: информационное агентство Синьхуа.

Статья о природе думает

Текущие авторы научных статей

Когда издатели сталкиваются с продажей своих произведений, защищенных авторским правом

почти нет права вмешиваться

Для опубликованных статей

Не существует существующего механизма для подтверждения этого содержания.

Используется ли он в качестве данных для обучения ИИ

При использовании больших языковых моделей

Как создать более справедливый механизм

Защитите права создателей

Достойно широкого обсуждения в академических кругах и авторских кругах.

Недостаточно данных ИИ

Бумаги для «составления»

Три основных элемента разработки больших моделей искусственного интеллекта

Это данные, алгоритмы и вычислительная мощность

С быстрым развитием технологий искусственного интеллекта

Растущий спрос на обучающие данные

Некоторые СМИ сообщили

конец 2021 года

Обучение OpenAI GPT-4

столкнулся с трудной проблемой

Его обучение было исчерпано в Интернете

Надежный текстовый ресурс на английском языке

затем

Чтобы справиться с этой проблемой

OpenAI использует видео и аудио с платформы Youtube.

Транскрибируйте большие объемы разговорного текста

Обучение после

2 июля сотрудники общались с цифровыми людьми в зоне погружения в цифровую экономику на конференции Global Digital Economics 2024.

Фото репортера информационного агентства Синьхуа Жэнь Чао.

сейчас

Технологические гиганты переключают свое внимание на

академический издатель

научные статьи как

Кристаллизация мудрости в области научных исследований

Станьте «горячим пирогом», который люди спешат купить.

Возьмем в качестве примера обработку естественного языка.

Благодаря обучению на большом количестве работ

Модели искусственного интеллекта могут лучше понять

академические знания

улучшить его точность

Технологические гиганты, такие как Google и Microsoft

Вложили значительные средства в приобретение корпусов

Чтобы получить конкурентное преимущество в области ИИ

Financial Times разместила собственный контент

по респектабельной цене

Продано OpenAI

Сайт социальных новостей Reddit

Также достигнуто аналогичное соглашение с Google

Эти сделки отражают

Издатели пытаются юридически разрешить

Избегайте бесплатного сканирования вашего контента моделями искусственного интеллекта

Дилемма обучающих данных

Как сломать игру

Работа с издателями

Только технологические компании решают эту проблему

Воплощение проблемы недостаточности обучающих данных

Недавно

Журнал Economist публикует статью

«Компании, занимающиеся искусственным интеллектом, скоро израсходуют большую часть данных Интернета»

Прогнозируйте, что доступно в Интернете

Человеческие текстовые данные будут исчерпаны через четыре года

23 апреля на Ганноверской промышленной ярмарке в Германии посетители играли в игру «камень, ножницы, бумага» с умным роботом.

Фото репортера информационного агентства Синьхуа Жэнь Пэнфэй.

Столкнулся с такой проблемой

Основатель и генеральный директор OpenAI Сэм Альтман

Был предложен обходной путь:

Такие компании, как OpenAI

Со временем произойдет переход к использованию данных, сгенерированных ИИ.

(также известные как синтетические данные) для обучения ИИ

Разработчики создают все более мощные технологии, одновременно

Это также уменьшит зависимость от данных, защищенных авторским правом.

конечно

Реален ли этот технический путь?

До сих пор ведутся споры

В статье на обложке журнала Nature утверждалось, что

Если большой модели разрешено

Тренируйтесь, используя автоматически сгенерированные данные

ИИ может деградировать сам по себе

Всего за несколько поколений оригинальный контент

Доведено до непоправимой чепухи

Помимо методов синтетических данных

Дальнейший открытый обмен общедоступными данными

также считается эффективным путем

В отчете «Промышленные ценные бумаги» отмечается, что

Укрепить открытую разработку общедоступных данных

это текущее решение проблемы рассеивания данных

Важные меры по улучшению качества обучающих данных

Написал:Ли Фэй, Ма Цзинъюань верстка:Ли Вэньцзянь Координатор:Ли Чжэнвэй

Справочник丨Природа, Газета, Financial Associated Press, Business Herald 21st Century

Продюсер: Guangming.com

Источник: Всемирная интернет-конференция.

Отчет/Отзыв

новости

Если данных ИИ недостаточно, можем ли мы использовать бумаги, чтобы «восполнить это»?

Введение

Моя контактная информация