Если данных ИИ недостаточно, можем ли мы использовать бумаги, чтобы «восполнить это»?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
14 августа
Официальный сайт Nature опубликовал статью, в которой говорится, что
Несколько академических издателей инвестируют в технологические компании
Продажа прав на использование научных статей.
Используется для обучения моделей ИИ.
Во многих случаях эти транзакции
С автором не консультировались
Это вызвало сильное недовольство у некоторых исследователей.
Бумаги, которые были «преданы»
Масштаб природы
Британские академические издательства
Тейлор Фрэнсис
Уже подписал контракт с Microsoft
Соглашение стоимостью 10 миллионов долларов
Разрешить Microsoft доступ к своим данным
улучшить системы искусственного интеллекта
В июне появилась новость, что
Американский издатель Уайли
Разрешить компании использовать свой контент для обучения моделей
таким образом заработав 23 миллиона долларов
Масштаб природы
Эти документы охватывают
Естественные науки, социальные науки и другие области
Он стал важным корпусом для обучения моделей ИИ.
Робот-рисунок продемонстрировал живопись на «Глобальном саммите искусственного интеллекта на благо человечества» 2024 года в Женеве, Швейцария.
Источник: информационное агентство Синьхуа.
Статья о природе думает
Текущие авторы научных статей
Когда издатели сталкиваются с продажей своих произведений, защищенных авторским правом
почти нет права вмешиваться
Для опубликованных статей
Не существует существующего механизма для подтверждения этого содержания.
Используется ли он в качестве данных для обучения ИИ
При использовании больших языковых моделей
Как создать более справедливый механизм
Защитите права создателей
Достойно широкого обсуждения в академических кругах и авторских кругах.
Недостаточно данных ИИ
Бумаги для «составления»
Три основных элемента разработки больших моделей искусственного интеллекта
Это данные, алгоритмы и вычислительная мощность
С быстрым развитием технологий искусственного интеллекта
Растущий спрос на обучающие данные
Некоторые СМИ сообщили
конец 2021 года
Обучение OpenAI GPT-4
столкнулся с трудной проблемой
Его обучение было исчерпано в Интернете
Надежный текстовый ресурс на английском языке
затем
Чтобы справиться с этой проблемой
OpenAI использует видео и аудио с платформы Youtube.
Транскрибируйте большие объемы разговорного текста
Обучение после
2 июля сотрудники общались с цифровыми людьми в зоне погружения в цифровую экономику на конференции Global Digital Economics 2024.
Фото репортера информационного агентства Синьхуа Жэнь Чао.
сейчас
Технологические гиганты переключают свое внимание на
академический издатель
научные статьи как
Кристаллизация мудрости в области научных исследований
Станьте «горячим пирогом», который люди спешат купить.
Возьмем в качестве примера обработку естественного языка.
Благодаря обучению на большом количестве работ
Модели искусственного интеллекта могут лучше понять
академические знания
улучшить его точность
Технологические гиганты, такие как Google и Microsoft
Вложили значительные средства в приобретение корпусов
Чтобы получить конкурентное преимущество в области ИИ
Financial Times разместила собственный контент
по респектабельной цене
Продано OpenAI
Сайт социальных новостей Reddit
Также достигнуто аналогичное соглашение с Google
Эти сделки отражают
Издатели пытаются юридически разрешить
Избегайте бесплатного сканирования вашего контента моделями искусственного интеллекта
Дилемма обучающих данных
Как сломать игру
Работа с издателями
Только технологические компании решают эту проблему
Воплощение проблемы недостаточности обучающих данных
Недавно
Журнал Economist публикует статью
«Компании, занимающиеся искусственным интеллектом, скоро израсходуют большую часть данных Интернета»
Прогнозируйте, что доступно в Интернете
Человеческие текстовые данные будут исчерпаны через четыре года
23 апреля на Ганноверской промышленной ярмарке в Германии посетители играли в игру «камень, ножницы, бумага» с умным роботом.
Фото репортера информационного агентства Синьхуа Жэнь Пэнфэй.
Столкнулся с такой проблемой
Основатель и генеральный директор OpenAI Сэм Альтман
Был предложен обходной путь:
Такие компании, как OpenAI
Со временем произойдет переход к использованию данных, сгенерированных ИИ.
(также известные как синтетические данные) для обучения ИИ
Разработчики создают все более мощные технологии, одновременно
Это также уменьшит зависимость от данных, защищенных авторским правом.
конечно
Реален ли этот технический путь?
До сих пор ведутся споры
В статье на обложке журнала Nature утверждалось, что
Если большой модели разрешено
Тренируйтесь, используя автоматически сгенерированные данные
ИИ может деградировать сам по себе
Всего за несколько поколений оригинальный контент
Доведено до непоправимой чепухи
Помимо методов синтетических данных
Дальнейший открытый обмен общедоступными данными
также считается эффективным путем
В отчете «Промышленные ценные бумаги» отмечается, что
Укрепить открытую разработку общедоступных данных
это текущее решение проблемы рассеивания данных
Важные меры по улучшению качества обучающих данных
Написал:Ли Фэй, Ма Цзинъюань верстка:Ли Вэньцзянь Координатор:Ли Чжэнвэй
Справочник丨Природа, Газета, Financial Associated Press, Business Herald 21st Century
Продюсер: Guangming.com
Источник: Всемирная интернет-конференция.