«Все качественные текстовые данные в Интернете будут использоваться к 2028 году»

«Все высококачественные текстовые данные в Интернете будут использоваться к 2028 году»

2024-08-01

Исследовательская фирма Epoch AI прогнозирует, что все высококачественные текстовые данные в Интернете будут использоваться к 2028 году, а наборы данных машинного обучения могут исчерпать все «высококачественные языковые данные» к 2026 году.

Исследователи отмечают, что обучение будущих поколений моделей машинного обучения на наборах данных, сгенерированных искусственным интеллектом (ИИ), может привести к «коллапу модели». Тема о том, существует ли нехватка обучающих данных для крупных моделей ИИ, в последнее время вновь стала горячей темой в средствах массовой информации.

Недавно журнал The Economist опубликовал статью под названием «Фирмы, занимающиеся искусственным интеллектом, скоро исчерпают большую часть данных Интернета», отметив, что, поскольку высококачественные данные в Интернете иссякают, компании, занимающиеся искусственным интеллектом, вскоре исчерпают большую часть данных Интернета. «стена данных». Для крупных компаний, занимающихся модельным бизнесом в области искусственного интеллекта, сейчас задача состоит в том, чтобы найти новые источники данных или устойчивые альтернативы.

В статье цитируется прогноз исследовательской компании Epoch AI о том, что все высококачественные текстовые данные в Интернете будут использоваться к 2028 году, а наборы данных машинного обучения могут исчерпать все «высококачественные языковые данные» к 2026 году. Это явление известно в отрасли как «стена данных». Как бороться со «стеной данных» — это одна из основных проблем, с которыми сегодня сталкиваются компании, занимающиеся искусственным интеллектом, и она также может быть проблемой, которая, скорее всего, замедлит прогресс в их обучении. В статье отмечается, что по мере того, как данные о предварительном обучении в Интернете иссякают, постобучение становится все более важным. Маркировочные компании, такие как Scale AI и Surge AI, зарабатывают сотни миллионов долларов каждый год на сборе данных после обучения.

Журнал Economist приводит диаграмму Epoch AI

Фактически, в отрасли уже давно раздаются голоса об «истощении данных». Газета отмечает, что в начале июля 2023 года Стюарт Рассел, профессор информатики Калифорнийского университета в Беркли и автор книги «Искусственный интеллект – современные подходы», предупредил, что роботы, управляемые искусственным интеллектом, такие как ChatGPT, вскоре могут «исчерпать возможности Текст во Вселенной», технология обучения роботов путем сбора больших объемов текста «начинает сталкиваться с трудностями».

Но в отрасли есть и разные голоса. В интервью технологическому репортеру Bloomberg Эмили Чанг в мае 2024 года Ли Фейфэй, известный ученый-компьютерщик, содиректор Лаборатории искусственного интеллекта Стэнфордского университета и профессор Стэнфордского университета, дала понять, что она не согласна с «нашими «Моделям ИИ не хватает данных для обучения» — более пессимистичная точка зрения. Ли Фейфэй считает, что эта точка зрения слишком узка. С точки зрения только языковых моделей, все еще существует большое количество дифференцированных данных, ожидающих изучения для создания более специализированных моделей.

Сегодня одним из решений проблемы ограниченности обучающих данных является использование синтетических данных, которые создаются машиной и, следовательно, не ограничены. Но синтетические данные также несут в себе риск синтетических данных. В статье по компьютерным наукам, опубликованной в международном академическом журнале Nature 24 июля, отмечается, что обучение будущих поколений моделей машинного обучения с помощью наборов данных, сгенерированных искусственным интеллектом (ИИ), может испортить их данные. На выходе эта концепция называется «коллапс модели». Поскольку модели обучаются на загрязненных данных, они в конечном итоге неверно интерпретируют реальность.

Исследовательская группа показала в исследовании, что в задаче изучения большой языковой модели важен хвост базового распределения. Широкомасштабное использование больших языковых моделей для публикации контента в Интернете будет искажать усилия по сбору данных для обучения их преемников. В будущем люди будут иметь все большую ценность. Реальные данные о взаимодействиях больших языковых моделей будут приобретать все большую ценность. Однако исследовательская группа также отметила, что данные, генерируемые ИИ, не являются полностью нежелательными, но данные должны строго фильтроваться. Например, в обучающих данных модели каждого поколения оставьте 10 % или 20 % исходных данных. Вы также можете использовать разнообразные данные, например данные, сгенерированные людьми, или изучить более надежные алгоритмы обучения.

Новости

«Все высококачественные текстовые данные в Интернете будут использоваться к 2028 году»

Введение

моя контактная информация