новости

нам необходимо быть готовыми к риску «коллапса модели» ии.

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

источник изображения: theweek в сша.
【точка зрения сегодня】
◎наш репортер чжан цзясинь
от обслуживания клиентов до создания контента — искусственный интеллект (ии) повлиял на прогресс во многих областях. но растущая проблема, известная как «коллапс модели», может свести на нет все достижения ии.
«коллапс модели» — проблема, обозначенная в исследовательской статье, опубликованной в британском журнале nature в июле этого года. речь идет об использовании наборов данных, сгенерированных ии, для обучения будущих поколений моделей машинного обучения, что потенциально серьезно «загрязняет» их результаты.
многие зарубежные сми сообщили, что это не только техническая проблема, о которой должны беспокоиться специалисты по обработке данных. если ее не остановить, «коллапс модели» может оказать глубокое влияние на предприятия, технологии и всю цифровую экосистему. профессор сюн дэйи, руководитель лаборатории обработки естественного языка тяньцзиньского университета, объяснил «коллапс модели» с профессиональной точки зрения в интервью репортеру science and technology daily.
что происходит с «коллапсом модели»?
большинство моделей ии, таких как gpt-4, обучаются на больших объемах данных, большая часть которых поступает из интернета. первоначально эти данные генерируются людьми и отражают разнообразие и сложность человеческого языка, поведения и культуры. ии учится на этих данных и использует их для создания нового контента.
однако по мере того, как ии ищет в сети новые данные для обучения моделей следующего поколения, ии, скорее всего, поглотит часть генерируемого им контента, создавая цикл обратной связи, в котором выходные данные одного ии становятся входными данными. другого. когда генеративный ии обучается на собственном контенте, его результаты также могут отклоняться от реальности. это похоже на создание нескольких копий документа, при этом в каждой версии теряются некоторые исходные детали, а результат получается размытым и менее точным.
the new york times сообщила, что, когда ии отделяется от контента, вводимого человеком, качество и разнообразие его результатов снизятся.
сюн дэй объяснил: «распределение данных реального человеческого языка обычно соответствует закону ципфа, то есть частота слов обратно пропорциональна порядку слов. закон ципфа показывает, что в данных человеческого языка существует явление «длинного хвоста», то есть , есть большое количество низкочастотного и разнообразного контента».
сюн дэй далее объяснил, что из-за таких ошибок, как приблизительная выборка, феномен «длинного хвоста» реального распределения постепенно исчезает в данных, генерируемых моделью. распределение данных, генерируемых моделью, постепенно сходится к распределению, несовместимому с распределением. реальное распределение, а разнообразие сокращается, что приводит к «коллапу модели».
является ли ии «каннибализацией» самого себя — это плохо?
что касается «коллапса модели», американский журнал theweek недавно опубликовал статью, в которой комментируется, что это означает, что ии «каннибализирует» сам себя.
сюн дэйи считает, что с появлением этого явления, чем выше доля данных, сгенерированных моделью, в последующем итеративном обучении модели, тем больше информации о реальных данных последующая модель потеряет, что усложнит обучение модели.
на первый взгляд, «коллапс модели» кажется узкой проблемой, о которой в настоящее время должны беспокоиться только исследователи искусственного интеллекта в лаборатории, но ее последствия будут далеко идущими и долгосрочными.
в статье в американском «atlantic monthly» указывалось, что для разработки более совершенных продуктов искусственного интеллекта технологическим гигантам, возможно, придется предоставлять программам синтетические данные, то есть смоделированные данные, генерируемые системами искусственного интеллекта. однако, поскольку выходные данные некоторых генеративных ии полны предвзятости, дезинформации и абсурдного содержания, они будут переданы в следующую версию модели ии.
американский журнал «форбс» сообщил, что «коллапс модели» также может усугубить проблемы предвзятости и неравенства в сфере ии.
однако это не означает, что все синтетические данные плохи. the new york times сообщила, что в некоторых случаях синтетические данные могут помочь ии учиться. например, когда выходные данные большой модели ии используются для обучения меньшей модели или когда можно проверить правильный ответ, например, решение математической задачи или лучшую стратегию для таких игр, как шахматы, го и т. д.
ии захватывает интернет?
проблема обучения новых моделей ии может стать более серьезной проблемой. журнал scientific american заявил, что контент искусственного интеллекта заполонил интернет, а текст, созданный с помощью больших языковых моделей, заполонил сотни веб-сайтов. по сравнению с контентом, созданным человеком, контент ии может создаваться быстрее и в больших количествах.
генеральный директор openai сэм альтман заявил в феврале этого года, что компания ежедневно генерирует около 100 миллиардов слов, что эквивалентно тексту 1 миллиона романов, большая часть которых попадает в интернет.
обилие ии-контента в интернете, включая бот-твиты, нелепые изображения и фейковые комментарии, усиливает негативное восприятие. журнал «форбс» заявил, что «теория мертвого интернета» предполагает, что большая часть трафика, сообщений и пользователей в интернете была заменена роботами и контентом, созданным искусственным интеллектом, и люди больше не могут определять направление интернета. первоначально эта идея распространялась только на интернет-форумах, но в последнее время приобрела еще большую популярность.
к счастью, эксперты говорят, что «теория мертвого интернета» еще не стала реальностью. журнал «форбс» отметил, что подавляющее большинство широко распространенных постов, включая некоторые глубокие мнения, резкие выражения, острые наблюдения и определения новых вещей в новых контекстах, не созданы ии.
однако сюн дэй все же подчеркнул: «при широком применении больших моделей доля синтетических данных ии в интернет-данных может становиться все выше и выше. большой объем некачественных синтетических данных ии не только приведет к последующему использованию интернет-данных. модели обучения. произойдет определенная степень «коллапса модели», и это также окажет негативное влияние на общество, например, генерирование неверной информации, которая вводит некоторых людей в заблуждение. таким образом, контент, создаваемый ии, является не только технической проблемой, но и. это также социальная проблема, которую необходимо решать безопасно. эффективное реагирование с двойной точки зрения с помощью технологий искусственного интеллекта».
(источник: science and technology daily)
отчет/отзыв