исследование: повторное использование контента, созданного ии, для обучения ии может привести к «разрушению модели»

2024-09-05

it house news от 5 сентября. 4 сентября по местному времени, по данным forbes, доктор илья шумелов из оксфордского университета и его команда обнаружили, что когда генеративное программное обеспечение искусственного интеллекта полагается только на контент, качество ответов начинает ухудшаться. исследование опубликовано в журнале nature.

после первых двух запросов ответы постепенно отклонялись от точности, к пятому запросу качество значительно упало, а к девятому последовательному запросу ответы полностью выродились в бессмысленную тарабарщину. исследователи называют это циклическое чрезмерное использование контента генеративного ии «коллапсом модели», при котором результаты ии постепенно отклоняются от реальности и в конечном итоге становятся бесполезными после постоянного загрязнения собственного обучающего набора.

«удивительно, как быстро и незаметно происходит коллапс модели», — сказал шумелов. «первоначально это влияет на небольшое количество данных — тех, которые недостаточно представлены. затем это влияет на разнообразие выходных данных, что приводит к уменьшению изменчивости. иногда вы будете наблюдать. небольшие улучшения на большинстве данных, но это улучшение маскирует ухудшение производительности модели на меньшинстве данных».

исследователи выявили существование «коллапса модели», используя предварительно обученную википедию на базе искусственного интеллекта, а затем позволяя модели искусственного интеллекта обновляться на основе сгенерированного ею контента. влияние загрязненных данных постепенно приводит к разрушению исходного обучающего набора, а выходная информация становится трудной для понимания. например, после девятого цикла запросов исследуемая статья в википедии комично изменилась с чего-то о шпиле английской церкви xiv века на статью о кроликах-кубислях разных окрасов.

по имеющимся данным, согласно другому исследованию, опубликованному командой amazon web services в июне, примерно 57% онлайн-текста было переведено алгоритмами искусственного интеллекта. если созданные человеком данные в интернете быстро заменяются контентом, отфильтрованным ии, и если результаты исследования шумейлова верны, то ии может «самоуничтожаться» — и в то же время разрушать интернет.

исследование пришло к выводу, что единственный способ добиться долгосрочного устойчивого развития ии — это обеспечить ему доступ к существующему контенту, созданному не с помощью ии, и продолжать внедрять новый контент, созданный человеком.

новости

исследование: повторное использование контента, созданного ии, для обучения ии может привести к «разрушению модели»

введение

моя контактная информация