소식

연구: ai 생성 콘텐츠를 ai 훈련에 반복적으로 사용하면 "모델 붕괴"가 발생할 수 있습니다.

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house news, 9월 5일. 포브스(forbes)에 따르면 현지 시간으로 9월 4일 옥스포드 대학의 ilya shumelov 박사와 그의 팀은 생성 ai 소프트웨어가 콘텐츠에만 의존할 때 답변의 품질이 저하되기 시작한다는 사실을 발견했습니다. 이번 연구는 네이처 저널에 게재됐다.

처음 두 번의 질의 이후에는 답변의 정확성이 점차 떨어졌고, 다섯 번째 질의에서는 품질이 크게 떨어졌으며, 아홉 번째 연속 질의에서는 응답이 완전히 무의미한 횡설수설로 변질되었습니다. 연구자들은 생성 ai 콘텐츠의 이러한 순환적 남용을 '모델 붕괴'라고 부릅니다. ai 출력이 점차 현실에서 벗어나고 자체 훈련 세트를 지속적으로 오염시킨 후 결국 쓸모 없게 됩니다.

shumelov는 "얼마나 빠르고 눈에 띄지 않게 모델 붕괴가 일어나는지는 놀랍습니다. 처음에는 과소 대표되는 소수의 데이터에 영향을 미칩니다. 그런 다음 출력의 다양성에 영향을 미치고 이로 인해 변동성이 줄어듭니다. 때로는 관찰하게 될 것입니다."라고 말했습니다. 대부분의 데이터에서는 약간의 개선이 이루어졌지만, 이러한 개선으로 인해 소수의 데이터에 대한 모델 성능 저하가 가려졌습니다."

연구진은 사전 훈련된 ai 기반 위키피디아를 사용한 후 ai 모델이 생성된 콘텐츠를 기반으로 업데이트하도록 함으로써 '모델 붕괴'의 존재를 확인했습니다. 오염된 데이터의 영향으로 인해 원래 훈련 세트가 점차 침식되고 출력 정보를 이해하기 어려워집니다. 예를 들어, 9번째 쿼리 주기 이후 연구 중인 wikipedia 항목은 14세기 영국 교회 첨탑에 관한 내용에서 다양한 색상의 짧은 꼬리 토끼에 관한 논문으로 코믹하게 변경되었습니다.

보고서에 따르면 amazon web services 팀이 6월에 발표한 또 다른 연구에 따르면 온라인 텍스트의 약 57%가 ai 알고리즘에 의해 번역되었습니다. 인터넷에서 인간이 생성한 데이터가 ai로 필터링된 콘텐츠로 빠르게 덮어쓰여지고 shumeilov의 연구 결과가 사실이라면 ai는 "자멸"할 수 있으며 동시에 인터넷도 파괴할 수 있습니다.

연구에서는 ai의 장기적으로 지속 가능한 발전을 달성할 수 있는 유일한 방법은 ai가 생성하지 않은 기존 콘텐츠에 접근할 수 있도록 하고 인간이 생성한 새로운 콘텐츠를 지속적으로 도입하는 것이라고 결론지었습니다.