ai '모델 붕괴' 위험에 경계해야
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
이미지 출처: 미국의 "theweek"
【오늘의 관점】
◎장자신 기자
고객 서비스부터 콘텐츠 제작까지 인공지능(ai)은 다양한 분야의 발전에 영향을 미쳤습니다. 그러나 "모델 붕괴"로 알려진 점점 커지는 문제는 ai의 모든 성과를 취소할 수 있습니다.
'모델 붕괴'는 올해 7월 영국 저널 네이처에 발표된 연구 논문에서 지적된 문제다. 이는 ai 생성 데이터 세트를 사용하여 미래 세대의 기계 학습 모델을 훈련하는 것을 의미하며, 잠재적으로 결과를 심각하게 "오염"시킵니다.
여러 외신은 이것이 데이터 과학자들이 걱정해야 할 기술적 문제일 뿐만 아니라, 이를 방치할 경우 '모델 붕괴'가 기업, 기술 및 전체 디지털 생태계에 심각한 영향을 미칠 수 있다고 보도했습니다. 천진대학교 자연어처리연구소장 시옹데이(xiong deyi) 교수는 과학기술일보 기자와의 인터뷰에서 전문적인 관점에서 '모델 붕괴'를 설명했다.
"모델 붕괴"에 무슨 일이 일어나고 있나요?
gpt-4와 같은 대부분의 ai 모델은 대부분 인터넷에서 제공되는 대량의 데이터에 대해 훈련됩니다. 처음에 이 데이터는 인간에 의해 생성되었으며 인간의 언어, 행동 및 문화의 다양성과 복잡성을 반영합니다. ai는 이 데이터로부터 학습하고 이를 사용하여 새로운 콘텐츠를 생성합니다.
그러나 ai가 차세대 모델을 훈련하기 위해 새로운 데이터를 웹에서 검색함에 따라 ai는 자신이 생성하는 콘텐츠 중 일부를 흡수하여 하나의 ai의 출력이 다음의 입력이 되는 피드백 루프를 생성할 가능성이 높습니다. 또 다른. 생성 ai가 자체 콘텐츠로 훈련되면 출력도 현실과 다를 수 있습니다. 이는 문서의 복사본을 여러 개 만드는 것과 같습니다. 각 버전은 원본 세부 정보 중 일부를 잃어버리고 흐릿하고 덜 정확한 결과를 얻게 됩니다.
뉴욕타임스는 ai가 인간이 입력한 콘텐츠와 분리되면 결과물의 질과 다양성이 감소할 것이라고 보도했다.
xiong deyi는 "실제 인간 언어 데이터의 분포는 일반적으로 zipf의 법칙을 따릅니다. 즉, 단어 빈도는 단어 순서에 반비례합니다. zipf의 법칙은 인간 언어 데이터에 롱테일 현상이 있음을 보여줍니다. , 저주파 및 다양한 콘텐츠가 많이 있습니다.”
xiong deyi는 또한 근사 샘플링 등의 오류로 인해 모델이 생성한 데이터에서 실제 분포의 롱테일 현상이 점차 사라지고 모델이 생성한 데이터의 분포가 점차 일치하지 않는 분포로 수렴된다고 설명했습니다. 실제 분포가 줄어들고 다양성이 감소하여 "모델 붕괴"가 발생합니다.
ai가 그 자체를 "잠식"하는 것은 나쁜 것입니까?
'모델 붕괴'에 대해 미국 '더위크(theweek)' 매거진은 최근 ai가 스스로를 '잠식하고 있다'는 의미라는 기사를 게재했다.
xiong deyi는 이러한 현상이 출현하면서 후속 모델 반복 훈련에서 모델 생성 데이터의 비율이 높을수록 후속 모델이 실제 데이터에 대해 더 많은 정보를 잃어 모델 훈련이 더 어려워진다고 믿습니다.
언뜻 보기에 '모델 붕괴'는 현재 실험실에서 ai 연구자들만이 걱정해야 할 틈새 문제인 것처럼 보이지만, 그 영향은 광범위하고 오래 지속될 것입니다.
미국 '애틀랜틱 먼슬리(atlantic monthly)'의 한 기사는 더 발전된 ai 제품을 개발하기 위해 거대 기술 기업이 합성 데이터, 즉 ai 시스템에서 생성된 시뮬레이션 데이터를 프로그램에 제공해야 할 수도 있다고 지적했습니다. 그러나 일부 생성 ai의 출력은 편견, 허위 정보, 터무니없는 내용으로 가득 차 있기 때문에 이러한 내용은 다음 버전의 ai 모델에 전달됩니다.
미국 포브스(forbes) 매거진은 '모델 붕괴'가 ai의 편견과 불평등 문제를 악화시킬 수도 있다고 보도했다.
그렇다고 모든 합성 데이터가 나쁘다는 의미는 아닙니다. 뉴욕타임스는 경우에 따라 합성 데이터가 ai 학습에 도움이 될 수 있다고 전했다. 예를 들어, 대규모 ai 모델의 출력을 사용하여 더 작은 모델을 훈련하는 경우 또는 수학 문제에 대한 해결책이나 체스, 바둑 등의 게임에 대한 최선의 전략과 같이 정답을 확인할 수 있는 경우입니다.
ai가 인터넷을 장악하고 있는가?
새로운 ai 모델을 훈련시키는 문제는 더 큰 과제를 부각시킬 수 있습니다. "scientific american" 잡지에서는 ai 콘텐츠가 인터넷을 장악하고 있으며 대규모 언어 모델에서 생성된 텍스트가 수백 개의 웹사이트에 넘쳐나고 있다고 밝혔습니다. ai 콘텐츠는 사람이 만든 콘텐츠에 비해 더 빠르고 더 많은 양을 만들 수 있다.
openai ceo 샘 알트만(sam altman)은 올해 2월 회사가 매일 약 1000억 단어를 생성한다고 밝혔는데, 이는 100만 권의 소설 텍스트에 해당하며 그 중 상당 부분이 인터넷으로 유입됩니다.
봇트윗, 터무니없는 이미지, 가짜 댓글 등 인터넷에 존재하는 풍부한 ai 콘텐츠는 부정적인 인식을 더욱 부추겼습니다. 포브스(forbes) 매거진은 '죽은 인터넷 이론(dead internet theory)'은 인터넷상의 대부분의 트래픽, 게시물, 사용자가 로봇과 ai 생성 콘텐츠로 대체되었으며 인간이 더 이상 인터넷의 방향을 결정할 수 없다고 믿고 있다고 밝혔습니다. 이 아이디어는 처음에는 온라인 포럼에서만 유포되었지만 최근에는 더 많은 관심을 끌었습니다.
다행히도 전문가들은 '죽은 인터넷 이론'이 아직 현실화되지 않았다고 말합니다. 포브스(forbes) 매거진은 심오한 의견, 날카로운 언어, 예리한 관찰, 새로운 맥락에서 새로운 것에 대한 정의 등 널리 유포되는 게시물의 대다수가 ai에 의해 생성된 것이 아니라고 지적했습니다.
그러나 xiong deyi는 여전히 다음과 같이 강조했습니다. "대형 모델이 널리 적용됨에 따라 인터넷 데이터에서 ai 합성 데이터의 비율이 점점 더 높아질 수 있습니다. 대량의 저품질 ai 합성 데이터는 나중에 인터넷 데이터를 사용할 뿐만 아니라 훈련 모델 어느 정도 '모델 붕괴'가 있을 것이고, 이는 일부 사람들을 호도하는 잘못된 정보가 생성되는 등 사회에 부정적인 영향을 미치기도 할 것입니다. 안전하게 관리해야 할 사회적 문제이기도 합니다. ai 기술을 활용한 이중적 관점에서 효과적인 대응이 필요합니다.”
(출처: 과학기술일보)