소식

“2028년까지 인터넷상의 모든 고품질 텍스트 데이터가 활용될 것입니다”

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

리서치 회사인 Epoch AI는 2028년까지 인터넷상의 모든 고품질 텍스트 데이터가 사용될 것이며, 머신러닝 데이터 세트는 2026년까지 "고품질 언어 데이터"를 모두 소진할 수 있다고 예측합니다.

연구자들은 인공지능(AI)이 생성한 데이터 세트를 바탕으로 미래 세대의 머신러닝 모델을 훈련시키면 '모델 붕괴'가 발생할 수 있다고 지적합니다. 최근 대형 AI 모델의 훈련 데이터가 부족하지 않느냐는 논란이 다시 한번 언론을 통해 화제가 됐다.

최근 이코노미스트지는 'AI 기업이 곧 인터넷 데이터의 대부분을 고갈시킬 것'이라는 제목의 기사를 게재하며, 인터넷의 고품질 데이터가 고갈됨에 따라 AI 기업이 곧 인터넷 데이터의 대부분을 고갈시킬 것이라고 지적했다. "데이터 벽". AI 대형 모델 기업의 과제는 이제 새로운 데이터 소스나 지속 가능한 대안을 찾는 것입니다.

해당 기사는 2028년까지 인터넷상의 모든 고품질 텍스트 데이터가 사용될 것이며, 머신러닝 데이터 세트는 2026년까지 모든 "고품질 언어 데이터"를 소진할 수 있다는 연구 회사인 Epoch AI의 예측을 인용했습니다. 이 현상은 업계에서 "데이터 벽"으로 알려져 있습니다. '데이터 벽'에 대처하는 방법은 오늘날 AI 기업이 직면한 주요 문제 중 하나이며, 훈련 진행 속도를 늦출 가능성이 가장 높은 문제일 수도 있습니다. 기사에서는 인터넷에 있는 사전 훈련 데이터가 고갈되면서 사후 훈련이 더욱 중요해진다고 지적합니다. Scale AI 및 Surge AI와 같은 라벨링 회사는 훈련 후 데이터 수집을 통해 매년 수억 달러를 벌어들입니다.


Economist 잡지는 Epoch AI 다이어그램을 인용합니다.

실제로 업계에서는 '데이터 고갈'에 대한 목소리가 오랫동안 있어왔다. 신문은 2023년 7월 초, 버클리 캘리포니아대학교 컴퓨터과학과 교수이자 '인공지능 - 현대적 접근법(Artificial Intelligence - Modern Approaches)'의 저자인 스튜어트 러셀(Stuart Russell)이 ChatGPT와 같은 인공지능 기반 로봇이 곧 '인공지능을 소진시킬 수 있다'고 경고했다고 밝혔습니다. 우주의 텍스트', 대량의 텍스트를 수집해 로봇을 훈련시키는 기술이 '어려워지기 시작했다'.

하지만 업계에서도 다른 목소리가 있다. 2024년 5월 블룸버그 기술 기자 에밀리 창과의 인터뷰에서 유명한 컴퓨터 과학자이자 스탠포드 대학 인공 지능 연구소의 공동 책임자이자 스탠포드 대학 교수인 리 페이페이는 "우리의 의견에 동의하지 않는다"고 분명히 밝혔습니다. “AI 모델의 훈련을 위한 데이터가 부족하다”는 것은 좀 더 비관적인 견해입니다. Li Feifei는 이러한 관점이 너무 협소하다고 생각합니다. 언어 모델의 관점에서만 보면 더 많은 맞춤형 모델을 구축하기 위해 채굴을 기다리는 차별화된 데이터가 여전히 많습니다.

오늘날 제한된 훈련 데이터 문제에 대한 해결책 중 하나는 기계가 생성한 무제한의 합성 데이터를 사용하는 것입니다. 그러나 합성 데이터에는 합성 데이터의 위험도 따른다. 지난 7월 24일 국제학술지 네이처에 게재된 컴퓨터 과학 논문에서는 인공지능(AI)이 생성한 데이터 세트로 미래 세대의 머신러닝 모델을 훈련시키는 것이 데이터를 오염시킬 수 있다고 지적했다. 결과적으로 이 개념을 "모델 붕괴"라고 합니다. 모델은 오염된 데이터로 훈련되기 때문에 결국 현실을 잘못 해석하게 됩니다.

연구팀은 연구에서 대규모 언어 모델 학습 작업에서 기본 분포의 꼬리가 중요하다는 것을 보여주었습니다. 인터넷에 콘텐츠를 게시하기 위해 대규모 언어 모델을 대규모로 사용하면 후임자를 교육하기 위한 데이터 수집 노력이 오염될 것입니다. 미래에는 인간이 대규모 언어 모델 상호 작용에 대한 실제 데이터의 가치가 점점 더 높아질 것입니다. 하지만 연구팀은 AI가 생성한 데이터가 완전히 바람직하지 않은 것은 아니지만 데이터를 엄격하게 필터링해야 한다고도 언급했습니다. 예를 들어, 각 세대 모델의 학습 데이터에서는 원본 데이터의 10%, 20%를 그대로 유지하거나, 인간이 생성한 데이터 등 다양한 데이터를 활용하거나, 보다 탄탄한 학습 알고리즘을 연구할 수도 있습니다.