소식

대형 모델을 훈련시키기 위해 학술 논문을 높은 가격에 판매하고 있지만 저자는 수입이 전혀 없습니다.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·인공지능(AI) 모델을 훈련시키기 위해 연구 논문을 기술 기업에 판매하는 학술 출판사가 늘어나고 있는 반면, 저자는 수입이 전혀 없습니다.

LLM(대형 언어 모델)은 학습 데이터 문제로 인해 다시 한번 논란을 불러일으켰습니다. 최근 국제적으로 유명한 저널 네이처(Nature)의 편집자인 엘리자베스 기브니(Elizabeth Gibney)는 "당신의 논문이 인공지능 모델을 훈련하는 데 사용되었습니까?"라는 제목의 기사를 발표했습니다. 거의 확실하다" 기사. 기사의 저자는 현재 점점 더 많은 학술 출판사가 인공 지능(AI) 모델 훈련을 위해 기술 회사에 연구 논문 라이선스를 부여하고 있다고 밝혔습니다. 한 학술 출판사는 이를 통해 2,300만 달러를 벌었지만 저자는 0달러를 벌었습니다. 많은 경우 저자와 상의하지 않은 이러한 거래는 일부 연구자들 사이에서 강한 불만을 불러일으켰습니다.

"귀하의 논문이 아직 AI 훈련 데이터로 사용되지 않았다면 곧 훈련의 일부가 될 가능성이 높습니다." Elizabeth Jipney는 기사에서 현재 학술 논문의 저자가 저작권이 있는 저작물을 판매하는 출판사에 직면할 때 거의 선택의 여지가 없다고 지적했습니다. . 간섭. 공개적으로 게재된 기사의 경우 해당 콘텐츠가 AI 훈련 데이터로 사용되는지 확인할 수 있는 메커니즘이 기존에 없습니다. 대규모 언어 모델을 사용함에 있어 창작자의 권리와 이익을 보호하기 위한 보다 공정한 메커니즘을 구축하는 방법은 학계와 저작권계에서 광범위한 논의가 필요합니다.

대규모 언어 모델(LLM)은 훈련을 위해 인터넷에서 스크랩한 대량의 데이터에 의존하는 경우가 많습니다. 이 데이터에는 수십억 개의 언어 정보("토큰"이라고 함)가 포함되어 있으며, 이러한 토큰 간의 패턴을 분석하여 모델은 유창한 텍스트를 생성할 수 있습니다. 학술 논문은 풍부한 콘텐츠와 높은 정보 밀도로 인해 대량의 일반 데이터보다 가치가 높으며 AI 훈련에 있어서 중요한 데이터 소스입니다. 글로벌 비영리단체 모질라 재단(Mozilla Foundation)의 데이터 분석가 스테판 바크(Stefan Baack)는 과학 논문이 특히 과학 주제에 대한 추론 능력 측면에서 대규모 언어 모델 훈련에 매우 도움이 된다고 분석했습니다. 주요 기술 기업이 데이터 세트를 구매하는 데 막대한 돈을 지출하는 것은 바로 데이터의 높은 가치 때문입니다.

기사에서는 올해 Financial Times가 OpenAI와 콘텐츠 라이선스를 계약하기로 합의했으며 "American Tieba"로 알려진 Reddit도 Google과 유사한 계약을 체결했다고 지적했습니다. 이러한 거래는 법적 승인을 통해 AI 모델을 통해 콘텐츠가 무료로 크롤링되는 것을 방지하려는 게시자의 시도를 반영합니다.

기사에 따르면 지난 달 영국 학술 출판사인 Taylor & Francis는 Microsoft와 1,000만 달러 규모의 계약을 체결하여 Microsoft가 AI 시스템 개선을 위해 데이터에 액세스할 수 있도록 허용했습니다. 지난 6월 미국 출판사 와일리(Wiley)는 AI 훈련용 콘텐츠를 한 기업에 제공해 무려 2300만 달러(약 230억원)를 벌어들였다. 그리고 이러한 엄청난 수입은 논문의 저자와는 아무런 관련이 없습니다.

현재 연구자들은 저자가 자신의 작업이 AI 모델 훈련에 사용되었는지 여부를 식별하는 데 도움이 되는 기술적 수단을 사용하려고 노력하고 있습니다. 워싱턴대학교 인공지능 연구원 루시 루 왕(Lucy Lu Wang)은 모델의 훈련 데이터로 사용된 논문은 모델 훈련이 완료된 후에도 제거할 수 없다고 말했다.

하지만 해당 논문이 AI 훈련에 활용된다는 사실이 입증되더라도 법적 차원에서는 여전히 논란에 직면해 있다. 기사에서는 승인되지 않은 저작권이 있는 콘텐츠를 교육용으로 사용하는 것이 침해라고 믿고 있다고 지적합니다. 또 다른 법적 관점은 대규모 언어 모델이 콘텐츠를 직접 복사하지 않고 학습을 통해 새로운 텍스트를 생성한다는 것입니다.

모든 연구자가 자신의 연구 결과를 AI 훈련에 사용하는 것을 반대하는 것은 아니라는 점은 주목할 가치가 있습니다. 스테판 백(Stefan Back)은 자신의 연구 결과가 AI의 정확성을 높이는 데 활용되는 것을 보면 기쁘고, AI가 자신의 글쓰기 스타일을 '모방'해도 개의치 않을 것이라고 말했습니다. 하지만 그는 모든 사람이 이 문제에 쉽게 대처할 수는 없다는 점, 특히 예술가나 작가처럼 AI의 경쟁 압력에 직면한 직업에 종사하는 사람들은 그렇지 않다는 점도 인정했습니다.

실제로 AI 모델 훈련을 위해 저작권이 있는 지적 저작물을 사용하는 것과 관련된 소송 사례는 이전에도 광범위한 관심을 끌었습니다.

8월 14일, 워싱턴 포스트(Washington Post)는 미국의 여러 시각 예술가와 일러스트레이터들이 AI 이미지 생성 도구를 상대로 제기한 집단소송이 획기적인 진전을 이루었다고 보도했습니다. 그들은 Midjourney 및 Stability AI와 같은 스타트업이 동의 없이 AI 모델을 훈련하기 위해 작업을 사용했다고 비난했습니다. 이 사건은 이번 주에 중요한 발전을 이루었습니다. 미국 지방 판사 William Orrick은 사건의 주요 부분을 진행하도록 허용했습니다. 이는 법원이 특정 혐의에 대한 법적 증거가 충분하다고 결정했으며 이는 AI를 개발하는 회사의 내부 커뮤니케이션이 진행됨에 따라 공개될 수 있음을 의미합니다. 도구.