자연은 충격적인 내부 정보를 공개합니다. AI에게 먹이를 주기 위해 종이가 엄청난 가격에 팔렸습니다! 출판사는 수억 달러를 벌지만 저자는 아무것도 벌지 못합니다
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
[새로운 지혜 소개]Nature의 기사에서 공개된 내용: 귀하가 게시한 논문이 모델을 훈련하는 데 사용되었을 수 있습니다! 일부 출판사는 데이터 판매로 2,300만 달러를 벌었습니다. 하지만 논문을 코딩하기 위해 열심히 노력한 저자는 한 푼도 얻지 못합니다.
전 세계가 데이터 위기에 처해 있는데, 우리는 어떻게 해야 할까요?최근 네이처(Nature)의 한 기사에서는 과학 연구 논문도 AI 훈련에 사용되었다는 사실을 밝혔습니다.많은 학술 출판사가 AI 모델을 훈련하기 위해 자체 논문에 액세스할 수 있도록 기술 회사에 권한을 부여한 것으로 알려졌습니다.논문은 아이디어 구상부터 완성까지 저자가 밤낮없이 노력한 결과, 이제 나도 모르게 AI 훈련을 위한 데이터가 될 가능성이 매우 높습니다.더욱 짜증나는 것은 그의 논문이 출판사에서 수익을 내기 위해 이용되었다는 점이다.네이처(Nature) 보고서에 따르면, 지난 달 영국 학술 출판사 테일러 앤 프란시스(Taylor & Francis)는 마이크로소프트와 1천만 달러 규모의 계약을 체결하여 마이크로소프트가 AI 시스템 개선을 위해 자사 데이터에 접근할 수 있도록 허용했습니다.6월의 투자자 업데이트에 따르면 미국 출판사인 Wiley는 회사에 콘텐츠 교육 모델을 사용하도록 허용한 후 미화 2,300만 달러의 막대한 이익을 얻었습니다.하지만 이 돈은 대부분의 논문의 저자와는 아무런 관련이 없습니다.게다가 워싱턴 대학의 AI 연구원인 루시 루 왕(Lucy Lu Wang)도 오픈 액세스 저장소가 아니더라도 온라인에서 읽을 수 있는 콘텐츠는 모두 LLM에 입력되었을 것이라고 말했습니다.더 무서운 점은 모델의 학습 데이터로 사용된 논문은 모델 학습이 완료된 후에도 삭제할 수 없다는 점입니다.귀하의 논문이 아직 AI 훈련에 사용되지 않았다면 걱정하지 마세요. 곧 가능할 것입니다!데이터 세트는 금과 같으며 주요 기업들이 이에 입찰하고 있습니다.
우리 모두는 LLM이 대규모 데이터에 대한 교육이 필요하다는 것을 알고 있으며 이러한 데이터는 일반적으로 인터넷에서 가져옵니다.LLM이 텍스트, 이미지 및 코드를 생성하는 패턴을 파생하는 것은 이러한 교육 데이터에 있는 수십억 개의 토큰에서 비롯됩니다.학술 논문은 길고 정보 밀도가 높으므로 LLM에 제공할 수 있는 가장 귀중한 데이터 중 하나입니다.또한, 많은 양의 과학 정보에 대해 LLM을 교육하면 과학 주제에 대한 추론 능력을 크게 향상시킬 수도 있습니다.Wang은 8,110만 개의 학술 논문을 기반으로 한 데이터세트인 S2ORC를 공동 제작했습니다. 처음에는 S2ORC 데이터 세트가 텍스트 마이닝용으로 개발되었지만 나중에는 LLM 교육에 사용되었습니다.비영리단체 Eleuther AI가 2020년에 구축한 Pile은 NLP 연구에서 가장 널리 사용되는 대규모 오픈소스 데이터 세트 중 하나이며 총 용량은 800GB입니다. 여기에는 학술 소스의 텍스트가 많이 포함되어 있으며 arXiv 논문의 비율은 8.96%입니다. 또한 PubMed, FreeLaw 및 NIH와 같은 다른 학술 웹사이트도 다루고 있습니다.얼마 전 오픈 소스 1T 토큰 데이터 세트 MINT도 보물 arXiv를 발견하여 총 870,000개의 문서와 9B 토큰을 추출했습니다.아래의 데이터 처리 흐름도를 보면 논문 데이터의 품질이 얼마나 높은지 알 수 있습니다. 많은 필터링과 중복 제거가 거의 필요하지 않으며 사용률이 매우 높습니다.이제 저작권 분쟁에 대응하여 주요 모델링 회사는 고품질 데이터 세트를 구매하기 위해 실제 돈을 지불하기 시작했습니다.올해 Financial Times는 자사 콘텐츠를 상당한 가격에 OpenAI에 판매했습니다. Reddit도 Google과 비슷한 계약을 체결했습니다.해당 논문이 LLM에서 사용되었음을 증명하는 것은 매우 어렵습니다.
일부 AI 개발자는 자체 데이터 세트를 공개하지만 AI 모델을 개발하는 많은 회사는 대부분의 훈련 데이터를 기밀로 유지합니다.Mozilla Foundation의 AI 교육 데이터 분석가인 Stefan Baack은 이들 회사가 어떤 교육 데이터를 보유하고 있는지 아는 사람이 없다고 말했습니다.업계 내부자들 사이에서 가장 인기 있는 데이터 소스는 의심할 여지없이 오픈 소스 저장소 arXiv 및 학술 데이터베이스 PubMed의 요약입니다.현재 arXiv는 250만 개가 넘는 논문의 전문을 호스팅하고 있으며, PubMed는 3,700만 개가 넘는 놀라운 인용 횟수를 보유하고 있습니다.PubMed와 같은 웹사이트에 있는 일부 논문의 전문에는 유료화 기능이 있지만 논문 초록은 자유롭게 찾아볼 수 있으며 이 부분은 거대 기술 회사에서 크롤링했을 수도 있습니다.그렇다면 자신의 논문이 사용되었는지 여부를 확인할 수 있는 기술적 방법은 없을까요?Imperial College London의 컴퓨터 과학자인 Yves-Alexandre de Montjoye는 다음과 같이 말했습니다. LLM이 특정 논문을 사용했음을 증명하는 것은 매우 어렵습니다.한 가지 방법은 종이 텍스트에서 매우 희귀한 문장을 사용하여 모델에 메시지를 표시하고 해당 출력이 원본 텍스트의 다음 단어인지 확인하는 것입니다.일부 학자들은 한때 "해리포터와 마법사의 돌"의 세 번째 장을 시작하면서 GPT-3를 자극했고, 모델은 책 내용의 전체 페이지에 대해 빠르고 정확하게 내뱉었습니다.그렇다면 사라진 것입니다. 종이는 모델의 훈련 세트에 있습니다.그렇지 않다면 어떨까요? 이것이 반드시 종이가 사용되지 않았다는 유효한 증거는 아닙니다.개발자는 훈련 데이터와 너무 밀접하게 일치하지 않도록 응답을 필터링하도록 LLM을 코딩할 수 있기 때문입니다.우리의 모든 노력에도 불구하고 여전히 이를 명확하게 증명할 수 없을 수도 있습니다.이 방법의 원리는 모델이 이전에 보았던 것을 볼 때 출력에 더 확신을 갖게 된다는 것입니다.이를 위해 De Montjoye 팀은 "저작권 함정"을 개발했습니다.함정을 설정하기 위해 팀은 흰색 배경에 흰색 텍스트나 웹 페이지의 너비가 0인 필드 등 그럴듯하지만 의미 없는 문장을 생성하여 작업에 숨겼습니다.모델이 텍스트에 숨겨진 제어문보다 사용되지 않은 제어문에 의해 더 당황하는 경우 이는 함정이 보였다는 통계적 증거로 사용될 수 있습니다.
그러나 LLM이 특정 논문에 대해 교육을 받았다는 것이 입증된 경우에도 우리는 무엇을 할 수 있습니까?게시자의 관점에서는 개발자가 허가 없이 교육에 저작권이 있는 텍스트를 사용하는 경우 이는 확실히 침해입니다.하지만 상대방은 이렇게 반박할 수 있습니다. 빅 모델은 표절한 것이 아닌데 어떻게 침해 주장이 있을 수 있겠습니까?실제로 LLM은 아무것도 복사하지 않고 단순히 교육 데이터에서 정보를 가져와서 분해한 다음 이를 사용하여 새로운 텍스트를 생성하는 방법을 학습합니다.더 복잡한 문제는 상업적인 연구 사용과 학술적인 연구 사용 사이에 선을 긋는 방법입니다.arXiv 웹 사이트의 현재 이용 약관에 따라 모든 전자 사전 인쇄 용지 및 웹 사이트 메타데이터의 캡처, 저장 및 사용은 개인 또는 연구 목적으로 규정을 준수하고 지원됩니다.그러나 arXiv의 상업적 이용은 엄격히 금지됩니다.따라서 문제는 영리 회사가 비즈니스 모델을 교육하기 위해 학술 기관에서 발표한 오픈 소스 데이터 세트를 사용하고 데이터 소스에 arXiv 또는 유사한 학술 출판 기관이 포함되어 있는 경우 이것이 어떻게 계산되는지입니다.게다가 출판사는 논문이 모델의 훈련 데이터로 사용될 수 있는지 여부를 사용자의 구독 조건에 명확하게 규정하지 않는 경우가 많습니다.