2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
저자 |
이메일 │[email protected]
편집자 │왕자오양
이메일|[email protected]
1
끊어진 링크
최근 시크릿타워 AI 검색 이용자들은 웹사이트를 열면 상단에 눈길을 끄는 문구 한 줄을 발견하게 된다. "끝났습니다! 우리는 CNKI로부터 28페이지에 달하는 침해 통지서를 받았습니다."
"중국학술지(CD판)" 전자잡지 주식회사로부터 침해 통지서를 받았다는 시크릿 타워의 성명을 보려면 클릭하세요. 개인정보보호 문제로 논란이 된 CNKI는 이에 대해 침해고발장을 냈다.
간단히 요약하자면, MiTa AI 검색은 CNKI 콘텐츠를 검색할 수 있습니다. CNKI는 이를 침해로 간주하고 검색 서비스에서 CNKI 데이터 제공을 즉시 중단할 것을 요구합니다.
"저희 회사는 저희 웹사이트인 중국국가지식인프라스트럭처가 MiTa Technology에 의해 검색되는 것을 원하지 않습니다. 저희 웹사이트에서 검색된 결과를 즉시 연결 해제해 주시기 바랍니다. 비즈니스 협력이 필요한 경우 저희 회사에 문의하시기 바랍니다."
MiTa Technology는 성명서에서 MiTa AI 검색의 '학술' 섹션에는 논문의 문헌 초록과 참고문헌만 포함되며, 기사 자체의 내용은 포함되지 않는다고 답변했습니다. 텍스트를 읽으려면 웹사이트로 이동해야 합니다. 소스 링크를 통해 얻으세요. 학문적 기준에 따르면, 문서의 초록과 참고문헌은 독자가 전문을 읽지 않고도 필요한 정보를 얻을 수 있도록 독립적이고 설명이 필요해야 합니다.
현재 시크릿타워 학술검색의 일부 링크는 완팡데이터로 이동됩니다.
Secret Tower AI는 또한 지식의 가치가 그 흐름에 있다는 점을 강조합니다. 학술 문서는 인간의 지적 성취를 전달하는 중요한 전달자이며 대체 불가능합니다. 과학 문서가 사치품이 된다면 지식에 대한 공정한 접근이나 과학 연구 발전에 도움이 되지 않을 것입니다.
그러나 인간의 지혜부터 학문적 추구까지 논의한 끝에 Secret Towers가 내린 조치는 "연결을 끊는 것"이었습니다. "이해하지 못하더라도 CNKI의 선택을 존중합니다." 더 이상 포함 CNKI 문서의 서지 및 초록 데이터는 다른 권위 있는 중국어 및 영어 지식 기반의 서지 및 초록 데이터에 포함됩니다. 다른 데이터베이스도 협력하고 논의할 수 있습니다.
즉, Secret Tower는 CNKI의 항소 요건에 따라 최종적으로 불만 사항을 처리했습니다.
1
명확하게 설명되지 않은 중요한 문제
Secret Tower AI Search는 이번 AI 붐의 핵심 제품이며 종종 중국의 Perplexity와 비교됩니다. Secret Tower는 또한 이번 대형 모델 스타트업 라운드의 스타 회사이기도 합니다. 최신 뉴스에 따르면 최근 1억 위안의 자금 조달을 완료했으며 투자 후 가치는 1억 5천만 달러입니다. 미타는 빅모델 붐이 일어나기 전에 설립됐지만 핵심 제품인 미타 AI 검색은 올해 3월 정식 출시됐다.
후난위성TV에 방영된 Secret Tower 광고
CNKI의 침해 신고서에는 미타가 사용자에게 CNKI의 학술 문헌 서지 및 요약 데이터를 제공했으며 침해 혐의가 있다고 명시되어 있습니다. 이와 관련하여 상하이 다방 법률 사무소의 선임 파트너이자 변호사인 You Yunting은 웹 페이지가 논문과 다르다고 말했습니다. CNKI의 학술 문헌 참고 문헌과 초록 웹 페이지는 국내 사용자가 공개적으로 접근할 수 있는 중국 학술 문서입니다. 네트워크 데이터베이스 서비스 시장에서 지배적인 위치를 차지하고 있는 중국 사업자는 Secret Tower Search가 이 두 가지 공개 정보를 수집하는 것을 허용하지 않는 합리적인 이유가 있어야 합니다.
기본적으로 CNKI는 Secret Tower에 웹사이트를 크롤링하지 말 것을 요청하고 있습니다. 기존 검색 엔진 생태계에는 이러한 정보 수집 크롤러 동작에 대한 기본 규칙이 있습니다. 각 웹사이트와 다양한 정보 제공자는 Robots.txt 파일을 사용하여 크롤링할 수 있는 콘텐츠와 크롤링할 수 없는 콘텐츠를 검색 엔진에 알려줍니다.
Baidu 및 Google과 같은 검색 엔진은 이 과정에서 자체 크롤러의 이름을 지정하여 상대방에게 자신이 거기에 있었고 무엇을 빼앗았는지 알립니다. 그러나 CNKI의 Robots.txt 파일로 판단하면 크롤러를 차단하지 않습니다.
“흥미로운 점은 CNKI가 Mita에게 링크 연결 끊기를 요청하는 편지를 보냈음에도 불구하고 웹 콘텐츠 크롤링이 허용되지 않음을 의미하지만 로봇 파일(https://www.cnki.cn/robots.txt)은 전혀 링크를 해제하지 않는다는 것입니다. 검색 엔진 크롤러는 금지되어 있으며 CNKI의 로봇 파일 내용에 따르면 누구도 웹 페이지를 크롤링하는 것이 금지되어 있지 않습니다. 백그라운드 관리 인터페이스와 관련된 cms, query.html?*, 보고서, paper, qrcode, js, cs만 크롤링할 수 있습니다. 정적 리소스 디렉터리 및 특정 콘텐츠 디렉터리 웹 페이지는 크롤링할 수 없습니다.
업계 규정에 따라 상대방의 크롤링이 금지되지 않는데도 왜 우리가 알림 편지를 보내야 합니까?
"현재 많은 인공 지능 검색 엔진 크롤러는 무도덕을 따르지 않습니다. 그들은 전통적인 Baidu, Google, Sogou, Bing과 같은 자체 크롤러의 이름을 지정하지 않고 조용히 익명으로 크롤링합니다." 사실 이러한 익명의 크롤러가 반드시 이들 AI 검색업체의 이름으로 수행되는 것은 아닙니다. 다양한 방법을 사용하여 크롤링에 대한 이러한 기본 지침을 우회하는 많은 타사 크롤러 서비스가 시중에 나와 있습니다. Secret Tower의 답변에는 이러한 서비스의 사용 여부가 언급되지 않았습니다.
Peroplexity는 이전에도 비슷한 논란을 겪었습니다.
당시 Wired 잡지와 개발자 Robb Knight는 Perplexity가 robots.txt 표준을 준수하지 않는다는 사실을 조사한 결과 발견했습니다. 설립자 Aravind Srinivas는 인터뷰에서 Perplexity가 로봇 배제 프로토콜을 무시하지 않았다고 답했습니다... 문제의 웹 크롤러는 제3자 공급업체에 속한 것으로 밝혀졌습니다.
그러나 제3자 크롤러 사용을 중단할 것인지 묻는 질문에 그는 단순히 "복잡하다"고 말했습니다. 또한 당시 조사 결과, Perplexity가 실제 기사를 요약하지 않고 발췌문, 메타데이터 등 검색 엔진에 남겨진 URL과 흔적을 기반으로 콘텐츠를 재구성한 경우도 있는 것으로 드러났습니다. 데자뷰.
미타가 게재한 기사에 따르면 CNKI가 미타에게 보낸 침해 통지문은 28페이지에 달했다. 시크릿타워는 통지서만 가로채서 공개한 것으로 볼 때, 게시된 스크린샷으로 판단하면, 나머지 콘텐츠는 주로 침해의 증거를 나열하고 있는 것으로 보입니다.
이전에 많은 사용자가 공유한 내용에 따르면 Secret Tower에서는 비공개 문서를 얻을 수 있으며 Secret Tower 웹 페이지에서 직접 읽을 수 있습니다. 이러한 PDF 문서는 외부 도서관 웹 사이트에 연결되어 있지만 실제로 Secret Tower에 저장될 수 있습니다. 섬기는 사람. You Yunting은 Secret Tower가 CNKI 논문의 전체 텍스트가 포함된 색인 데이터베이스를 구축하면 침해가 될 수 있다고 믿습니다.
"MiTa AI 검색의 팟캐스트 및 라이브러리 섹션에는 색인 데이터베이스가 있습니다. 제가 이해하는 색인 데이터베이스는 MiTa가 일괄적으로 수집된 문헌에 대해 내부적으로 색인 데이터베이스를 직접 구축한 것일 수도 있습니다. 사용자가 검색하면 MiTa가 네트워크를 검색합니다. 해당 실시간 콘텐츠를 제공하고 인공 지능을 사용하여 실시간 검색 결과와 색인 라이브러리 콘텐츠를 통합하여 답변을 제공합니다."라고 You Yunting은 말했습니다. 즉, 핵심 표시 결과 페이지는 주석이 달린 소스 형태로 색인을 제공하지만 '원본 텍스트'도 자체 서비스로 이동합니다.
"인덱스 데이터베이스는 아마도 실제일 것이다. 사실 이는 기술적으로 증명하기 어렵지 않다. 우리가 소송을 대리할 때 이 문제에 직면했다. 우리는 일반적으로 문서의 실제 IP 주소를 표시하기 위해 패킷 캡처 소프트웨어를 사용한다. IP 주소가 시크릿타워 서버에 위치해 있으니, 시크릿타워에서 제공받았다는 뜻입니다.”
또한, 사전 훈련된 모델을 기반으로 하는 AI 검색 엔진으로서 이러한 지적재산권 데이터가 훈련 데이터에 활용되는지 여부가 더 중요한 문제입니다.
학습 중인 종이 데이터가 모델이 일반적으로 가지고 있는 "과적합" 문제로 인해 사용자에게 최종 출력되는 내용이 원본 텍스트와 매우 일치하는 경우 이는 "종이 청소"와 유사한 저작권 침해 범주에 들어갑니다. "공정 사용으로부터.
그런데 그러한 상황에서 CNKI가 개별 연구자가 작성한 논문을 “보호”할 권리가 있습니까?
"HowNet은 Secret Tower Training의 저작권 침해를 주장할 권리가 없습니다."
그는 CNKI 웹사이트에 있는 대부분의 논문이 포함되어 있지만, 해당 논문이 교육용으로 사용되는 경우 해당 잡지나 저자가 승인한 네트워크에 정보를 전파할 권리가 CNKI에 있다고 말했습니다. 저작권법에 규정된 복제 및 복제에 관한 권리는 CNKI의 정보통신망 보급권을 침해하지 않습니다. 물론, 잡지의 권리 보호 비밀탑 훈련이 침해된다면, 비밀탑은 뉴욕타임스가 OpenAI를 고소한 것과 같은 문제에 직면하게 될 것입니다.
1
좀 더 진지한 논의가 필요한 시점이다
따라서 시크릿타워가 '대응'하려는 타깃은 네티즌들 사이에서 '악'이라는 평가를 받고 있는 CNKI만이 아니다.
CNKI에 대한 반응 외에도 이러한 반응은 항상 공감을 불러일으키는데, 기사에 대한 반응의 댓글 부분을 보면 사람들은 여전히 오랫동안 CNKI의 태도를 유지하고 있으며 비밀 탑을 "중지"할 수 있습니다. 훈련 데이터 뒤에 있는 개별 작성자는 데이터가 어떻게 사용되는지 설명합니다.
논란이 되고 있는 '학술적' 검색 기능은 시크릿타워를 다른 퍼플렉시티들과 차별화시키는 중요한 디자인이기도 하다. 이러한 사용자는 수업 과제, 2차 기사 작성, 심지어 논문 작성과 같은 작업을 위해 많은 양의 문헌 검색을 수행해야 하는 사용자인 경우가 많습니다.
논문의 실제 저자에게는 이러한 데이터를 사용하면 다른 문제가 발생할 수 있습니다.
최근 네이처(Nature) 기사에서는 많은 학술 출판사가 AI 모델을 훈련하기 위해 자체 논문에 접근할 수 있도록 기술 회사에 권한을 부여했다고 지적했습니다. 예를 들어, 미국 출판사인 Wiley는 회사에 콘텐츠 교육 모델을 사용하도록 허용한 후 직접적으로 2,300만 달러의 수익을 얻었습니다. 그리고 이러한 수입은 논문의 저자와는 아무런 관련이 없습니다.
궁극적으로 해결 불가능할 것으로 예상되는 이러한 실제 소득 분배 문제에 더해, 이들 연구자들에게는 학계의 매우 중요한 일부 평가 시스템도 이 "AI 학술 검색"의 생성 과정에서 중단되었습니다. 예를 들어, 학계에서 매우 중요한 지표인 인용은 이러한 AI 학술 검색 시나리오에서는 더 이상 존재하지 않는 것 같습니다. 대형 모델 자체의 무작위성과 해석 불가능성, 그리고 데이터의 불완전성으로 인해 그것이 생성하는 학술 검색 결과는 학계 자체의 판단 기준과 달라지게 됩니다.
한 학자는 Silicon Star에 다음과 같이 말했습니다. 이러한 AI 검색이 스스로 답변을 생성할 때 선택할 항목과 선택하지 않을 항목을 선택하는 기준은 무엇입니까? 인용 횟수를 금 함량의 가장 직접적인 기준으로 간주하는 학자들에게 이러한 AI 결과가 점점 더 많아지고 많은 연구자들이 자신의 논문에 사용한다면 이것도 또 다른 형태의 AI SEO 오염일까요?
비밀탑법 질문 결과
분쟁 자체에 관해서는 Secret Tower가 색인 데이터베이스에서 CNKI 논문을 삭제하고 더 이상 사용자에게 CNKI 논문의 온라인 읽기 기능을 제공하지 않았을 때 지적 재산권 침해에 대한 분쟁은 미미했습니다. 역독점법과 인터넷 검색 엔진 서비스 자율 규율에 관한 협약에 따라 CNKI가 Secret Tower Search가 이 두 부분의 공개 정보를 수집하는 것을 허용하지 않는 것은 더 이상 합리적이지 않습니다.
하지만 AI 검색 기업이 자신들이 개발하고 있는 제품을 장기적이고 심각한 문제로 여긴다면, 제품이 주는 소소한 축복과 시크한 태도를 축하하는 것 외에도 이러한 복잡하고 현실적인 문제에 직면해야 할 때이기도 합니다. , 적절한 방식으로 공개적으로 논의해야만 그들이 도전하고 싶은 오늘날 정보 액세스 분야의 진정한 핵심에 도달할 수 있기를 바랍니다.