소식

ChatGPT가 학계를 오염시키고 있습니다.

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
Chen Junda가 편집함
편집판켄

어제 최고 학술지 네이처(Nature)의 보고서에 따르면, 학술 글쓰기에 생성 AI를 활용하는 것이 폭발적인 성장을 가져왔습니다. 관련 연구에 따르면, 생명의학 분야 최대 데이터베이스인 PubMed의 논문 초록 중 10%가 AI가 작성한 것으로 의심되는데, 이는 매년 15만 편의 논문에 AI가 관여한 것과 맞먹는다.

독일 베를린 응용과학대학교의 연구에 따르면 주류 AIGC 탐지 도구의 평균 정확도는 50%에 불과하며 인간의 글쓰기 콘텐츠가 AI에 의해 생성되었음을 쉽게 판단할 수 있습니다. 그러나 AI로 생성된 많은 논문은 의역, 동의어 대체 등을 통해 쉽게 숨겨질 수 있습니다. 또한, 영어 원어민이 AI 도구를 사용하는 경우 감지하기가 더 어렵습니다.

AI 도구는 이전에도 학계에서 널리 활용됐지만, 생성 AI를 활용해 직접 논문을 출력하거나 대필 글쓰기에 활용하는 것은 여전히 ​​논란의 여지가 있다. AI 도구는 표절을 더 쉽게 만들고 저작권이 있는 콘텐츠의 오용으로 이어질 수 있습니다.

AI 지원 글쓰기에는 장점이 없지 않습니다. 많은 학자들이 생소한 언어로 논문을 출판하는 수고를 피하고 과학 연구 자체에 집중할 수 있도록 생성적 AI 지원 글쓰기를 사용합니다. 많은 저널에서는 생성적 AI 도구의 사용을 허용하지만 저자는 논문에서 해당 도구의 사용을 자세히 공개하도록 요구합니다.

1. AI가 150,000개의 초록 작성에 참여할 수 있으며, 영어가 모국어가 아닌 사람이 발견될 가능성이 더 높습니다.

2022년 말 ChatGPT가 출시된 이후 학술 작문에서 AI의 사용이 폭발적으로 증가했습니다. 독일 튀빙겐대학교 연구에 따르면 2024년 상반기에는 생의학 논문 초록의 최소 10%가 AI를 활용해 작성될 것으로 나타났는데, 이는 연간 약 15만 편의 논문에 해당한다.

연구팀은 2010년부터 2024년까지 생의학 분야 데이터베이스인 PubMed의 1,400만 편의 논문 초록을 분석했다. ChatGPT로 대표되는 생성 AI 도구의 등장 이후 특정 수정 문체 단어의 사용이 비정상적으로 급증한 것으로 나타났다. 연구팀은 이러한 단어의 빈도를 활용해 AI를 사용해 작성된 초록의 비율을 추정했다.

연구원들은 또한 AI 글쓰기 도구의 사용이 국가마다 다르다는 것을 발견했습니다. 그들의 데이터에 따르면 중국과 한국과 같은 국가의 논문은 영어권 국가의 논문보다 AI 글쓰기 도구를 더 자주 사용하는 것으로 나타났습니다.


▲학문적 글쓰기에서 문체적 어휘의 사용이 급증했다 (출처: '네이처')

연구팀의 분석에 따르면, 영어권 작가들의 AI 사용 빈도는 다른 나라의 AI 사용 빈도와 유사할 수 있지만, 사용 방식은 탐지하기가 더 어려울 수 있습니다.

실제로 이러한 생성적 AI의 물결이 나타나기 전에는 이미 AI가 약물 발견 및 단백질 구조 예측과 같은 분야에서 사용되어 큰 논란을 일으키지 않았습니다. 아직까지는 조연이다.

학술 글쓰기에 생성 AI를 적용하면 두 가지 주요 문제가 발생합니다. 한편으로, 생성 AI를 통해 표절이 더 쉬워졌습니다. 표절자는 생성 AI를 활용해 다른 사람의 연구를 학술지 스타일로 의역할 수 있다. 의역된 텍스트는 일반적으로 원문과 덜 유사해 표절로 판단하기 어렵다.

또한, AI 모델은 학습 과정에서 저작권 보호 콘텐츠를 대량으로 소비하므로 모델이 별도의 안내 없이 사용자에게 저작권 보호 콘텐츠를 출력할 가능성이 매우 높습니다. New York Times는 OpenAI의 AI 챗봇인 ChatGPT가 출처를 표시하지 않고 New York Times 보고서의 원본 단어를 직접 출력했다는 사실을 발견한 적이 있습니다. 그들은 또한 침해 혐의로 OpenAI를 고소했습니다.

2. 고양이와 쥐 게임에서는 탐지 도구가 실패합니다. 탐지 도구는 쉽게 우회되고 잘못 판단될 수 있습니다.

AI 도구의 사용이 증가함에 따라 많은 기업에서 AIGC 콘텐츠 탐지 도구를 출시했지만 이러한 도구는 생성 AI를 사용한 "고양이와 쥐 게임"에서 실패했습니다.

지난해 말 독일 베를린 응용과학대학 여러 학자들이 연구 결과를 발표한 결과, 학계에서 흔히 사용되는 AI 탐지 도구 14개 중 5개만이 70% 이상의 정확도를 달성한 것으로 나타났다. 평균 인식 정확도는 50%-60%에 불과합니다.


▲시중의 주류 AIGC 탐지 도구는 성능이 좋지 않습니다. (출처: Weber‑Wulf et al.)

이러한 AIGC 탐지 도구는 인간이 편집하고 기계가 복사한 AI 생성 콘텐츠를 접할 때 성능이 더욱 저하됩니다. 동의어 교체, 어순 조정 등의 간단한 작업만으로는 AIGC 탐지 도구의 정확도가 50% 미만으로 떨어지게 됩니다. 연구에 따르면 AIGC 탐지 도구의 종합적인 인식 정확도는 50%에 불과합니다.


그림의 05와 06은 각각 인간이 편집한 텍스트와 AI가 생성한 기계 의역을 거친 텍스트입니다. AIGC 탐지 도구는 이 두 가지 유형의 텍스트에서 성능이 매우 낮습니다. (출처: Weber‑Wulf et al.)

데이터에 따르면 시중의 AIGC 인식 도구는 사람이 작성한 논문을 식별하는 데 높은 정확도를 가지고 있습니다. 그러나 저자가 자신에게 익숙한 언어로 원본 논문을 작성한 후 번역 소프트웨어에 이를 다른 언어로 번역해 달라고 요청하면 식별 도구가 이를 AIGC로 잘못 판단할 수 있습니다. 이는 학자와 학생의 학문적 평판에 극도로 부정적인 영향을 미칠 수 있습니다.

3. 글쓰기 보조와 학문적 부정행위 사이의 경계가 모호해지고, AI 글쓰기 도구 역시 그 가치를 갖고 있습니다.

그러나 생성 AI 도구를 사용하면 일부 연구자들에게는 편의성이 제공됩니다. 리야드 킹 사우드 대학의 정보 기술 연구원인 헨드 알 칼리파(Hend Al-Khalifa)는 생성 AI 도구가 등장하기 전에는 영어에 능숙하지 않은 많은 동료들이 논문을 작성할 때 큰 어려움을 겪었고 이제는 이 학자들이 집중할 수 있다고 말했습니다. 글쓰기에 너무 많은 시간을 소비하는 대신 연구 자체에 집중하세요.

AI를 활용한 글쓰기와 학문적 부정행위 사이의 경계를 긋는 것은 어렵습니다. 메릴랜드 대학교의 컴퓨터 과학자인 소헤일 페이지(Soheil Feizi)는 생성 AI를 사용하여 기존 논문의 내용을 의역하는 것은 명백한 표절이라고 믿습니다.

그러나 의견 표현을 돕기 위해 AI 도구를 사용하는 것이 처벌되어서는 안 됩니다. AI 도구의 사용을 적극적으로 공개하는 것을 전제로 연구자는 상세한 프롬프트 단어를 사용하여 텍스트를 생성하거나 AI 도구를 사용하여 초안을 편집할 수 있습니다.

또한 많은 저널에서는 직접적으로 금지하지 않고 학술 글쓰기에서 AI 도구의 사용을 표준화했습니다. 최고학술지 '사이언스'는 AI는 공동저자로 등재될 수 없으며, 저자는 AI 시스템과 사용된 프롬프트 단어를 공개해야 하며, 내용의 정확성과 표절 의심 여부에 대해 책임을 져야 한다고 규정하고 있다.


▲학술지 '사이언스'의 AI 활용 관련 규정 (출처: 학술지 '사이언스' 공식 홈페이지)

학술지 네이처(Nature)에서는 연구자가 '연구 방법' 항목에 생성 AI 도구의 사용을 기록해야 한다고 규정하고 있습니다. 통계에 따르면 2023년 10월 현재 상위 100개 저널 중 87개가 생성 AI 도구 사용에 대한 지침을 개발했습니다.

결론: AI 도구는 재앙이 아니다. 학문적 방향을 바꾸는 것만이 근본 원인을 치료할 수 있다

지난 대학 졸업 시즌에는 많은 국내 대학에서도 졸업 논문 방어 및 검토 과정에서 AIGC 테스트 도구를 도입했습니다. 그러나 이 지표의 도입은 AI 도구와 관련된 학문적 부정행위를 효과적으로 억제하지 못했습니다. AI 비율을 전문적으로 낮추는 다양한 서비스도 시중에 나와 있다. AI가 만든 것으로 오인된 후 AI 비율 감소로 인해 많은 학생들의 논문이 인식할 수 없을 정도로 변경됐다.

학술 연구에서 생성 AI 도구에 대한 적대적인 접근 방식을 채택하면 이 문제를 해결하지 못할 수도 있습니다. 독일 베를린 응용과학대학 학자들도 연구를 요약하면서 학술 글쓰기에서 AI 남용 문제는 AIGC 검출만으로는 해결하기 어렵다고 강조했다. 이 문제를 해결합니다.

출처: "자연"