소식

NeurIPS24 리뷰 결과는 인터넷 전체에서 비판을 받았으며 LeCun을 놀라게했습니다! 리뷰어는 낮은 점수를 주었고 논문의 기여도를 심각하게 과소평가했습니다.

2024-08-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  새로운 지혜 보고서

편집자: 타오지(Taozi)
[새로운 지혜 소개]NeurIPS 2024 리뷰 결과가 나오자마자 네트워크 전체에서 가장 큰 불만이 접수되는 영역이 되었습니다.

매년 AI 분야 최고 국제회의에서는 '빅 이벤트'가 필연적으로 일어난다.
얼마 전 드디어 NeurIPS 2024 논문심사 결과가 공개되자 네티즌들은 '군집'하며 시비를 걸기 시작했다.
이때 일부 네티즌들은 이런 소식을 전했습니다.
"일부 리뷰어들은 논문의 기여도를 심각하게 과소평가하고, 불합리한 기준을 사용하여 판단하며, 심지어 다른 작업에 비해 논문의 실제 개선을 무시하기도 합니다."
그는 이 사람이 경쟁 제품을 발견한 후 부정직한 리뷰를 작성한 저자일 수 있다고 믿습니다.
르쿤 감독도 이를 지켜보며 곧바로 게시물을 전달했다.
지역 의장으로서 저는 저자들에게 다음과 같이 말합니다. 이런 일이 발생하면 지역 의장(AC)에게 연락하십시오.

저자로서 저는 묻고 싶습니다. 이러한 행동을 어떻게 적절하게 지적하고 정당한 비판과 과도한 경계 사이의 균형을 찾으십니까?
또 다른 네티즌은 NeurIPS 리뷰어의 고전적인 댓글을 게시했습니다. 이 솔루션은 새로운 것이 아니며 광범위하게 연구되었습니다.
올해로 38차 NeurIPS 연차총회가 12월 9일부터 15일까지 밴쿠버에서 개최됩니다.
Paper Copilot이 수집한 통계에 따르면 현재까지 평균 점수 분포는 3~6점 사이가 대부분입니다.
논문 점수가 낮다면 누구의 잘못일까요?

NeurIPS 논문의 점수가 낮나요?


NeurIPS의 이 최고 컨퍼런스의 지역 의장(AC) 중 한 명이기도 한 UT Austin의 부교수는 그가 본 현상을 설명했습니다.
그는 자신이 담당한 논문 중 48편 중 16편이 심사를 위해 제출됐다고 말했다.
지금까지 단 한 건의 긍정적인 리뷰도 본 적이 없습니다. 리뷰어가 매우 엄격해졌거나 논문의 질이 떨어졌나요?
올해 NeurIPS는 많은 "재활용" 논문을 받았습니다.
또 다른 AI 연구자도 논문의 질이 떨어졌거나, 모두가 싫어하는 2위 리뷰어라고 말했다.
그가 검토한 논문에서는 기본적으로 2~4점을 주었다.
또 다른 리뷰어는 “내가 담당한 62편의 논문에서 평균점수는 4.3점, 표준편차는 1점이었다. 그러니 처음에 낮은 점수를 받았다고 해서 실망하지 마세요!”라고 말했다.
이번 NeurIPS 컨퍼런스에 참여한 논문의 저자들은 매우 불편해하고, 높은 점수를 받기가 쉽지 않다는 것을 알 수 있습니다.

대형 모델이 리뷰에 참여합니다.


그리고 AI가 대중화된 이후에는 논문 심사에도 대형 모델이 활용됐다.
이번에는 NeurIPS 2024도 예외는 아닙니다.
한 Reddit 사용자는 한 달 동안 6개의 논문을 검토했는데 LLM 평가를 받은 것을 보고 정말 마음이 아팠다고 말했습니다.
다른 사람들은 자신들이 검토한 논문 중 대형 모델에서 생성된 리뷰 의견이 최소 3개 이상 발견되었으며 그 중 3개는 논문을 전혀 읽지 않은 채 복사하여 붙여넣은 ChatGPT 출력일 가능성이 더 높다고 지적했습니다.
이 리뷰어들은 모두 6점을 주었고 Confidence에는 4점을 주었으며 이는 다른 모든 사람의 평가와 완전히 일치하지 않습니다.
일부 네티즌들은 “논평의 질이 너무 떨어진다”는 댓글을 달기도 했다.
한 검토자는 우리 방법의 기준선을 혼동했고, 다른 검토자는 기준선 도출(우리 작업에서 비판된 대로)과 우리 방법의 도출을 혼동했습니다. 일부 의견은 LLM에서 생성된 것 같습니다.

심사위원단은 왜 그렇게 바쁘나요?


누군가는 이것이 NeurIPS 공식 조직위원회의 문제라고 지적했습니다.
NeurIPS 검토의 경우 6개 지점에 대한 설명이 완전히, 완전히, 기이할 정도로 잘못되었습니다.

일반적으로 6점은 거절을 의미합니다. 그런데 문제가 없는 보통에서 높은 영향력의 논문으로 설명되어 있나요?

새로운 리뷰어가 그렇게 낮은 점수를 준 것도 당연합니다!
NeurIPS 채점 규칙에서는 약한 수용(Weak Accept)이라는 6점을 도입합니다.
평가, 자원, 재현성, 윤리적 고려 사항에 큰 문제가 없는 기술적으로 견고하고 중간에서 높은 영향력의 논문입니다.
올해 6월 NeurIPS AC는 최고의 컨퍼런스 리뷰에 대해 더 많은 정보를 공유했습니다.
그가 담당하는 배치에는 13개의 제출물이 있으며 모든 논문에는 자동으로 4명의 검토자가 할당됩니다.
흥미롭게도 리뷰어의 50%가 박사과정 학생이고, 몇몇 석사 및 학부생도 리뷰어입니다.
13개 논문 중 5개 논문에서 심사위원 중 박사과정 후보자보다 높은 직책을 맡은 사람은 한 명도 없었습니다.
이번 AC를 담당하는 심사위원 중에는 정교수 3명, 부교수 1명, 조교수 4명, 업계 전문가 9명, 국립연구소 인력 2명이 있다. 나머지는 박사후과정/연구과학자, 박사과정 학생, 석사과정 학생, 학부생입니다.
올해 NeurIPS 리뷰에 대해 어떻게 생각하시나요?
참고자료: