notizia

I risultati della revisione NeurIPS24 sono stati criticati da tutta Internet, allarmando LeCun! Il revisore ha dato un punteggio basso e ha seriamente sminuito il contributo dell'articolo.

2024-08-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Nuovo rapporto sulla saggezza

Editore: Taozi
[Introduzione alla Nuova Saggezza]Non appena sono stati pubblicati i risultati della revisione NeurIPS 2024, questa è diventata l’area più colpita dai reclami in tutta la rete.

Ogni anno in occasione della massima conferenza internazionale nel campo dell'intelligenza artificiale accadono inevitabilmente "grandi eventi".
Qualche tempo fa, i risultati della revisione cartacea NeurIPS 2024 sono stati finalmente pubblicati e gli utenti della rete hanno cominciato a "riunirsi in gruppi" e sono diventati litigiosi.
In questo momento, alcuni netizen hanno dato la notizia:
"Alcuni revisori sminuiscono seriamente il contributo dell'articolo, utilizzano standard irragionevoli per giudicare e ignorano persino l'effettivo miglioramento dell'articolo rispetto ad altri lavori."
Ritiene che questo possa essere l'autore di un prodotto concorrente che ha fatto una recensione disonesta dopo averlo scoperto.
Anche il capo LeCun è venuto a vedere e ha immediatamente inoltrato la posta.
In qualità di presidente dell'area, dico agli autori: se ciò accade a te, contatta il presidente dell'area (AC).

Come autore, voglio chiedere: come evidenziare in modo appropriato questo comportamento e trovare l'equilibrio tra critiche legittime e cautela eccessiva?
Un altro utente della rete ha pubblicato un classico commento da un recensore di NeurIPS: Questa soluzione non è nuova ed è stata ampiamente studiata.
Quest'anno si tratta del 38esimo incontro annuale di NeurIPS, che si terrà a Vancouver dal 9 al 15 dicembre.
Secondo le statistiche raccolte da Paper Copilot, finora, la distribuzione media del punteggio è per lo più compresa tra 3 e 6 punti.
Se il test ottiene un punteggio basso, di chi è la colpa?

Il documento NeurIPS ha ottenuto un punteggio basso?


Un professore associato dell'UT Austin, che è anche uno degli Area Chairs (AC) di questa importante conferenza di NeurIPS, ha spiegato il fenomeno che ha osservato.
Ha detto che tra i documenti di cui era responsabile, 16 dei 48 documenti erano stati presentati per la revisione.
Finora non ho visto una sola recensione positiva, o i revisori sono diventati molto severi o la qualità dell'articolo è peggiorata?
Quest'anno NeurIPS ha ricevuto numerosi documenti di "riciclo".
Un altro ricercatore di intelligenza artificiale ha anche affermato che o la qualità dell'articolo è peggiorata, oppure io sono il revisore numero 2 che tutti odiano.
Nei documenti che ha esaminato, ha dato sostanzialmente 2-4 punti.
Un altro revisore ha detto: "Nel lotto di 62 articoli di cui ero responsabile, il punteggio medio era di 4,3 punti e la deviazione standard era 1. Quindi, se inizialmente ottieni un punteggio basso, non scoraggiarti!"
Si può vedere che gli autori degli articoli di questa conferenza NeurIPS sono molto a disagio e non è facile ottenere punteggi elevati.

I modelli di grandi dimensioni partecipano alla revisione


E dopo che l’intelligenza artificiale è diventata popolare, i modelli di grandi dimensioni sono stati utilizzati anche per la revisione cartacea.
Questa volta NeurIPS 2024 non fa eccezione.
Un utente di Reddit ha commentato di aver trascorso un mese a rivedere 6 articoli ed è rimasto davvero ferito quando ha visto di aver ricevuto una valutazione LLM.
Altri hanno sottolineato che tra i documenti esaminati, hanno trovato almeno tre opinioni di revisione generate da modelli di grandi dimensioni, e probabilmente ce ne sono di più. Tre di essi erano ovviamente output di ChatGPT copiati e incollati senza leggere affatto il documento.
Tutti questi revisori gli hanno dato un 6, dando a Confidence un 4, completamente incoerente con le valutazioni di tutti gli altri.
Alcuni netizen hanno commentato: "La qualità delle revisioni cartacee è molto bassa".
Un revisore ha confuso la linea di base del nostro metodo e un altro revisore ha confuso la derivazione della linea di base (come criticato nel nostro lavoro) con la derivazione del nostro metodo. Sospetto che alcuni commenti siano generati da LLM.

Perché questa giuria è così impegnata?


Qualcuno ha sottolineato che questo è un problema del comitato organizzatore ufficiale NeurIPS.
Per la recensione NeurIPS, la descrizione di 6 punti è completamente, assolutamente e stranamente sbagliata.

Normalmente, un punteggio pari a 6 significa rifiuto. Ma viene descritto come un documento di impatto da moderato a elevato senza problemi?

Non c'è da stupirsi che il nuovo recensore gli abbia dato un punteggio così basso!
Nelle regole di punteggio NeurIPS viene data un'introduzione di 6 punti: Accettazione debole.
Documenti tecnicamente solidi, di impatto da moderato ad alto senza grossi problemi di valutazione, risorse, riproducibilità, considerazioni etiche.
Nel giugno di quest'anno, un AC di NeurIPS ha condiviso molte più informazioni sulla revisione della conferenza più importante:
Ci sono 13 proposte nel gruppo di cui è responsabile e a tutti i documenti sono stati assegnati automaticamente quattro revisori.
È interessante notare che il 50% dei revisori sono studenti di dottorato e anche diversi studenti di master e universitari sono revisori.
In 5 dei 13 articoli, nessuno dei revisori ha ricoperto una posizione più elevata di quella di un dottorando.
Tra tutti i revisori responsabili di questo AC, ci sono 3 professori ordinari, 1 professore associato, 4 professori assistenti, 9 professionisti del settore e 2 membri del personale dei laboratori nazionali. Il resto sono scienziati post-dottorato/ricercatori, dottorandi, studenti di master e studenti universitari.
Cosa ne pensi della recensione NeurIPS di quest’anno?
Riferimenti: