notizia

Si è scoperto che Google DeepMind aveva plagiato i risultati open source e il suo articolo è stato accettato nelle principali conferenze

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Il vento dell'ovest dei pesci e delle pecore proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Il grande circolo dei modelli ha ancora una volta smascherato il plagio di Dagua, questa volta,L’”imputato” è ancora il famoso Google DeepMind



Il "querelante" gridò direttamente con rabbia:Hanno appena lavato la nostra relazione tecnica

Nello specifico:

Un documento di Google DeepMind accettato nella conferenza più importante sulla nuova generazione CoLM 2024 è stato respinto. Il proprietario ha sottolineato che aveva plagiato uno studio pubblicato su arXiv un anno fa. Il tipo open source.



Entrambi gli articoli esplorano un metodo per formalizzare la struttura della generazione del testo modello.

Il problema è che il documento di Google DeepMind cita chiaramente il documento del "querelante".



Tuttavia, anche se le citazioni sono indicate, i due autori dell'articolo "querelante", Brandon T. Willard (Brandon) e R'emi Louf (Remy), insistono ancora sul fatto che Google ha plagiato, e ritengono che:

La descrizione di Google delle differenze tra i due è "semplicemente ridicola".



Molti netizen hanno lentamente sollevato un punto interrogativo dopo aver letto l’articolo: come ha revisionato il manoscritto CoLM?



L'unica differenza è che il concetto è stato cambiato?



Dai un'occhiata rapidamente al confronto cartaceo...

Confronto tra due documenti

Diamo una rapida occhiata al confronto astratto tra i due articoli.

Ciò che afferma l'articolo di Google DeepMind è che la tokenizzazione crea problemi all'output del modello linguistico vincolato. Hanno introdotto la teoria degli automi per risolvere questi problemi. Il nocciolo della questione è evitare di attraversare tutti i valori logici (logit) in ogni fase di decodifica.

Questo metodo deve solo accedere al valore logico decodificato di ciascun token e il calcolo è indipendente dalla dimensione del modello linguistico. È efficiente e facile da usare in quasi tutte le architetture del modello linguistico.

La dichiarazione del “querelante” è più o meno:

Viene proposto un quadro efficiente per migliorare notevolmente l'efficienza della generazione di testo vincolata costruendo un indice sul vocabolario del modello linguistico.Per dirla semplicemente, lo èEvitare di attraversare tutti i valori logici tramite l'indicizzazione

Inoltre "non dipendente da un modello specifico".



C’è davvero una grande differenza di direzione, quindi diamo un’occhiata a maggiori dettagli.

Abbiamo utilizzato Google Gemini 1.5 Pro per riassumere i contenuti principali dei due articoli, quindi abbiamo chiesto a Gemini di confrontare le somiglianze e le differenze tra i due.

Per quanto riguarda il documento di Google "convenuto", Gemini ha riassunto il suo metodo comeRidefinire la detokenizzazione come un'operazione Finite State Transformer (FST).



Combina questo FST con un automa che rappresenta il linguaggio formale di destinazione, che può essere rappresentato da un'espressione regolare o da una grammatica.

Attraverso la combinazione di cui sopra, viene generato un automa basato su token, che viene utilizzato per vincolare il modello linguistico durante il processo di decodifica per garantire che il testo di output sia conforme alle specifiche linguistiche formali preimpostate.

Inoltre, il documento di Google ha creato anche una serie di estensioni di espressioni regolari, scritte utilizzando gruppi di acquisizione appositamente denominati per migliorare significativamente l'efficienza e l'espressività del sistema durante l'elaborazione del testo.

Per quanto riguarda il documento del "querelante", Gemini ha riassunto il nucleo del suo approccio comeRiformulare il problema della generazione del testo come una trasformazione tra macchine a stati finiti (FSM)

Il metodo specifico del "querelante" è:

  • Costruisci FSM utilizzando espressioni regolari o grammatiche libere dal contesto e usale per guidare il processo di generazione del testo.
  • Identifica in modo efficiente le parole valide in ogni passaggio ed evita di attraversare l'intero vocabolario costruendo un indice del vocabolario.



Gemini elenca i punti in comune tra i due articoli.



Per quanto riguarda la differenza tra i due, è un po’ come ha detto il netizen precedente. Il semplice riassunto è: Google definisce il vocabolario come un FST.



Come accennato in precedenza, Google ha elencato il documento del querelante come il lavoro “più rilevante” nella sezione “Lavori correlati”:

La ricerca più rilevante è Outlines (Willard & Louf, 2023), che utilizza anche gli automi a stati finiti (FSA) e gli automi pushdown (PDA) come vincoli: il nostro metodo è stato sviluppato in modo indipendente all'inizio del 2023.

Google ritiene che la differenza tra i due sia che il metodo di Outlines si basa su un'operazione di "indicizzazione" appositamente predisposta che richiede l'espansione manuale a nuovi scenari applicativi. Al contrario, Google ha completamente ridefinito l’intero processo utilizzando la teoria degli automi, rendendo più semplice l’applicazione della FSA e la generalizzazione ai PDA.

Un'altra differenza è che Google ha definito estensioni per supportare la corrispondenza dei caratteri jolly e migliorare l'usabilità.



Google ha menzionato Outlines anche quando ha introdotto i seguenti due lavori correlati.

Uno è che Yin et al (2024) hanno esteso Outlines aggiungendo la possibilità di "comprimere" segmenti di testo alla precompilazione.

Un altro è un sistema recentemente proposto da Ugare et al (2024) chiamato SynCode. Utilizza anche FSA, ma utilizza i parser LALR e LR invece del PDA per elaborare la grammatica.

Simile a Outlines, questo metodo si basa su algoritmi personalizzati.

Ma le persone che mangiano il melone ovviamente non lo comprano molto:

I revisori del CoLM dovrebbero prenderne nota. Non penso che questi sembrino essere "sforzi contemporanei" separati.



Netizen: Questo non è raro...

Non appena l'incidente è venuto alla luce, molti netizen si sono arrabbiati. Il plagio era vergognoso, per non parlare del fatto che "non è la prima volta che un gigante della tecnologia plagia il lavoro di un piccolo team".

A proposito, sia Brandon che Remy stavano lavorando in remoto per Normal Computing, una società di AI Infra fondata nel 2022, quando hanno pubblicato l'articolo del querelante.

Oh, a proposito, parte del team fondatore di Normal Computing proveniva da Google Brain...



Inoltre, Brandon e Remy hanno ora avviato un'attività insieme. La nuova società si chiama .txt. Secondo le informazioni del sito ufficiale, il suo obiettivo è fornire un modello di estrazione delle informazioni veloce e affidabile. E la home page di GitHub elencata sul sito ufficiale è il magazzino di Outlines.

Tornando ai cittadini della rete, ciò che fa arrabbiare ancora di più è che "questa situazione è diventata comune".

Un postdoc della Delft University of Technology nei Paesi Bassi ha condiviso la sua esperienza:

Abbiamo completato un lavoro lo scorso ottobre ed è stato recentemente accettato un articolo che utilizzava le stesse idee e concetti, ma non citava nemmeno il nostro articolo.



C'è anche un anziano della Northeastern University negli Stati Uniti che è ancora peggio. Si è trovato in questa situazione due volte e gli autori erano sempre lo stesso gruppo. E anche il primo autore di fronte ha aggiunto una stella al suo GitHub...



Tuttavia, alcuni netizen hanno espresso opinioni diverse:

Se pubblicare un post su un blog o un documento prestampato non valutato conta come imbrogliare, allora tutti imbrogliano, giusto?



In risposta, Remy disse con rabbia:

Ehi ragazzi, pubblicare un documento prestampato e rendere open source il codice = approfittare della situazione;
Scrivere un compito di matematica che non richieda nemmeno alcuno pseudocodice = buon lavoro? ? ?



Anche il fratello Brandon ha detto Yue:

Il codice open source e scrivere documenti correlati significa "approfittare degli altri", ma copiare il lavoro di altre persone e dire "Ho avuto questa idea prima" e sottoporlo a una conferenza non è giusto? Che schifo.



Mangiamo prima il melone, cosa ne pensi? Potresti voler continuare la discussione nell'area commenti~

Clicca qui per i due documenti:
Documento Google DeepMind: https://arxiv.org/abs/2407.08103v1
Documento del querelante: https://arxiv.org/abs/2307.09702

Link di riferimento:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46