notizia

Il New York Times e molti altri siti Web di notizie importanti bloccano i web crawler SearchGPT

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Whip Bullsman ha riferito che il 3 agosto, secondo rapporti esteri, inIA apertaCirca una settimana dopo il lancio di SearchGPT, alcuni dei principali editori di notizie hanno chiarito che non vogliono avere nulla a che fare con il nuovo motore di ricerca della startup.

Il New York Times e almeno altri 13 siti web di notizie hanno bloccato OAI-SearchBot. Si tratta di un web crawler che indicizza le informazioni in modo che OpenAI possa recuperare e visualizzare risultati pertinenti agli utenti di SearchGPT.

Originality.ai ha monitorato questo contenuto e ha scoperto che 14 dei 1.000 principali editori di siti Web hanno bloccato OAI-SearchBot. Altre pubblicazioni nell'elenco includono Wired, The New Yorker, Vogue, Vanity Fair e GQ.

Questo è un po’ sconcertante, ha affermato Jon Gillham, CEO di Originality.ai.

“Non sono sicuro del motivo per cui gli editori lo bloccherebbero”, ha detto a Business Insider. "Questo è il traffico che gli editori vogliono e di cui hanno bisogno."

Quando OpenAI ha rilasciato SearchGPT la scorsa settimana, ha sottolineato che OAI-SearchBot non effettuerà la scansione della rete per raccogliere dati per addestrare il suo GPT-5 e altri modelli di intelligenza artificiale. Si consiglia ai proprietari di siti Web di consentire ai nuovi bot di garantire che il proprio sito Web venga visualizzato nei risultati di ricerca.

Senza l'autorità di eseguire la scansione di ogni sito Web, il servizio SearchGPT di OpenAI potrebbe non essere completo come il motore di ricerca di Google. BI ha chiesto a Gillham se qualche importante editore di notizie avesse bloccato i robot di ricerca di Google, e lui ha detto che non ne sapeva nessuno che lo avesse fatto.

Mancanza di fiducia o sospetto sul traffico di ricerca

OpenAI ha anche un altro web crawler chiamato GPTbot in grado di raccogliere dati online per l'addestramento del modello AI. Centinaia di siti web lo hanno bloccato. Questo ha più senso: vuoi traffico dai motori di ricerca, ma non vuoi regalare i tuoi contenuti per addestrare un modello di intelligenza artificiale che potrebbe competere con il tuo.

Tuttavia, OpenAI raccoglie dati online senza autorizzazione da anni. Quando OpenAI afferma che il suo nuovo bot di ricerca non ruberà segretamente i loro contenuti come dati di addestramento sull'intelligenza artificiale, forse gli editori semplicemente non si fidano?

"Penso di sì", ha detto Guillam.

Un'altra teoria: i risultati di ricerca di oggi non sempre indirizzano gli utenti verso siti che lavorano duramente per creare contenuti originali. Uno degli obiettivi del nuovo motore di ricerca AI è fidelizzare gli utenti mostrando loro degli snippet. Se gli editori non vedono più traffico significativo dai motori di ricerca, perché dovrebbero consentire ai loro web crawler di farlo?

La denuncia del New York Times

Gillum ha anche notato che OpenAI è stata impegnata quest'anno a stringere accordi con gli editori per utilizzare i loro archivi di contenuti. (La società madre di Business Insider, Axel Springer, ha firmato uno degli accordi.)

Gillum ha aggiunto: Questa sembra essere una serie di passi che OpenAI intende intraprendere, prima costruendo rapporti con gli editori, firmando tutti questi accordi di cooperazione e poi annunciando SearchGPT.

Il più grande dissenziente tra gli editori è il New York Times. Ha citato in giudizio OpenAI e Microsoft, accusando le due società tecnologiche di utilizzare illegalmente il loro lavoro per creare prodotti concorrenti.

Charlie Stadtlander, portavoce del New York Times, ha dichiarato in una nota: "Indipendentemente dal fatto che blocchiamo o limitiamo qualsiasi bot specifico dalla scansione dei nostri contenuti senza un esplicito accordo scritto, The New York Times non esiste alcuna licenza per utilizzare il nostro lavoro per scopi generativi". scopi di ricerca o di formazione sull'intelligenza artificiale.

Nella sua denuncia contro OpenAI e Microsoft, il New York Times ha affrontato il problema dei motori di ricerca che stanno diventando sempre più intelligenti artificialmente e potenzialmente risucchiano traffico dagli editori.

"Gli imputati utilizzano anche l'indice di ricerca Bing di Microsoft, che replica e cataloga i contenuti online del New York Times, generando risposte che contengono estratti letterali e riassunti dettagliati degli articoli del New York Times", ha scritto l'editore nella denuncia più dettagliato di quello che restituiscono i motori di ricerca tradizionali. Gli strumenti degli imputati forniscono contenuti del New York Times senza permesso o autorizzazione da parte del New York Times, interrompono e danneggiano il rapporto del Times con i lettori e privano il New York Times di abbonamenti, licenze, pubblicità e entrate di affiliazione.

OpenAI non ha ancora risposto a una richiesta di commento.