noticias

El New York Times y muchos otros sitios web de noticias importantes bloquean los rastreadores web SearchGPT

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Whip Bullsman informó que el 3 de agosto, según informes extranjeros, enIA abiertaAproximadamente una semana después del lanzamiento de SearchGPT, algunos de los principales editores de noticias han dejado en claro que no quieren tener nada que ver con el nuevo motor de búsqueda de la startup.

El New York Times y al menos otros 13 sitios web de noticias han bloqueado OAI-SearchBot. Este es un rastreador web que indexa información para que OpenAI pueda recuperar y mostrar resultados relevantes a los usuarios de SearchGPT.

Originality.ai rastreó este contenido y descubrió que 14 de los 1.000 principales editores de sitios web habían bloqueado OAI-SearchBot. Otras publicaciones en la lista incluyen Wired, The New Yorker, Vogue, Vanity Fair y GQ.

Esto es un poco desconcertante, dijo Jon Gillham, director ejecutivo de Originality.ai.

"No estoy seguro de por qué los editores lo bloquearían", dijo a Business Insider. "Este es el tráfico que los editores quieren y necesitan".

Cuando OpenAI lanzó SearchGPT la semana pasada, enfatizó que OAI-SearchBot no rastreará la red para recopilar datos para entrenar su GPT-5 y otros modelos de IA. Recomienda que los propietarios de sitios web permitan que los nuevos bots garanticen que su sitio web aparezca en los resultados de búsqueda.

Sin la autoridad para rastrear todos los sitios web, es posible que el servicio SearchGPT de OpenAI no sea tan completo como el motor de búsqueda de Google. BI preguntó a Gillham si algún editor de noticias importante había bloqueado los robots de búsqueda de Google y dijo que no sabía de ninguno que lo hubiera hecho.

Falta de confianza o sospecha sobre el tráfico de búsqueda.

OpenAI también tiene otro rastreador web llamado GPTbot que puede recopilar datos en línea para el entrenamiento de modelos de IA. Cientos de sitios web lo han bloqueado. Esto tiene más sentido: quieres tráfico de los motores de búsqueda, pero no quieres regalar tu contenido para entrenar un modelo de IA que pueda competir con el tuyo.

Sin embargo, OpenAI lleva años recopilando datos online sin permiso. Cuando OpenAI dice que su nuevo robot de búsqueda no robará en secreto su contenido como datos de entrenamiento de IA, ¿tal vez los editores simplemente no confían en él?

"Creo que sí", dijo Guillam.

Otra teoría: los resultados de búsqueda actuales no siempre dirigen a los usuarios a sitios que trabajan duro para crear contenido original. Uno de los objetivos del nuevo motor de búsqueda con IA es retener a los usuarios mostrándoles fragmentos. Si los editores ya no ven un tráfico significativo procedente de los motores de búsqueda, ¿por qué permitirían que sus rastreadores web lo hicieran?

Queja del New York Times

Gillum también señaló que OpenAI ha estado ocupado este año cerrando acuerdos con editores para utilizar sus archivos de contenido. (La empresa matriz de Business Insider, Axel Springer, firmó uno de los acuerdos).

Gillum agregó: Esto parece ser una serie de pasos que OpenAI pretende tomar, primero estableciendo relaciones con los editores, firmando todos estos acuerdos de cooperación y luego anunciando SearchGPT.

El mayor disidente entre los editores es The New York Times. Ha demandado a OpenAI y Microsoft, acusando a las dos empresas de tecnología de utilizar ilegalmente su trabajo para crear productos competidores.

Charlie Stadtlander, portavoz de The New York Times, dijo en un comunicado: "Independientemente de si bloqueamos o limitamos a cualquier robot específico para que no rastree nuestro contenido sin un acuerdo expreso por escrito, The New York Times no existe ninguna licencia para utilizar nuestro trabajo con fines generativos". fines de búsqueda o entrenamiento de inteligencia artificial.

En su denuncia contra OpenAI y Microsoft, el New York Times abordó la cuestión de los motores de búsqueda que se vuelven más inteligentes artificialmente y potencialmente absorben tráfico de los editores.

"Los demandados también utilizan el índice de búsqueda Bing de Microsoft, que replica y cataloga el contenido en línea del New York Times, generando respuestas que contienen extractos textuales y resúmenes detallados de los artículos del New York Times", escribió el editor en la demanda. más detallado que lo que devuelven los motores de búsqueda tradicionales. Las herramientas de los demandados ofrecen contenido del New York Times sin permiso o autorización del New York Times, interrumpen y dañan la relación del Times con los lectores y privan al New York Times de suscripciones, licencias, publicidad e ingresos de afiliados.

OpenAI aún no ha respondido a una solicitud de comentarios.