Reddit está llevando a juicio a cuatro empresas de scraping de datos, incluyendo el motor de búsqueda de IA Perplexity y la firma de datos SEO SerpApi, acusándolas de utilizar ilegalmente su contenido a través de los resultados de búsqueda de Google.
La demanda. SerpApi, Oxylabs, AWMProxy y Perplexity “idearon un esquema” para raspar datos de Reddit indirectamente desde Google, y luego revendieron o reutilizaron esos datos para entrenar modelos de IA. Esto según la demanda de Reddit, presentada hoy en el Tribunal de Distrito de EE. UU. para el Distrito Sur de Nueva York.
- Reddit alegó que las empresas ocultaron sus identidades para eludir restricciones técnicas y rasparon sus datos “a una escala industrial.”
- Reddit está buscando daños financieros, una orden judicial permanente y una prohibición sobre el uso o la venta de datos previamente raspados.
- SerpAPI fue o es cliente de OpenAI, que explicó cómo los resultados de búsqueda de Google a veces aparecieron en ChatGPT.
Por qué Reddit demandó. Reddit ya licencia sus datos a OpenAI y Google, pero dijo que otros han intentado eludir esos acuerdos.
- La queja afirma que Reddit incluso “tendió una trampa” para Perplexity, creando un post de prueba visible solo para el rastreador de Google. En pocas horas, ese post apareció en los resultados de búsqueda de Perplexity, una evidencia de que la empresa dependía de datos raspados de Google, dijo Reddit.
Por qué nos importa. Es más difícil que nunca para los SEOs y propietarios de sitios acceder a datos de búsqueda confiables. Google está endureciendo las restricciones de scraping y ajustando las APIs justo cuando los sitios web están viendo caer el tráfico debido a los resúmenes de IA y resultados sin clics. El resultado: menos visibilidad, menos información y un ambiente más complicado para comprender —o influir en— la búsqueda por IA.
Mientras tanto. Reddit y Google están supuestamente discutiendo una nueva asociación que integraría el contenido de Reddit más directamente en los productos de IA de Google. Si esas conversaciones avanzan, más discusiones de Reddit podrían aparecer en los Resúmenes de IA y otras experiencias de Google, potencialmente remodelando aún más cómo Reddit y Google influyen en la visibilidad y tráfico de tu marca.
La imagen general. El scraping de IA sigue en aumento, pero aún no está enviando visitantes significativos. Google envía 831 veces más visitantes que los sistemas de IA, según TollBit.
- Cloudflare compartió datos en julio destacando la ratio distorsionada de crawling en comparación con el número de visitantes enviados a un sitio web:
- Google: 18:1
- OpenAI: 1,500:1
- Anthropic: 60,000:1
- Google y los creadores de contenido solían trabajar en simbiosis, pero esa relación se ha vuelto adversarial desde la aparición de la IA generativa debido al aumento de clics cero y la disminución del tráfico orgánico.
El informe del New York Times. Reddit Acusa a Empresas ‘Raspadoras de Datos’ de Robar Su Información (suscripción requerida)
Search Engine Land es propiedad de Semrush. Seguimos comprometidos a proporcionar cobertura de alta calidad sobre temas de marketing. A menos que se indique lo contrario, el contenido de esta página fue escrito por un empleado o contratista remunerado de Semrush Inc.
