¿Cómo evitar el contenido duplicado de los scrapers?

Cuando trabajamos en un proyecto que tiene presencia en Internet, normalmente solemos centrarnos en la estrategia del proyecto y, por supuesto, en los contenidos y servicios que vamos a ofrecer. Si no dedicamos tiempo a elaborar los contenidos y a ofrecer, por tanto, contenidos de calidad a nuestros visitantes, llega un momento en el que nuestros usuarios se aburrirán y se marcharán; además, llegará un momento en el que "seamos tocados por el gran Google" y los usuarios nos encontrarán más fácilmente. Tanto las técnicas de SEO como los contenidos de calidad tienen su recompensa en un buen posicionamiento dentro de los resultados de Google; sin embargo, este premio se puede ver amenazado por una oscura práctica conocida como *scraping* que hace que existan páginas web que ofrecen contenido duplicado del que no son autores.

Hace unos meses hablamos del scraping y los scrapers cuando estuvimos hablando de la protección de contenidos en WordPress pero creo que no está de más entrar en contexto y ver qué opciones tenemos para luchar contra esta práctica e, incluso, denunciarla ante Google.

¿Qué es un scraper?

Conocemos bajo el nombre de scraper a aquellas páginas web que se dedican a copiar, literalmente, el contenido que publicamos en nuestra página web. Dicho de otra forma, una página web que se nutre de los contenidos que otros publican y los plasma tal cual (o tras un proceso de traducción automática). Este tipo de procesos automáticos, realmente, son bastante sencillos y es posible beber de un feed RSS, copiar el código HTML de nuestra página o, incluso, hacer una receta IFTTT para llevar contenidos automáticamente.

Evidentemente, uno de los primeros puntos de discusión es si el scraping es legal o ilegal si, por ejemplo, publicamos nuestros contenidos bajo una licencia Creative Commons. Si usamos una licencia que dice que hay que citar la autoría, obviamente el sitio que replique el sitio deberá hacerlo y si tenemos puesto que al usar nuestros contenidos no debe haber lucro y quien los replica tiene banners o cualquier formato publicitario que le hace ganar dinero, estará incumpliendo nuestra licencia.

Dejando a un lado las licencias de los contenidos, las prácticas de scraping pueden llegar a fastidiar bastante a los que publican contenidos en Internet. Este tipo de páginas, que se dedican a vivir del contenido duplicado, buscan la relevancia en Google para captar visitas y, obviamente, mejorar sus ingresos por publicidad; por tanto, cuanto mejor sean sus contenidos más visitas tendrán y si Google prima el contenido de calidad, llega un momento en el que el buscador no sabe distinguir cuál es la fuente original y cuál es la copia.

Aquí es donde reside el primero de los **problemas del scraping: los resultados de búsqueda de Google**. No es raro encontrar, cuando realizas una búsqueda, scrapers que están mejor posicionados que la fuente original y, obviamente, eso es un perjuicio para el que generó el contenido (por mucho que se escriba, en pequeñito, el nombre de la fuente de la que se sacó la información).

También existen otros problemas derivados del scraping que, aunque no son tan evidentes, también pueden fastidiar mucho a los que trabajan en Internet. Cuando un artículo se copia, los enlaces que se insertan también se extraen y esto incluye, obviamente, a las imágenes que se terminan copiando con hotlinking. Que nuestro servidor termine ofreciendo las imágenes que muestran los scrapers es un fastidio doble; por un lado, estamos haciéndoles parte del trabajo y, por otro lado, estamos asumiendo costes de tráfico.

Viendo este contexto, las consecuencias del scraping tienen un impacto directo sobre cualquier proyecto que opera en la red porque afecta a la imagen de nuestro proyecto, a nuestra infraestructura (y costes) y al posicionamiento de nuestros resultados en Google. Por tanto, si detectamos este tipo de prácticas debemos pasar a la acción y no permanecer impasibles porque es nuestro proyecto el que se ve afectado.

Primera opción: denunciar ante Google

Si nuestra página web se ve afectada por scrapers y sus prácticas afectan directamente a los resultados de búsqueda de Google (salen por encima nuestra); Google nos ofrece la posibilidad de denunciar este hecho y, por tanto, dejar constancia que nuestra web es la fuente original y la otra es una copia. Teniendo en cuenta que Google prima la originalidad del contenido, si consideran pertinente la denuncia podríamos conseguir que las tornas se invirtiesen.

**¿Cómo podemos denunciar a un scraper ante Google? Google pone a nuestra disposición un formulario de denuncia** en el que tendremos que indicar la url del scraper al que queremos denunciar, la url de la búsqueda que demuestra que este sitio está mejor posicionado que nosotros ofertando nuestro propio contenido y cualquier otra información que consideremos de interés para aportar contexto y reforzar nuestros argumentos de denuncia.

Segunda opción: sacar a la luz el engaño

Otra opción para luchar contra este tipo de malas prácticas consiste en ser proactivo y si alguien intenta llevarse nuestros contenidos, al menos, que sea muy evidente de dónde los sacó. Reconozco que no soy amigo del enfrentamiento en Twitter ni tampoco me gusta lanzar un post criticando abiertamente a otro blog; creo que **uno puede luchar contra los scrapers con bastante clase*.

¿Y cómo podemos hacer evidente el engaño? Hay varias formas sutiles de hacerlo pero, en general, todas pasan por dejar "marcas" que muestren de dónde procede el contenido que tomaron:

Si las imágenes que usamos son nuestras y, por tanto, las hicimos nosotros, usar una marca de agua puede ser una buena opción para marcar el contenido.

* Los enlaces también pueden jugar un interesante papel para evitar el scraping y usar algún enlace a contenidos de nuestra propia web puede ser una buena forma de marcar el contenido (sobre todo si la copia es literal).

* Firmar los contenidos también es buena práctica y, por ejemplo, en muchos feeds leemos al final del artículo cosas como "Este contenido se publicó primero en Bitelia" para que si alguien les hace un scraping se lleven también esta marca.

Si firmar los contenidos nos parece buena opción, Anti Feed-Scraper Message y WordPress SEO by Yoast son plugins a tener en cuenta si usamos WordPress y, en el caso de Drupal módulos como Attribution son para tener en cuenta.

Google recomienda a los autores de contenidos que vinculen sus páginas webs y artículos a sus perfiles en Google+ usando el Servicio de Autoría de Google (o también conocido como Google Authorship). Además de servir para que Google muestre nuestra foto en los resultados, también sirve para garantizar la autoría de los mismos y es una forma de distinguir contenido original de contenido copiado.

Tercera opción: ponérselo difícil

Para los que quieran declarar la guerra total (y ojo que no es el camino que yo seguiría), existen medidas mucho más radicales como evitar, por ejemplo, que alguien pueda hacer copy-paste de los contenidos o bloquear el hotlinking.

Gracias al archivo .htaccess de Apache podremos evitar el hotlinking de imágenes o, incluso, bloquear direcciones IP concretas.

También existe la opción de bloquear la copia, es decir, que alguien pueda seleccionar texto y pulsar "Control+C" para copiarlo. En el caso de WordPress, plugins como wordpress prevent copy paste plugin o WP Content Copy Protection pueden evitar que alguien copie nuestros contenidos aunque, perticularmente, creo que no es el camino a seguir (sobre todo si apostamos por el conocimiento libre y las licencias Creative Commons).

Otra opción que tampoco comparto, y que creo que a la larga es contraproducente (salvo que tu proyecto web esté tan consolidado que pueda restarle peso al feed RSS), es la de publicar un resumen de los artículos en el feed RSS en vez de publicarlos completos. WordPress, por ejemplo, ofrece esta posibilidad y, si así lo deseamos, podemos publicar un fragmento de nuestros artículos a través del feed y confiar que los usuarios quieran entrar en nuestra web para leer lo que les falta.

Como podemos comprobar, opciones tenemos sobre la mesa y, por tanto, es posible luchar contra el scraping. Ahora sólo resta tomar partido.