Última actualización: 10/02/2023
Estás a punto de invertir 10 minutos en leer este artículo
Emanuel Olivier, director y fundador de Genwords, vuelve a escribir en Desenredando la red.
Ya lo hizo para contarnos
- Cómo ser un content manager o gestor de contenidos exitoso
- Los 10 puntos claves para optimizar un blog de WordPress
- Cómo crear un plan de marketing para redes sociales
- 7 problemas de SEO técnico que puedes solucionar con este post
- 10 elementos de valor para construir contenido realmente bueno
En esta ocasión vuelve para mostrarnos las técnicas que te ayudarán a que los softwares que copian el contenido de tu web y lo publican en otras páginas lo tengan mucho más complicado.
Si llevas tiempo trabajando duro para que tu web tenga un buen posicionamiento y reputación en internet, debes saber que es muy frustrante ver que tu contenido ha sido copiado por otra página.
Y lo que puede causarte una gran problema es que Google determine que hay contenido duplicado y que sea tu web la que se gane la penalización.
Hoy te explico algunas de las técnicas que te pueden ayudar a proteger tu contenido de los scrapers (software de robo de contenido) y así salvar tu reputación ante Google.
Penguin y Panda son parte de los algoritmos de Google que toman la decisión de si tu sitio puede posicionar bien o no en los resultados de búsqueda.
Estos algoritmos otorgan penalizaciones y, como debes saber, algunas de estas penalizaciones pueden acabar con la presencia de tu contenido en internet porque tienen la potestad de borrar tu web del mapa, es decir, de los buscadores y sus resultados.
Una de las razones por las que te pueden penalizar es el contenido duplicado.
¿Sabes que existen softwares que copian el contenido de tu web y lo publican en otras páginas? Es lo que se denominan scrapers y por eso tu contenido puede estar comprometido.
¿Qué vas a encontrar en este artículo?
- 1 ¿Qué es un scraper?
- 2 ¿Hasta qué punto es malo dejarse copiar el contenido?
- 3 Cómo evitar que copien tu contenido y salvarlo de los scrapers
- 3.1 Limita el acceso en caso de ver actividad inusual o dudosa
- 3.2 Cámbiale el nombre a tu sitemap
- 3.3 Crea contenido fuera del formato texto
- 3.4 Considera usar Captcha en casos extremos
- 3.5 Crea alertas de Google
- 3.6 Envía tu página al buscador antes de que seas expuesto a los scrapers
- 3.7 Pide iniciar sesión para ver tu contenido
- 3.8 ¿Te has preguntado por qué roban tu contenido?
- 4 ¿Te gustan los artículos del blog? Te los mando al mail
¿Qué es un scraper?
Los scrapers son softwares creados para copiar contenido de webs y publicarlos en otras páginas. Básicamente se aprovechan de contenidos que no han sido producidos por ellos para conseguir tráfico hacia sus páginas sin ningún esfuerzo.
Y si obtienen tráfico (gracias a tu buen contenido), pueden ganar mucho dinero con la publicidad.
En pocas palabras, rentabilizan su sitio web a costa de tus creaciones.
Esta técnica aplicada por algunas webs puede no terminar en una penalización grave, pero sí puede provocar que esa página que fue duplicada pierda posicionamiento en los buscadores. Y eso es lamentable, sobre todo si lograste los primeros lugares en Google de forma orgánica.
También puede suceder que esa copia ‘mala’ te gane en los buscadores y supere tu posicionamiento. Y eso es más lamentable aún.
El copiado de contenido funciona de forma muy similar al rastreo de los bots de Google y a la forma en cómo navega un usuario real. Y en realidad la actividad no es totalmente ilegal.
Si la aplicamos de forma positiva, puede ayudarnos a espiar a la competencia para conocer cómo está operando y, posteriormente, crear tu plan de marketing y mejorar tu operatividad para superar a la competencia.
Sin embargo, muchas webs han malinterpretado su uso y lo han utilizado para copiar contenido.
¿Hasta qué punto es malo dejarse copiar el contenido?
La técnica de scraper puede ser beneficiosa, si lo pensamos bien, porque algunos copiadores de contenido suelen copiarlo tal cual, es decir, no quitan los enlaces salientes. Y si lo vemos fríamente, es una forma de hacer backlink, que está entre las 77 mejores y peores prácticas de SEO para posicionar mejor tu web.
Aunque hay algunos que tiene el descaro de eliminar los enlaces, puedes utilizar herramientas para saber en cada caso, cuál te conviene para la construcción de enlaces.
Trabajar sobre una estrategia de backlinks es uno de los pasos fundamentales para generar autoridad en internet y mejorar el SEO de tu web. Y si hay algunos scrapers que tienen una autoridad decente puede valer la pena que te copien.
Si te interesa aprovechar los enlaces salientes de los copiadores de contenido o scrapers debes activar los pingback en WordPress para saber qué sitio web está hablando sobre tu contenido.
Así, cuando recibes la notificación en tu WordPress puedes saber cómo es de buena la autoridad del sitio que te ha copiado.
Pero si de ninguna manera te interesa aprovechar esos enlaces y quieres evitar que los scrapers te copien tu contenido, entonces sigue estos consejos que te muestro a continuación.
8 webs gratis para comprobar si han plagiado tu blog o tu web
Cómo evitar que copien tu contenido y salvarlo de los scrapers
Ninguno de los consejos que te daré a continuación garantizará que tu sitio web esté al 100% libre de los scrapers. Porque, de hecho, existe algo que se llama plagio, una acción que se hace de forma manual y que es casi imposible impedir que otras webs lo hagan.
Sin embargo, estas técnicas pueden ayudarte a salvaguardar tu web de aquellos software que están diseñados para robar contenido de tus páginas.
Limita el acceso en caso de ver actividad inusual o dudosa
Para esto tienes que estar constantemente chequeando la actividad de tu sitio web y en caso de notar que hay actividad automatizada en sus páginas limita el acceso a esa dirección IP. Tu webmaster puede darse cuenta de esto fácilmente.
Solo tiene que chequear la dirección IP del que entra y comprobar si esa IP está repitiendo la misma actividad con frecuencia.
En caso de notar actividad sospechosa puedes aplicar dos acciones:
Límite de velocidad
Se trata de permitir que esa dirección IP realice esas actividades, pero limitando el número de veces y por un periodo de tiempo determinado. Esto significa que los scrapers o software de robo de contenido podrán actuar durante unos pocos segundos o según lo que tú hayas permitido.
Utiliza indicadores o herramientas para determinar la velocidad de rastreo del usuario
Es bueno que los problemas se arreglan en casa, pero algunas veces no podemos estar al tanto de la actividad de nuestro sitio web 24/7. Sería un trabajo imposible y, de hacerlo, sería agotador.
Para ello hay herramientas que te permiten conocer:
- Con qué rapidez los usuarios rellenan un formulario.
- Cuál es el patrón de búsqueda del usuario. Aquí puedes ver si realmente se trata de un usuario real o de un scraper.
- Recopilar toda la información útil para determinar cómo de bueno es el scraper. Por ejemplo: fuentes instaladas, información sobre JavaScript, zona horaria… Esto es especialmente útil porque si la actividad sospechosa viene de una misma dirección IP, puedes determinar si de verdad de trata de usuario o de un scraper.
Ten en cuenta que el patrón de búsqueda de un scraper suele ser distinto al de un usuario.
Por ejemplo, siempre hace click en el mismo botón, en intervalos regulares. Por lo que, después de tu análisis, puedes determinar si bloquear el acceso de esa IP de forma definitiva o no.
Cámbiale el nombre a tu sitemap
Por si no lo sabías, el sitemap de tu sitio web puede tener otro nombre que no sea ‘sitemap’.
El sitemap es uno de los caminos más sencillos para robar contenido, porque un scraper roba contenido de la misma forma que Google rastrea tu web.
Recuerda que Google va de enlace a enlace para saber de qué tratan tus páginas. Y los software para robar contenido actúan de la misma forma.
No se los pongas tan fácil y renombra tu sitemap de tal manera que su trabajo sea un poco más complicado.
Después que le hayas cambiado el nombre a tu sitemap para no dejarlo tan obvio, trata de no reflejarlo en tu archivo robots txt.
En todo caso, puedes crear un sitemap desde la search console para que cualquiera pueda verlo y copiarlo, y el bueno para los buscadores.
Es una forma de poner otra puerta y no permitir el acceso a los scrapers.
Crea contenido fuera del formato texto
Por lo general, en un blog leemos contenido en texto, pero ignoramos que muchos de nuestros lectores se sienten a gusto con las infografías, por ejemplo.
Si tus infografías están acompañadas de un buen diseño, vas a conseguir que el lector o usuario recurrente se quede en tu web para instruirse sobre un tema específico.
Crea archivos en PDF, porque es otro formato que te ayudará a eludir a los scrapers, y si es bueno te ayudará a aumentar el tráfico de tu web.
Lo mismo pasa con el video. De hecho, el video es un formato que combinado con el texto puede ayudarte a aumentar el tiempo de visita de cada una de tus páginas.
Si crees que debes abarcar un tema extenso, y la mejor forma de hacerlo es con texto, adelante. Solo ten en cuenta estas recomendaciones. Así cierras otra puerta a los scrapers y les das a tus lectores diferentes formatos para que consuman tu contenido.
Considera usar Captcha en casos extremos
Los Captcha son magníficos para determinar si es un usuario real, humano o si es uno de estos softwares malos que pretenden robar tu contenido.
El problema es que este método para filtrar los humanos y separarlos de las computadoras suelen provocar frustraciones en el usuario real. Su efecto puede ser adverso. Pero si lo usas de forma regulada no te perjudicará.
Puedes aplicarlo, por ejemplo, cuando notes que un usuario o una dirección IP ha hecho solicitudes de forma repetida y recurrente hasta volverse sospechoso.
Así, por ejemplo, no tendrías que generar una mala experiencia a tus lectores recurrentes y vuelves a ponerle un stop a los scrapers.
Los Captcha pueden ser usados en casos en los que el agente de usuario no muestre su encabezado. Esto es sospechoso, porque los rastreadores de Google sí lo hacen, pero por lo general los scrapers no lo harán.
¿Qué es un recaptcha o cómo pedirle una parte de sus beneficios a Google?
Crea alertas de Google
Como buen curador de contenidos, debes tener algunas alertas de Google para poder tener a mano un repertorio de contenidos para crear el tuyo. Ya sabes, datos estadísticos, opiniones de los expertos, etc.
Una forma de evitar los software de robo de contenido son las alertas de Google.
Una vez que hayas publicado tu contenido, crea alertas para determinar cuándo ha sido copiado. Una vez que ya tengas la información, puedes empezar a enviar el formulario de Google para denunciar el robo.
O contactar directamente con la persona para informarle de lo ocurrido. Si este no responde, puedes averiguar el correo de su proveedor de hosting para que, con un poco de suerte, suspenda su cuenta.
Envía tu página al buscador antes de que seas expuesto a los scrapers
Tras publicar tu contenido en el blog es muy difícil lograr ser indexado de forma natural.
Google puede tardar bastante tiempo en incluirlo en su biblioteca para que sea mostrado en los resultados de búsqueda.
Pero puedes estar seguro de que los scrapers no esperarán hasta que tu contenido sea indexado para robarlo.
Entonces, antes de que llegue ese momento, acelera la indexación de tu página nueva desde la Search Console.
Para ello solo tienes que iniciar sesión e irte a Rastreo⇢ explorar como Google. Introduces tu nueva URL, das a Obtener y envías al índice de la página.
El proceso de indexación no tardará más de 24 horas.
Realizar este procedimiento es importante porque cuando Google vea que el contenido es duplicado puede determinar, mediante la fecha de publicación, cuál es la copia.
Así, estás salvaguardando tu contenido, tu posicionamiento y tu reputación.
Pide iniciar sesión para ver tu contenido
Esta recomendación puede que haga que pierdas usuarios interesados y leads cualificados, pero piensa lo siguiente: absolutamente todo lo que hagas para detener a los scrapers puede afectar a la experiencia del usuario real.
Antes de pedir a los usuarios que visitan tu blog, y eludir a los softwares que roban contenido, que inicien sesión puedes repetir las sugerencias que te he mencionado con anterioridad. Es decir, filtra de acuerdo al comportamiento de cada usuario para estudiar en qué casos es bueno ofrecer el inicio de sesión.
Un software no podrá iniciar sesión.
¿Te has preguntado por qué roban tu contenido?
La verdad es que no veo una razón lógica para dedicar tiempo a robar contenido ajeno, pero según lo que he visto, creo que tu contenido es tan bueno que trae mucho tráfico.
Todos sabemos que el marketing de contenidos es la pieza clave para generar presencia en internet y ventas buenas sin necesidad de crear anuncios publicitarios. Pero los que se dedican a robar contenido, saben esto, y quieren usar el tuyo para ganar tráfico y dinero.
La mejor forma de filtrar los sitios para hacer publicidad es conociendo su tráfico, y si es bueno, es casi seguro que ese sitio será una fuente de publicidad innata. Y eso es exactamente una de las razones por las que tu contenido puede ser robado.
Tener un sitio web demanda mucho tiempo de tu parte. Si eres exitoso, construyes contenido realmente bueno y tienes todo lo que necesitas para generar ventas cualificadas, debes saber que siempre vas a estar expuesto a un gran número de usuarios, maliciosos o no.
En tu mano queda que te muestres siempre alerta a los agentes externos que quieren afectarte.
Imágenes cortesía de TheDigitalWay, Kalhh, FirmBee, ChristophMeinersmann, Fumingli, Geralt y Simon en Pixabay.