Como evitar el contenido duplicado

24 marzo, 201429 mayo, 2014 Tagged: Desarrollo sitios web, SEO by Agatha Estera

SEO8

Todo proyecto web donde se actualicen contenidos, sea un blog, revista online, web corporativa o una tienda online, corre el riesgo de tener contenido duplicado. Se puede dar el caso que nuestro propio contenido aparezca de forma idéntica en varias páginas, como podría ser en las fichas de producto en una tienda online. Se considera también contenido duplicado cuando una tercera persona haya copiado y publicado nuestro texto íntegramente sin citarnos como fuente y sin nuestro consentimiento.

En el primer caso, para evitar que la estructura de URLs de un site muestre contenido duplicado, se recomienda especificar la de cada URL, indicándole a los motores de búsqueda que URL es la original y que URL es una segunda versión.

Para ello se debes añadir el siguiente código en la sección <head> de la versión no canónica (la copia):

Google recomienda utilizar enlaces absolutos para minimizar las posibles confusiones. Si el documento incluyese un enlace base, cualquier otro enlace relativo se relacionara directamente con ese enlace base..

Otra acción básica es indicar en el archivo robots.txt que páginas no deseamos que sean indexadas, como por ejemplo la de entrada a una intranet o los filtros de listados en una tienda online. El uso de filtros de listados se utiliza para ayudar al usuario a discriminar los productos por precio, talla, color u otra característica y produce URL del tipo:

http://www.ejemplo.com/shop/colecciones/tejanos?min_price=0&max_price=37

En el caso que una tercera persona haya copiado tu contenido, Google considerará la fecha de publicación como indicador de la autoría. En este caso, no debes preocuparte.

Sin embargo, si en tu web se publica un contenido que ha aparecido íntegramente anteriormente en otra web o blog, Google lo penalizará. De esta manera, si con la publicación del artículo buscabas notoriedad y mejorar el SEO, los buscadores no lo consideraran contenido original y esa página en concreto no tendrá relevancia a nivel de posicionamiento orgánico.

Tipos de contenido duplicado

Básicamente existen cuatro tipos de contenido duplicado:

Webs con páginas idénticas: se consideran contenido duplicado aquellas páginas que tienen textos muy similares y una estructura web con los mismos links en los sidebars o widgets. También lo son las webs que son idénticas a otras pero tienen un dominio diferente. Es un error que se suele cometer en el diseño de landing pages para diferentes campañas. A menudo la única diferencia es la temporalidad, el momento de lanzamiento de la campaña. Se comete el error de diseñar la nueva landig page siguiendo la estructura de contenidos de una anterior. Así textos, imágenes e incluso links son idénticos. Los motores de los buscadores las consideran páginas spam que pretenden influir en el posicionamiento web y la penalizan, con lo que no aparecen en los resultados de búsquedas.

Contenido reelaborado: se produce cuando el contenido es reescrito para que se vea de forma diferente, pero en esencia es un duplicado del contenido original. El autor no aporta contenido nuevo ni ningún elemento de valor. Con la creciente utilización de los blogs como herramienta de posicionamiento web, el contenido reelaborado se está convirtiendo en un auténtico problema para los motores de búsqueda. Sin embargo, hay que diferenciar el contenido reelaborado de la curación de contenidos, que es básicamente una agregación o resumen de los mejores contenidos en torno a un tema en concreto.

Descripciones de producto: muchas tiendas online que se dedican a la distribución online utilizan las mismas descripciones de producto que hace el fabricante, sin cambiar un ápice. Aunque es difícil de detectar, cuando Google lo encuentra, lo considera spam, y esa ficha de producto pierde relevancia ante los buscadores.

Veamos la comparativa entre una página de producto de la empresa fabricante, en este caso Nike, y una tienda online donde se ofrece el mismo producto:

Distribución de artículos: aunque el principal objetivo de un post en un blog es conseguir la máxima distribución para mejorar el posicionamiento SEO, ésta se puede volver en contra. Otros blogs pueden reproducir parte o la totalidad del contenido, con nuestro permiso y citándonos como fuente. Sin embargo, si no comunicamos correctamente a Google o Bing que somos los autores del contenido, pueden otorgar la autoría a otro blog. Para evitarlo, se ha de indicar correctamente a los buscadores quién es el autor del contenido web mediante el meta tag rel=”author”, y preferiblemente, en el caso de Google, vincularlo a un perfil en Google+. Es lo que se conoce como el authorship, un parámetro que ha ganado importancia en la actualización del algoritmo de Google, conocido como Colibrí.

Para evitar los efectos del contenido duplicado a nivel de posicionamiento web, es preciso detectarlo y eliminarlo allí donde se haya publicado.

Herramientas para detectar contenido duplicado

1. Google Alerts

es una de las herramientas más sencillas, pero efectivas, para detectar contenido duplicado. Es tan sencillo como introducir una parte del artículo, escoger qué tipo de webs deberían ser comprobadas y Google dará los resultados.

2. Copyscape

Copyscape es la opción escogida por las plataformas que actualizan constantemente los contenidos. Se introduce la URL del propio site y la aplicación busca en Internet contenido duplicado en otra web. Se recomienda utilizar la versión Premium para aquellas plataformas que compran artículos de texto a terceros y así asegurarse que éstos son completamente originales.

En el caso de una tienda online se puede introducir la URL de una página de producto y obtendremos todas las páginas similares. Analicemos el producto con la siguiente url: http://store.nike.com/es/es_es/pd/air-pegasus-83-zapatillas/pid-874888/pgid-803673

3. Similar Page Checker

Similar Page Checker nos permite comparar el grado de similitud entre dos contenidos con URLs diferentes. Esta herramienta nos proporciona el porcentaje de similitud, algo que ocurre a menudo entre páginas de producto en una tienda online.

Aplicado al ejemplo anterior de la tienda online, obtenemos un buen resultado: tan sólo un 3% de contenido similar. La tienda online distribuidora ha sabido crear un contenido original y atractivo a partir de la ficha de producto inicial de la empresa fabricante.

Se desconoce el porcentaje a partir del cual Google considera que se trata contenido duplicado, por ello la recomendación es mantener este porcentaje lo más bajo posible.

Si Google Webmaster Tools te indica que existe contenido interno duplicado en tu blog o web, tendrás que corregir uno a uno los títulos, textos, meta tags y paginación de forma manual, para que se diferencien unos de otros. En caso que la copia esté en un lugar externo deberás pedir que lo retiren.

Como eliminar el contenido duplicado

Ponerse en contacto con el webmaster del site donde han duplicado nuestro contenido. La negociación es la mejor opción y sugerir que te enlace como fuente de origen vía un link es la mejor solución.

En caso que el webmaster no responda a las sugerencias, es momento de pedirle que elimine el contenido duplicado.

Otra opción es comunicarse directamente con el servicio de hosting de la página web. Mediante servicios como Who is Hosting This, localizaras su hosting y podrás pedir que retiren el contenido duplicado fraudulentamente.

Si no se procede a eliminar el contenido duplicado, la última opción es denunciar la situación vía el formulario ” en Web Master Tools. Así Google desindexará el contenido en cuestión.

Se trata de un proceso de cierta seriedad, pues se envía una DMCA (Digital Millennium Copyright Act) en contra del site que te ha robado el contenido. Es un proceso lento pero efectivo en el caso que alguien se beneficie del esfuerzo de terceros para mejorar su posicionamiento SEO.

En Internet es imposible evitar la copia de contenidos originales, de hecho Internet se basa en la distribución de estos contenidos. Sin embargo para protegerlos es básico explicitar las condiciones de distribución o reelaboración mediante una licencia creative commons o incluir una clara nota de copyright. De forma más explicíta se puede incluir una página con el “aviso legal”, donde detallar quien es el propietario de la web y sus contenidos así como los condicionantes para su uso y reproducción.