Logo E-Commerce Brasil

Conteúdo duplicado em um mundo pós-Panda - Parte 02

Na primeira parte deste artigo, vimos o que é o conteúdo duplicado, como ele pode prejudicar o SEO do seu site e apresentamos algumas soluções.

Então, agora que trabalhamos de trás pra frente e vimos as ferramentas para consertar conteúdo duplicado, como realmente funciona na vida real? Irei cobrir uma variedade de exemplos que representam os problemas que você pode experenciar em um website real. Através dessa seção, irei referenciar as soluções listadas no artigo anterior, na Seção IV – por exemplo, uma referências ao 301-redirect (IV-2).

V. Exemplos de conteúdo duplicado

1. “www” vs. não-www

Para conteúdo duplicado em todo o site, esse provavelmente é o maior culpado. Seja porque você tenha caminhos internos ruins ou tenha atraído links e menções sociais para a URL errada, você tem ambas as versões “www” e não-www (domínio raíz) das suas URLs indexadas:

Na maior parte do tempo, um 301-redirect (IV-2) é sua melhor opção. Este problema é comum, e o Google é bom em honrar casos de redirecionamento para eles.

Você também pode determinar seu endereço preferido no Google Webmaster Tools. Em “Site Configuration > Settings”, você deve ver uma seção chamada “Preferred domain”:

Há um erro no GWT onde, para determinar um domínio preferido, você deve criar perfis GWT para ambas versões “www” e não-www do site. Mesmo isso sendo irritante, não irá fazer mal. Se você estiver tendo grandes problemas de canonização, eu recomendo. Se não, então você pode deixar isso pra lá e deixar o Google determinar o domínio preferido.

2. Servidores staging (servidores de teste)

Enquanto muito menos comum do que o problema apresentando no ponto 1, este problema muitas vezes também é causado por subdomínios. Em um cenário típico, você está trabalhando em um novo design para o re-lançamento do site, seu time de desenvolvimento cria um subdomínio com esse novo site, e eles acidentalmente o deixam aberto para rastreadores. Isso deixa você com duas URLs indexadas que parecem com algo do tipo:

Sua melhor chance é prevenir esse problema antes que ele aconteça, bloqueando o staging site com o Robots.txt (IV-3). Se o seu staging site estiver indexado, no entanto, você provavelmente precisará de usar um 301-redirect (IV-2) ou Meta Noindex (IV-4) nessas páginas.

3. Barra no final do link (“/”)

Este é um problema que as pessoas muitas vezes questionam, apesar de ser menos um problema de SEO hoje do que já foi antes. Tecnicamente, no protocolo HTTP original, uma URL com uma barra ao final e uma sem ela, eram URLs diferentes. Aqui está um exemplo simples: 

Hoje em dia, quase todos os navegadores adicionam a barra invertida automaticamente, e entregam ambas as versões da mesma maneira. Matt Cutts fez um vídeo recentemente sugerindo que o Google automaticamente tornasse essas URLs canônicas na “grande maioria dos casos”.

4. Páginas seguras (https:)

Se o seu site tem páginas seguras (designadas pelo protocolo “https:”), você terá tanto as versões seguras como as não-seguras de cada página indexadas. Isso é mais freqüente de acontecer quando links de navegação de páginas seguras – como carrinhos de compra – também aparecem seguros, geralmente por conta de caminhos relativos, criando variantes como essa:

Idealmente, esses problemas são resolvidos pela própria arquitetura do site. Em muitos casos é melhor usar Noindex (IV-4) em páginas seguras – carrinho de compras e páginas de check-out não têm lugar no index de busca. Depois do fato, no entanto, sua melhor opção é um 301-redirect (IV-2).
Tenha cuidado com qualquer solução para o site todo – se você usar um 301-redirect em todas as páginas “https:” para suas versões “http:” você pode acabar removendo a segurança completamente. Este é um problema complicado de resolver e deve ser lidado com cuidado.

5. Duplicatas da home-page 

Enquanto os problemas (1)-(3) podem criar duplicatas da home page, a home tem problemas próprios. O problema mais comum é que ambos o domínio raiz e o nome do atual documento da homepage são indexados. Por exemplo:

Apesar de este problema poder ser resolvido com um 301-redirect (IV-2), muitas vezes é uma boa ideia colocar uma canonical tag na sua home-page (IV-5). Home pages são afetadas unicamente pelas duplicatas, e uma canonical tag proativa por prevenir muitos problemas.

Claro, também é importante ser consistente com seus caminhos internos (IV-12). Se você quiser que a versão raiz da URL seja canônica, mas então linkar para “/index.htm” na sua navegação, você está enviando sinais confusos para o Google toda vez que os rastreadores visitam.

6. IDs da sessão

Alguns websites (especialmente plataformas de e-commerce) marcam cada novo visitante como um parâmetro de rastreamento. Às vezes, esse parâmetro acaba na URL e é indexado, criando algo assim:

Essa imagem não faz justiça ao problema, porque na verdade você pode acabar com uma duplicata para cada ID de seção e combinação de página que seja indexada. Sessões de ID na URL podem facilmente adicionar milhares de páginas duplicadas a seu índex.

A melhor opção, se possível no seu site/plataforma, é remover o ID da seção do URL de uma vez e armazená-lo em um cookie. Existem alguns bons motivos para criar essas URLs, e nenhum motivo para deixar os robôs rastreá-los. Se isto não for possível, implementar a canonical tag (IV-5) no site todo é uma boa aposta. Se você ficar preso, você pode bloquear o parâmetro no Google Webmaster Tools (IV-7) e Bing Webmaster Central (IV-9).

7. Rastreamento de afiliados

Este problema se parece bastante com o (6) e acontece quando o site fornece uma variável de rastreamento para seus afiliados. Esta variável geralmente está anexada nas URLs de páginas de destino, assim:

O problema geralmente é um pouco menos extremo que (5), mas ainda pode causar duplicação em grande escala. As soluções são parecidas aos IDs de sessões. Idealmente, você pode capturar o ID afiliado em um cookie e um 301-redirect (IV-3) para a versão canônica da página. Caso contrário, você provavelmente irá precisar usar canonical tags (IV-5) ou bloquear o parâmetro da URL afiliada.

8. Caminhos duplicados

Ter caminhos duplicados para uma página não é nenhum problema, mas quando caminhos duplicados geram URLs duplicadas, então você tem um problema. Digamos que uma página de produto possa ser alcançada de uma das três maneiras a seguir:

Aqui, a página do produto iPad2 pode ser alcançada através de duas categorias e uma tag gerada pelo usuário. Tags geradas pelo usuário são especialmente problemáticas, porque elas podem, teoricamente, gerar versões ilimitadas de uma página.

Idealmente, essas URLs baseadas em caminhos não deviam ser criadas de forma nenhuma. Independentemente de como uma página é navegada, ela deveria ter somente uma URL para fins de SEO. Alguns irão argumentar que incluir caminhos de navegação na URL é uma deixa positiva para os visitantes do site, mas mesmo alguém com um background de usabilidade, acreditando que os contras sobrepõe os prós aqui.

Se você já tem variações indexadas, então um 01-redirect (IV-2) ou canonical tag (IV-5) são provavelmente suas melhores opções. Em muitos casos, implementar a canonical tag será mais fácil, uma vez que podem existir muitas variações para facilmente redirecionar. A longo prazo, no entanto, você precisará reavaliar a arquitetura do seu site.

9. Parâmetros funcionais   

Parâmetros Funcionais são parâmetros de URL que mudam uma página levemente mas não têm nenhum valor para busca e essencialmente são duplicatas. Por exemplo, digamos que todas as suas páginas de produto tenham uma versão para impressão, e essa versão tenha sua própria URL:

Aqui, a URL variável “print=1” indica uma versão que pode ser impressa, que normalmente teria o mesmo conteúdo mas um template modificado. Sua melhor aposta é não indexá-las, com algo como um Meta Noindex (IV-4), mas você também poderia usar uma canonical tag (IV-5) para consolidar essas páginas.

10. Duplicatas internas

Essas duplicatas ocorrem quando você tem conteúdo para diferentes países que compartilham a mesma linguagem, todos hospedados no mesmo domínio raiz (poderiam ser subpastas ou subdomínios). Por exemplo, você pode te uma versão em inglês das páginas do seu produto para os EUA, Reino Unido e Austrália:

Infelizmente, esse é um pouco difícil – em alguns casos, o Google irá lidar com ele perfeitamente e rankear o conteúdo apropriado nos países corretos. Em outros casos, mesmo com o geo-targeting correto, ele não vai. Geralmente é melhor fazer o target da língua do que do país, mas existem razões legítimas para dividir o conteúdo específico para países, tais como preço.

Se o seu conteúdo internacional for tratado como conteúdo duplicado, não existe resposta fácil. Se você usar 301-redirect, você irá perder a página para visitantes. Se você usar canonical tag, então o Google somente irá rankear uma versão da página. A solução “correta” pode ser altamente situacional, e realmente depende da troca risco-recompensa (e do escopo filtro/penalidade).

11. Classificação de busca

Até agora, todos os exemplos que dei foram “true duplicates”. Gostaria de mergulhar em alguns exemplos de “near duplicates”, uma vez que esse conceito é um pouco confuso.

Alguns exemplos confusos surgem com mecanismos de busca internos, o que tende a gerar muitas variáveis – classificação de resultados, filtros, e resultados paginados sendo os problemas mais freqüentes. Duplicatas de classificação de busca surgem sempre que uma classificação (ascendente/descendente) cria uma URL separada. Enquanto os dois resultados classificados são, tecnicamente, duas páginas diferentes, eles não adicionam nenhum valor ao índex de busca e contém o mesmo conteúdo, apenas em ordem diferente. As URLs devem se parecer:

Na maior parte dos casos, é melhor simplesmente bloquear as versões ordenadas completamente, geralmente adicionando um Meta Noindex (IV-4) seletivamente a páginas chamadas com aquele parâmetro. Rapidamente, você consegue bloquear o parâmetro de classificação no Google Webmaster Tools (IV-7) e no  Bing Webmaster Central (IV-9).

12. Filtros de busca

Filtros de busca são usados para restringir uma busca interna – pode ser um preço, cor, recursos, etc. Filtros são muito comuns em sites de e-commerce que vendem uma grande variedade de produtos. URLs de filtros de busca se parecem muito com classificações de busca, em muitos casos:

A solução aqui é similar à apresentada em (11) – não indexe os filtros. Desde que o Google tenha um caminho claro para os produtos, indexar cada variação normalmente faz mais mal do que bem.

13. Paginação de busca

A paginação é um problema fácil de descrever e incrivelmente difícil de solucionar. Sempre que você dividir os resultados de busca interna em páginas separadas, você terá conteúdo paginado. As URLs são fáceis de serem visualizadas:

Claro, mais de uma centena de resultados, uma busca pode facilmente deixar de fora dezenas de near duplicates. Enquanto os resultados diferem entre eles, muitos recursos importantes das páginas (Títulos, Descrições Meta, Headers, Cópia, template, etc), são idênticos. Adicione a isso o problema que o Google não é um grande fã de “busca dentro de busca”.

No passado, o Google disse para permitir que eles escolhessem a paginação – o problema é que eles não fizeram isso muito bem. Recentemente, o Google introduziu o Rel=Prev e Rel=Next (IV-10). Dados iniciais sugerem que essas tags funcionam, mas não temos muitos dados, eles são difíceis de implementar e o Bing atualmente não os suporta.

Você tem outras 3 opções viáveis (na minha opinião). apesar de como e quando elas são viáveis depender muito da situação.

  1. Você pode usar Meta Noindex, Follow pages e resultados de busca. Deixe o Google rastrear o conteúdo paginado mas não deixe ele indexá-lo.
  2. Você pode criar uma página “Visualize tudo” que link para todos os resultados de busca em uma URL, e deixar que o Google a auto detecte. Esta parece ser a opção preferida do Google.
  3. Você pode criar uma página “Visualize tudo” e criar uma canonical tag de resultados paginados de volta para aquela página. Isto é endossado extra-oficialmente, mas as páginas não são realmente duplicadas da maneira tradicional, então alguns podem afirmar que isso viola a intenção da Rel-canonical.

Adam Audette tem uma profunda e recente discussão sobre paginação de busca que eu altamente recomendo. A paginação para SEO é um tópico bastante difícil e muito além do escopo deste artigo.

14. Variações de produto

Páginas de variação de produto são aquelas que se ramificam a partir da página do produto principal e somente se diferem por um recurso ou opção. Por exemplo, você pode ter uma página para cada cor disponível do produto:

Pode ser tentador querer indexar toda variação de cor, esperando que ele surja nos resultados de busca, mas na maioria dos casos, acredito que os contras sobrepõem os prós. Se você tem muitas variações de produtos – e estamos falando de certa de dezenas de páginas -, tudo bem. Se as variações de produtos chegam a centenas, milhares, no entanto, é melhor consolidar. Apesar de essas páginas não serem duplicatas reais, acredito que seja ok usar  Rel-canonical (IV-5) nas opções de volta para a página do principal do produto.

Nota: Eu usei URLs “estáticas” de propósito para demonstrar uma questão. Só porque uma URL não tem parâmetros, isso não a deixa imune à duplicação. URLs estáticas (sem-parâmetro) podem parecer mais bonitas, mas elas podem ser duplicadas da mesma maneira que URLs dinâmicas.

15. Variações da palavra-chave “geo”

Um dia, “SEO local” significou apenas copiar todas as suas páginas milhares de vezes, adicionando o nome de uma cidade para a URL, e trocando aquela cidade na cópia da página. Ele criava URLs assim:

Em 2011, o SEO local não é somente mais sofisticado, mas essas páginas quase sempre irão se parecer com near duplicates. Se você tem alguma chance de posicionamento, você irá precisar investir em conteúdo legítimo e único para cada região geográfica que ficar de fora. Se você não estiver disposto a fazer esse investimento, então não crie as páginas. Elas provavelmente serão um tiro que sairá pela culatra.

16. Outro conteúdo “fino”

Este não é de fato um exemplo, mas eu queria parar e explicar uma palavra que jogamos muito por aí no que diz respeito a conteúdo. “Fino”. Enquanto conteúdo fino pode significar uma grande variedade de coisas, eu acho que muitos exemplos de conteúdo fino são near duplicates como (14) acima. Sempre que você tiver páginas que variam por uma pequena porcentagem de conteúdo, você arrisca aquelas páginas a aparentarem um baixo valor para o Google. Se essas páginas estiverem pesadas com anúncios (com mais anúncios do que conteúdo único), você está ainda mais em risco. Quando grande parte do seu site é de conteúdo fino, é hora de revisar sua estratégia de conteúdo.

17. Conteúdo sindicado

Todos esses últimos 3 exemplos se relacionam com conteúdo de múltiplos domínios (cross-domain). Aqui, as URLs não importam – elas poderiam ser vastamente diferentes. Os exemplos (17) e (18) somente se diferenciam pela intenção. Apesar de você recuperá-lo e integrá-lo, esse conteúdo está disponível em outro site (e, muitas vezes, em muitos sites).

Mesmo a sindicação sendo legítima, ainda é provável que uma ou mais cópias sejam filtradas dos resultados de busca. Você pode jogar o dado e ver o que acontece (IV-13), mas a sabedoria convencional de SEO diz que deveria linkar de volta para a fonte e provavelmente criar uma canonical tag (IV-5) cross-domain. Uma canonical tag cross-domain se parece exatamente com uma canonical regular, mas com a referência ao domínio de outra pessoa.

Claro, uma canonical tag cross-domain significa que, pressupondo que o Google honre a tag, sua página não será indexada ou rankeada. Em alguns casos, isso é ok – você está usando o conteúdo pelo seu valor para os visitantes. Praticamente, acredito que depende do escopo. Se você ocasionalmente distribui conteúdo para reforçar suas ofertas, mas também tem bastante material único, então link de volta e deixe quieto. Se grande parte do seu site é conteúdo sindicado, então você pode estar se metendo em problema. Infelizmente, usar a canonical tag (IV-5) significa que você irá perder a habilidade de posicionamento daquele conteúdo, mas ela pode te impedir de ser penalizado ou ter problemas relacionados ao Panda.

18. Conteúdo “retirado”

Conteúdo retirado é exatamente como oconteúdo sindicado, exceto que você não pediu permissão (e pode estar até infringindo a lei). A melhor solução: PARE DE INFRINGIR A LEI!. Sério, nenhuma solução será satisfatória. O melhor que você pode fazer é ajustar este tipo de conteúdo com a maior parte do seu conteúdo, único e exclusivo, possível.

19. Conteúdo duplicado de mesma língua em países diferentes

Finalmente, é possível encontrar problemas quando você tem conteúdos que estão na mesma língua – por exemplo, o inglês -, mas que são de países diferentes (como EUA e Inglaterra) e estão em domínios TLD separados. Felizmente, esse problema é bastante raro, mas nós o encontramos em conteúdo da língua inglesa e até em algumas línguas européias. Por exemplo, eu freqüentemente vejo perguntas sobre conteúdo alemão e domínios Belgas com posicionamento impróprio.

Infelizmente, não existe resposta fácil aqui, e a maior parte das soluções não são abordagens tradicionais de conteúdo duplicado. Na maior parte dos casos, você precisa trabalhar nos seus fatores de targeting e mostrar claramente ao Google que o domínio está ligado ao país em questão. 

VI. Qual URL é canônica?

Eu gostaria agora de fazer um pequeno desvio para discutir algo importante: não importa se você vai usar o 301-redirect ou a Canonical Tag, como você saberá qual URL realmente é Canônica? Eu geralmente vejo as pessoas cometerem erros assim:

O problema é que “product.php” é apenas um template – você agora sucumbiu todos os seus produtos em uma única página (que provavelmente nem exibe um produto). Neste caso, a versão canônica provavelmente inclui um parâmetro, como “id=1234”.

A página canônica não é sempre a versão mais simples da URL – é a versão mais simples da URL que gera conteúdo ÚNICO. Digamos que você tem essas três URLs e que geram, todas, a mesma página de produto:

Duas dessas versões são essencialmente duplicatas, e os parâmetros “print” e “session” representam variações na página principal do produto que deveria não ser duplicada (ou ser “desduplicada”). No entanto o parâmetro “id” é essencial para o conteúdo – ele determina qual produto de fato está sendo exibido.

Então, considere-se avisado. Por mais trabalho que duplicatas desenfreadas podem dar, má canonização pode causar até mais dano em alguns casos. Planeje cuidadosamente, e certifique-se absolutamente de ter selecionado as versões canônicas corretas das suas páginas antes de consolidá-las.

VII. Ferramentas para diagnosticar duplicatas

Então, agora que você reconhece com o que se parece um conteúdo duplicado, como você o descobre em seu próprio site? Aqui estão algumas ferramentas para você começar – não irei dizer que é uma lista completa, mas cobre o básico:

1. Google Webmaster Tools

No Google Webmaster Tools você pode obter uma lista das TITLE tags e Meta Descriptions duplicadas que o Google rastreou. Mesmo elas não contando toda a história, são um bom ponto de partida. Muitas duplicatas baseadas em URL irão gerar naturalmente Meta Data idênticas. Na sua conta GWT, vá até “Diagnostics” > “HTML Suggestions”, e você verá uma tabela como essa:

Você pode clicar em “Duplicate meta descriptions” e “Duplicate title tags” para obter uma lista. Esta é uma ótima primeira parada para descobrir os lugares com problemas.

2. Comando “site:” do Google

Quando você já tem uma ideia de onde provavelmente estão os seus problemas e precisa ir mais fundo, o comando “site:” do Google é uma ferramenta muito poderosa e flexível. O que realmente torna o “site:” poderoso é que você pode usá-lo em conjunto com outros operadores de busca.

Digamos, por exemplo, que você está preocupado com duplicatas da home page. Para descobrir se o Google indexou alguma cópia da sua home page, você poderia usar o comando “site:”com o operador “intitle:” assim:

Coloque o título entre aspas para capturar a frase completa, e sempre use o domínio raíz (deixe o “www” fora) quando for fazer uma varredura maior por conteúdo duplicado. Isso irá detectar ambas versões“www” e não-www.

Outra combinação poderosa é “site:” mais o operador “inurl:”. Você poderia usar isso para detectar parâmetros, tais como o problema de busca-classificação mencionado acima:

O operador “inurl:” também consegue detectar o protocolo usado, o que é útil para descobrir se quaisquer cópiar seguras (https:) das suas páginas foram indexadas:

Você também pode combinar o operador “site:” com texto de busca regular para encontrar near duplicates (como blocos ou blocos de conteúdo repetido). Para procurar por um bloco de conteúdo no seu site, apenas o inclua entre aspas:

Eu também deveria mencionar que procurar por um único bloco de conteúdo entre aspas é uma maneira fácil e barata de descobrir se as pessoas andam copiando conteúdo do seu site. Apenas deixe fora o operador “site:” e procure por um único ou longo bloco inteiramente entre aspas.

Claro, esses são apenas alguns exemplos, mas se você realmente precisar ir mais fundo, essas simples ferramentas podem ser usadas de maneiras poderosas. Fundamentalmente , a melhor maneira de dizer se você tem um problema de conteúdo duplicado  é ver o que o Google vê.

3. Seu próprio cérebro

Finalmente, é importante lembrar de usar o seu próprio cérebro. Encontrar conteúdo duplicado muitas vezes requer trabalho de detetive, e a confiança em excesso em ferramentas pode deixar algumas lacunas no que você encontra.

Um passo crítico é navegar sistematicamente no seu site para encontrar onde as duplicatas estão sendo criadas. Por exemplo, sua busca interna tem classificações e filtros? Essas classificações e filtros são traduzidos em URLs variáveis, e são rastreáveis? Se sim, você pode usar o comando “site:” para procurar mais profundamente. Pela minha experiência, encontrar vários problemas usando suas próprias habilidades de investigação pode ajudar a revelar centenas de páginas duplicadas.

Espero que isso cubra tudo

Se você chegou até aqui: parabéns – você provavelmente está tão exausto como eu. Espero que isso cubra tudo que você gostaria de saber sobre conteúdo duplicado em 2011. Alguns desses tópicos, como paginação, são extremamente complicados na prática, e muitas vezes existem mais de uma resposta “certa”. Finalmente, se você gostou do meu mini-poster do Panda, aqui está uma versão maior do Pandas Take No Prisoners.

Muitos me pediram uma versão única deste artigo, então você pode clicar aqui e fazer o download do PDF (em inglês, 22 páginas, 560KB). 

***

Este artigo é uma republicação feita com permissão. SEOMoz não tem qualquer afiliação com este site. O original está em: http://www.seomoz.org/blog/duplicate-content-in-a-post-panda-world