Encontre as maiores falhas técnicas do seu site em 60 minutos - Parte 02

Nesta sequência de artigos, estamos falando sobre como encontrar as maiores falhas técnicas em seu site em apenas uma hora. Na primeira parte, eu tratei dos problemas relacionados à arquitetura dos sites, agora vamos falar sobre indexação, rastreamento e conteúdo duplicado.

Indexação e rastreamento

1. Verifique se há penalidades

Nenhum dos nossos voluntários tem qualquer penalidade imediatamente visível para que possamos seguir em frente. Esta é uma verificação de dois segundos que você deve fazer antes de se ater excessivamente a outros detalhes.

Como faço isso? Consultas de pesquisa do Google por URL exatas da homepage e o nome da marca. Se não aparecer, você terá que investigar mais.

2. Canônica, noindex, follow, nofollow, robots.txt

Sempre faço isso, então, vejo quão entendidos os desenvolvedores estão sobre SEO, para poderem ganhar mais conhecimento sobre o site. Você não verificaria estas tags detalhadamente a menos que tivesse uma causa justa (exemplo: uma página que deve ser classificada e não está).

Eu vou detalhar essa seção, uma vez que ela requer muito mais do que apenas um olhar rápido, especialmente em sites maiores. Em primeiro lugar verificar os robots.txt e olhar através de alguns dos diretórios bloqueados, tentar determinar por que eles estão sendo bloqueados e quais os bots que estão impedindo que eles funcionem. Em seguida, coloque o Screaming Frog no meio e o relatório de rastreamento interno dele vai automaticamente verificar cada url de metadados (noindex, maior nível de nofollow e rastreamento) e lhe dará a URL canônica se acontecer de ser um.

Se estiver verificando o local de um site, a primeira coisa que deve fazer é entender quais as tags que são usadas e o porquê.

Pegue o Webrevolve como exemplo, eles escolheram "noindex" e "follow" para colocar em todas as suas páginas autor.

Isto é um palpite, mas acho que essas páginas não oferecem muito valor e, geralmente, não merecem uma visita nos resultados de busca. Se estas fosse válidas, se fosse páginas de condução de tráfego, eu sugeriria que o "noindex" fosse removido, mas neste caso acredito que fizeram a escolha certa.

Eles também implementam o auto-serviço de etiquetas canônicas (sim, eu acabei de inventar isso), basicamente cada página terá uma tag canônica que aponta para si mesmo. Geralmente não tenho nenhum problema com esta prática, já que, normalmente, facilita para os desenvolvedores.

Exemplo: http://www.webrevolve.com/our-work/websites/ecommerce/

3. Número de páginas VS Number das páginas indexadas pelo Google

O que realmente queremos saber aqui são quantas páginas o Google indexou. Há duas maneiras de fazer isso: usando o Google Webmaster Tools por meio da apresentação de um mapa do site você poderá obter de volta estatísticas de quantas são, na verdade, as URLs no índice, ou você pode fazê-lo sem ter acesso, mas é muito menos eficiente. Isto é como eu verificaria...

Executar um rastreamento Screaming Frog (certifique-se de obedecer robots.txt);
Faça um site: consulta;
Obter os números do resultados - quase nunca precisos - e compará-los com o total de páginas em rastreamento.

Se os números não são próximos, como acontece com o CVCSports (206 páginas versus 469 no índice), você provavelmente vai querer olhar para ele ainda.

Posso te dizer agora que o CVCSports tem 206 páginas (sem contar aquelas que foram bloqueadas pelo robots.txt). Apenas fazendo isso, posso dizer rapidamente que há algo estranho acontecendo e que preciso checar mais a fundo.

Só para ir direto ao ponto, o CVCsports tem várias cópias do domínio em subdomínios que estão causando isso.

Correção: isso varia. Você pode ter problemas complicados, ou pode ser tão fácil quanto usar noindex, canônica, ou redirecionamentos 301. Não fique tentado a bloquear as páginas indesejadas por robots.txt, uma vez que isso não irá removê-las do índice, e só vai impedir que elas sejam rastreadas.

Conteúdo duplicado e a página SEO

A atualização Panda do Google foi, definitivamente, um divisor de águas e causou enormes prejuízos para alguns sites. Uma das maneiras mais fáceis de evitar, pelo menos parte do caminho destrutivo do Panda, é evitar todo o conteúdo duplicado no seu site.

1. Parâmetro baseado na duplicação

Parâmetros de URL como pesquisa= ou palavra-chave = muitas vezes causam a duplicação não intencional. Eis alguns exemplos:

Correção: novamente, isso varia. Se estivesse dando um conselho geral, eu diria para usar links limpos, em primeiro lugar - dependendo da complexidade do site você pode considerar 301s, tags canônicas ou mesmo noindex. De qualquer forma, livre-se deles!

Como foi que encontrei? Screaming Frog> Crawl Interno> coluna tag Hash

Basicamente, o Screaming Frog irá criar um número hexadecimal exclusivo, baseado no código fonte. Se você tiver hashtags correspondentes, você tem o código fonte duplicado. Depois de ter seu rastreamento pronto, use o Excel para filtrar (instruções completas aqui).

2. Conteúdo de texto duplicado

Ter o mesmo texto em várias páginas não chega a ser um crime, mas é melhor evitar essa prática completamente.

Me desculpe CVCSports, mas você é o exemplo mais uma vez! Veja aqui.

Não se preocupe, nós já endereçamos seus problemas acima, é só usar redirecionamentos 301 para se livrar dessas cópias.

Correção: escreva conteúdo exclusivo tanto quanto possível. Ou seja econômico e cole uma imagem, que funcionará também.

Como foi que encontrei? Eu usei http://www.copyscape.com, mas também pode copiar e colar o texto no Google pesquisa.

3. Duplicação causada por paginação

Página 1, página 2, página 3... Você começa o quadro. Com o tempo, os sites podem acumular milhares, senão milhões de páginas duplicadas por causa desses links de páginas interessantes. Eu juro que vi um site com 300 páginas para uma página do produto.

Nossos exemplos:

Eles estão sendo indexados? Sim.

Outros exemplos?

Eles estão sendo indexados? Sim.

Correção: o conselho geral é usar o diretivo noindex e follow. (Isto diz ao Google não para adicionar esta página no índice, mas rastrear através dela). Uma alternativa seria usar uma tag canônica, mas tudo isso depende da razão pela qual existe a paginação. Por exemplo, se você tivesse uma história que foi separada em três páginas, você definitivamente iria querer todos eles indexados. No entanto, essas páginas são muito finas e "poderiam" ser consideradas como de baixa qualidade para o Google.

Como foi que encontrei? Screaming Frog> links internos> Verificar parâmetros de paginação

Abra as páginas e você irá rapidamente determinar se elas são páginas auto-geradas e finas. Depois de saber o parâmetro de paginação ou da estrutura da URL, você pode verificar o índice do Google assim: site: example.com inURL: page =

Tempo encerrado! Há muito mais que eu gostaria de poder fazer, mas fui rigoroso sobre o limite de uma hora. Muito obrigado aos voluntários corajosos que colocaram seus sites a disposição para este artigo. Um site eu simplesmente utilizar, porque ele fizeram um ótimo trabalho tecnicamente e eu não poderia encontrar todas as falhas técnicas.

Agora é hora da comunidade me avaliar: como eu me saí? O que eu poderia ter feito melhor? me esqueci de alguma super ferramentas? Algumas dicas para os sites voluntários?

Obrigado pela leitura, você pode me achar no Twitter em @dsottimano.

***

Este artigo é uma republicação feita com permissão. SEOMoz não tem qualquer afiliação com este site. O original está em: http://www.seomoz.org/blog/find-your-sites-biggest-technical-flaws-in-60-minutes