Logo E-Commerce Brasil

Entendendo melhor técnicas de análises de spams baseados em links

Um aspecto frustrante do link building é não saber o valor de um link. Apesar da experiência e de alguns dados serem capazes de te ajudar na sua avaliação de links, é impossível saber em que nível um link está te ajudando. É difícil saber se um link sequer está te ajudando. Mecanismos de busca não contam todos os links, eles reduzem o valor de muitos dos que eles de fato contam, e usam fatores relacionados com seus links para suprimir seu valor além do que sobrou. Isso tudo é feito para aumentar a relevância da detecção de spam. Compreender os princípios básicos da detecção de spams pode melhorar seu entendimento sobre a avaliação de links e te ajudar a entender como os mecanismos de busca abordam o problema da detecção de spams, o que pode levar a melhores práticas de link building. Eu gostaria de falar sobre alguns conceitos interessantes de análise de spams de links que os mecanismos de busca podem utilizar para avaliar o seu perfil de backlink. Atenção: Eu não trabalho em um mecanismo de busca, então não posso fazer afirmações concretas sobre como os mecanismos de busca avaliam links. Os mecanismos podem usar algumas, ou nenhuma, das técnicas incluídas neste artigo. Eles também certamente usam mais técnicas (sofisticadas) que eu sou capaz de cobrir neste artigo. No entanto, eu gastei muito tempo lendo trabalhos e patentes, então achei que valeria a pena compartilhar algumas dessas técnicas interessantes.

#1 PageRank Truncado

Os conceitos básicos do PageRank Truncado  estão no trabalho Linked-based Characterization and Detection of Web Spam (pdf). O PageRank Truncado é um cálculo que remove a contribuição direta do “link juice” fornecida pelo primeiro nível (is) de link (s). Portanto, uma página impulsionada por métodos naturais estão recebendo uma grande porção do valor do PageRank diretamente da primeira camada. No entanto, um link de uma página bem linkada irá receber a contribuição do “link juice” de níveis adicionais. Páginas de spam provavelmente irão mostrar um PageRank Truncado que é significamente menor que o PageRank. A proporção do PageRank Truncado para o PageRank pode ser um sinal para indicar o spam de um perfil de links.

#2 Contribuições protegidas/acessíveis

Links podem ser agrupados em três grupos gerais:
  1. Links de conteúdo protegido – Links de páginas em que os mecanismos de busca determinaram algum nível de propriedade (co-citação bem conectada, IP, whois etc.)
  2. Links de conteúdo acessível – Links de conteúdo não protegido que têm fácil acesso para adicionar links (blogs, fóruns, diretórios de artigos, livros de visitantes etc.)
  3. Links de conteúdo inacessível – Links de fontes independentes
Um link de qualquer uma dessas fontes não é nem bom nem ruim. Links provenientes de conteúdo protegido, através de redes e relacionamentos, são perfeitamente naturais. No entanto, um link proveniente de conteúdo inacessível poderia ser um link pago, então esse grupo não significa que é inerentemente bom. No entanto, saber em qual grupo o link se encaixa pode mudar a avaliação. Esse tipo de análise em dois sites pode mostrar uma diferença distinta em um perfil de link, com todos os outros fatores sendo os mesmos. O primeiro site é primariamente suportado por links provenientes de um conteúdo que ele controla diretamente ou que pode ganhar acesso para. No entanto, o segundo site tem ganhado links de uma grande porcentagem de fontes únicas e independentes. Sendo todas as coisas iguais, o segundo site tem menos chances de ser um spam.

#3 Massa relativa

A massa relativa responde pela porcentagem da distribuição de um perfil de certos tipos de links. O exemplos dos gráficos de pizza demonstram o conceito da massa relativa: A massa relativa é discutida mais profundamente no trabalho Link Spam Detection Based on Mass Estimation. A análise da massa relativa pode definir o limite no qual uma página é determinada “spam”. Na imagem acima, os círculos vermelhos foram identificados como spam. A página alvo agora tem uma porção do valor atribuído a ela através de sites “spam”. Se esse valor de contribuição exceder o limite de potencial, essa página poderia ter seus rankings suprimidos ou seu valor passado através desses links minimizados. O exemplo acima é razoavelmente binário, mas muitas vezes existe um grande gradiente entre não-spam e spam. Esse tipo de análise pode ser aplicado a táticas também, tais como distribuição de links de comentários, diretórios, artigos, fontes sequestradas, páginas protegidas, links pagos etc. O algoritmo pode fornecer um certo grau de “perdão” antes que sua contribuição de massa relativa exceda um nível aceitável. PAREI AQUI

#4 Contar os suportes/velocidade dos nós

Outro método para avaliar links é contar com sites apoiadores que linkam para o seu site e avaliar a descoberta desses nodes (e o ponto no qual a descoberta sofre picos). Um histograma de distribuição de nodes de sites apoiadores por saltos pode demonstrar a diferença entre spam e sites de alta qualidade. Sites bem conectados irão crescer em sites apoiadores mais rapidamente do que sites spam, e sites spam geralmente têm picos mais cedo. Sites spam irão crescer rapidamente e decair assim que você se afastar do node alvo. Essa distribuição pode ajudar a determinar que um site está usando práticas de link building de spam. Devido ao fato de as redes de spam terem altos graus de clustering, os domínios irão repetir sobre os saltos, o que faz com que os perfis de spam gerem gargalo mais rápido do que perfis que não sejam spam. Dica: Acredito que esse seja um motivo pelo qual a diversidade de domínios e a raiz única de domínios de links estão bastante relacionadas com os rankings. Eu não acredito que o relacionamento é tão inocente como contar domínios de links, mas uma analise como contagem de sites apoiadores, assim como Truncated PageRank, poderia fazer com que os links recebidos de um grande conjunto de domínios diversos fosse melhor correlacionado com os rankings. .

#5 TrustRank, Anti-TrustRank, SpamRank etc

O modelo de TrustRank  foi escrito muitas vezes antes e é a base de métricas como mozTrust. A premissa básica é que as fontes de nós podem ter ambos os valores Trust e Spam, que podem ser passados através de links. Quanto mais perto você estiver do conjunto de sites de seed, mais próximo você estará de ser como eles. Se você estiver perto de seeds de spam, ficará como eles; por outro lado, se estiver próximo de links confiáveis, também será assim. Esses valores podem ser julgados na entrada e na saída. Não irei entrar em muitos detalhes além disso, mas tudo se resume a algumas regras simples:
  • Pegue links conteúdo confiável.
  • Não pegue links de conteúdo spam.
  • Link para conteúdo confiável.
  • Não link para conteúdo spam.
Este tipo de análise também foi usada para usar fóruns de SEO contra spammers. Um mecanismo de busca pode rastejar por links nos melhores fóruns de SEO para criar um conjunto de seed para executar análises.

#6 Texto âncora vs. tempo

Monitorar o texto âncora ao longo do tempo pode trazer insights interessantes que poderiam detectar manipulações potenciais. Vamos dar uma olhada em um exemplo de como um domínio usado que foi comprado pelo valor do link (e spam) deve aparecer com esse tipo de análise. Esse domínio tem um registro histórico de adquirir textos âncora incluindo termos alvo. Então de repente a taxa cai e depois de um tempo um novo fluxo repentino de texto âncora, nunca visto antes, começa a entrar. Esse tipo de análise de texto âncora, combinado com a abordagem de detecção de spam ortogonal, pode ajudar a detectar o ponto no qual a propriedade foi modificada. Os links antes desse ponto podem então ser avaliados diferentemente. Esse tipo de análise, além de outras coisas muito interessantes, é discutida no trabalho do Google Document Scoring Based on Link-Based Criteria.

#7 Limites de crescimento de links

Sites com rápido crescimento podem ter seu impacto amortecido ao ser aplicado um valor que pode ser ganho com uma unidade de tempo. Sinais corroborativos podem ajudar a determinar se um pico é de um evento real ou de conteúdo viral, em oposição à manipulação de links. Esse limite pode descontar o valor de links que excedem um limite designado. Um perfil de crescimento mais natural é menos provável de quebrar o limite. Você pode encontrar mais informações sobre a análise histórica no trabalho Information Retrieval Based on Historical Data.

#8 PageRank robusto

PageRank robusto funciona através do cálculo do PageRank sem os nodes de contribuição mais alta. Na imagem acima, os dois links mais fortes foram desligados e efetivamente reduziram o PageRank de um node. Sites fortes geralmente têm perfis robustos e não dependem fortemente de poucas fontes fortes (tais quais links de fazendas de links) para manter um PageRank alto. Cálculos robustos de PageRank são uma maneira de reduzir o impacto nos nodes mais influenciáveis. Você pode ler mais sobre PageRank Robustos no trabalho Robust PageRank and Locally Computable Spam Detection Features (pdf).

#9 Variação de PageRank

A uniformidade da contribuição do PageRank para um node pode ser utilizada para avaliar spam. Perfis naturais de links provavelmente terão uma variação maior na variação da contribuição do PageRank. Os perfis de spam tendem a ser mais uniformes. Portanto, se você usa uma ferramenta, um mercado, ou um serviço para pedir 15 PR 4 links para um texto âncora especifico, ele terá que ter uma baixa variação em PR. Essa é uma maneira fácil de detectar esse tipo de prática.

#10 Retornos diminuídos

Uma maneira de diminuir o valor de uma tática é criar retornos marginalmente menores em tipos específicos de links. Isso é mais fácil de perceber em sites com muitos links, tais como um blogroll ou links pagos no rodapé. Em algum ponto, a popularidade do link, em volume, foi um forte fator que levou a sites com muitos links, carregando montante de valor desproporcional. O primeiro link de um domínio carrega o primeiro voto, e receber links adicionais de um domínio em particular irá continuar a aumentar o valor total de um domínio, mas somente até certo ponto. Eventualmente, os links oriundos de um mesmo domínio irão continuar a ter retornos menores. Ir de 1 a 3 links de um domínio irá ter mais efeito do que ir de 101 links para 103 links. Dica: Apesar de ser fácil de ver isso em um site com muitos links, acredito que a maioria das táticas de link building deveriam ser feitas dessa maneira. Além das ideias como massa relativa, na qual você não quer que uma coisa domine, eu acredito que as táticas perdem tração com o tempo. Não é provável que você possa ganhar rankings fortes com um número limitado de táticas, porque muitas táticas manuais tendem a chegar num ponto de diminuir os resultados (às vezes pode ser algoritmico, outras vezes pode ser devido aos resultados diminuídos na vantagem competitiva. É melhor evitar o link building de uma única dimensão.

Algoritmos de links spam

Todos os algoritmos de análises de spam têm alguma porcentagem de precisão e algum nível de falsos positivos. Através da combinação desses métodos de detecção, os mecanismos de busca podem maximizar a precisão e minimizar os falsos positivos. A análise de spams web permite mais falsos positivos do que detecção de spams de e-mail, porque existem normalmente mais alternativas múltiplas para substituir um resultado que foi levado para baixo. Não é como a detecção de spam de e-mail, que é binária por natureza (inbox ou spam box). Além disso, os mecanismos de busca não têm que criar rótulos binários de “spam” ou “não spam” para melhorar efetivamente os resultados de busca. Ao usar a análise, tais como as discutidas neste artigo, os mecanismos de busca podem simplesmente amortecer os rankings e minimizar os efeitos. Essas técnicas de análise também são designadas para diminuir o ROI de táticas especificas, o que deixa o spamming mais difícil e mais caro. O objetivo deste artigo não é estressar sobre quais links funcionam e quais não, porque é difícil saber. O objetivo é demonstrar algumas das táticas de soluções de problemas usadas pelos mecanismos de buscas e como elas impactam as suas táticas. Este artigo é uma republicação feita com permissão. SEOMoz não tem qualquer afiliação com este site. O original está emhttp://www.seomoz.org/blog/understanding-link-based-spam-analysis-techniques