Técnicas de camuflagem de SEO para evitar em 2011

Publicados: 2011-01-27

O chefe do Google Web Spam, Matt Cutts, tirou um tempo de Ozzie e Emmy (The Matt Cutts “Catts”) no final de 2010 para postar um pouco para webmasters e SEOs via Twitter, o que tenho certeza adicionado às ressacas para alguns Black Hats durante a temporada de férias.

O Google vai [olhar] mais para o cloaking no primeiro trimestre de 2011. Não apenas, o conteúdo da página importa; evite diferentes cabeçalhos/redirecionamentos para o Googlebot em vez de usuários.

Cloaking é a técnica usada para apresentar conteúdo, layout, funcionalidade ou cabeçalhos diferentes (uma página completamente diferente ou componentes parciais da página, conhecidos como cloaking Mosaic) para um spider do mecanismo de pesquisa do que para o navegador da Web de um usuário.

A camuflagem ética não é "chapéu preto", no entanto, no passado, os spammers usaram métodos para manipular técnicas de camuflagem, para maior clareza, vamos nos referir a ela como spam de camuflagem, para enganar o algoritmo (do Google). Este não é um fenômeno novo. No início, a metatag de palavras-chave foi abusada por spammers e, como resultado, agora não é mais um fator de classificação e a tag <noscript> também pode ser tratada com alguma suspeita, pois também foi abusada no passado (talvez devêssemos abrir um refúgio para elementos HTML abusados….)

Em primeiro lugar, deixe-me dizer que, se possível, EVITE CLOADING. Cloaking é um exercício de alto risco que, caso precise ser implementado, deve ser feito de maneira ética apropriada, seguindo as Diretrizes para webmasters do Google, para garantir que seu site não seja penalizado ou retirado do índice.

Infelizmente, alguns webmasters podem não entender as repercussões e, inadvertidamente, ocultar conteúdo, links ou sites inteiros sem sequer perceber. Este artigo descreve algumas das funcionalidades comuns no local que podem ser (mal) interpretadas como spam de camuflagem.

Lembre-se de que o Google está investigando ativamente casos de spam de cloaking e banindo sites de seu índice. Eles também estão acompanhando a detecção de cloaking e links não naturais com notificações aos webmasters por meio das Ferramentas do Google para webmasters. O Google agora está ficando cada vez melhor na detecção de spam de camuflagem por algoritmos, mesmo a entrega de IP não é infalível e, claro, o Google sempre incentiva sua concorrência a usar o relatório de spam se detectar algo suspeito em sua página.

A identificação algorítmica de cloaking-spam exige que um mecanismo de pesquisa compare uma única página da Web obtida por meio de dois ou mais mecanismos (por exemplo, dois ou mais intervalos de IP, identificadores de agente de usuário ou diferentes níveis de funcionalidade HTML/JavaScript). A Microsoft registrou uma patente no final de 2006 reivindicando um sistema que facilita a detecção de uma página da Web camuflada.

Naturalmente, isso leva à pergunta: como um mecanismo de pesquisa poderia reunir e analisar os dois exemplos de uma página da Web para comparação? Alguns métodos podem incluir:

Diferenciação parcial de conteúdo, usando análise de tópico de conteúdo, segmentação de página, análise semântica latente (LSA), uso de palavras-chave, links na página e outros fatores na página
Diferentes endereços IP/intervalos de IP separados ou proxies para analisar spam na web
Agentes de usuário diferentes (por exemplo, use um agente de usuário do navegador para verificar conteúdo oculto)
Relatórios de spam da comunidade de webmasters
Teste do usuário
Análise de mais de 5 redirecionamentos encadeados para verificação de cloaking (talvez limitando a indexação e o fluxo de PageRank, autoridade, confiança, etc., por meio de 5 redirecionamentos encadeados)
Interpretação aprimorada do código JavaScript (avaliando especificamente funções JavaScript complexas e/ou codificadas que contêm links ou redirecionamentos)
Mecanismo para aceitar cookies (potencialmente em conjunto com o JavaScript e análise de redirecionamento acima)

Obviamente, a coleta de dados pode ser terceirizada para uma empresa separada para evitar o problema de entrega de IP

Há casos em que uma empresa pode desejar fornecer informações diferentes ou adicionais a seus usuários. Por exemplo:

Segmentação geográfica
Usuários logados (experiência de página inicial personalizada, etc.)
Rastreamento de referência – por exemplo, forneça feedback ao usuário com base em sua consulta no mecanismo de pesquisa, como destacar as palavras em uma página que correspondem à consulta
Camuflagem de dispositivos para telefones celulares e dispositivos de toque
Otimização para navegadores específicos ou para compatibilidade com versões anteriores
Otimização de exibição (embora isso geralmente possa ser controlado por CSS)
Primeiro clique grátis – Ou primeiros cinco cliques grátis
Teste A/B ou multivariado
URLs de vaidade (camuflagem de links)
Exibir verificação de idade (www.bacardi.com usa uma combinação de detecção de agente do usuário e cookies para exibir uma página de boas-vindas de verificação de idade aos usuários, mas permite que os mecanismos de pesquisa acessem o site. Mesmo que o Google tenha apenas 14 anos)
Balanceamento de carga
Substituição de fonte (através de tecnologia como sIFR ou Cufon) – Nota: pode, mas não é ideal para o Google Preview (a partir de dezembro de 2010)
SWFObject

Certifique-se de considerar as implicações de SEO ao usar qualquer um dos métodos ou funcionalidades mencionados acima, pois a configuração incorreta pode resultar em spam de camuflagem ou pode não ser ideal para SEO.

Ok, então este não é um tutorial sobre como camuflar; é uma “lista proibida de spam de camuflagem de 2011” ou, no mínimo, uma lista de técnicas a serem evitadas ou problemas a serem corrigidos no início de 2011.

Algumas formas de camuflagem são deliberadas (como entrega de IP ou camuflagem de agente do usuário), no entanto, muitas formas de spam de camuflagem podem ser acidentais. Os tipos acidentais de spam de camuflagem que inadvertidamente fazem com que você seja banido do Google são a maior preocupação, pois o webmaster pode não estar ciente do problema. Mesmo as grandes empresas erram às vezes.

Investigaremos algumas das técnicas de spam de cloaking mais comuns abaixo para educar e garantir que webmasters e SEOs possam garantir que eles não os tenham em seus sites.

Normalmente, existem três maneiras de os webmasters ocultarem o conteúdo de usuários ou mecanismos de pesquisa:

Entrega de IP
Análise de agente de usuário (você pode verificar se há camuflagem de agente de usuário usando o verificador de camuflagem de SEO gratuito de Bruce Clay.
Explorar comportamentos conhecidos do mecanismo de pesquisa, como a execução de JavaScript ou redirecionamentos, e a indexação ou capacidade de aranha de vários elementos HTML

Entrega de conteúdo diferente com base no endereço IP do navegador da Web solicitante ou da aranha do mecanismo de pesquisa. [A entrega de IP é abordada com mais detalhes aqui.]

DNS reverso e DNS de encaminhamento

As pesquisas DNS reversa e DNS direta não são uma forma de camuflagem, mas podem ser usadas para consultar os registros DNS de um endereço IP solicitante. O Google fornece detalhes sobre como verificar se o Googlebot é quem afirma ser.

Entrega de conteúdo diferente com base no agente do usuário do navegador da Web solicitante ou aranha do mecanismo de pesquisa. Por exemplo, Googlebot/2.1 (+http://www.google.com/bot.html) ou Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)

O Google pode indexar uma página que contém JavaScript, mas pode não seguir o redirecionamento JavaScript, mas estamos vendo melhorias significativas na interpretação do código JavaScript do Google (por exemplo, o >gerador de visualização do Google renderiza JavaScript, AJAX, CSS3, frames e iframes).

Às vezes, os webmasters usam redirecionamentos JavaScript quando não podem implementar um redirecionamento do lado do servidor, deixando inadvertidamente o Googlebot na primeira página e enviando o navegador da Web (que segue o redirecionamento JavaScript) para uma segunda página contendo conteúdo diferente e, portanto, sinalizado como spam de cloaking.

Fique atento ao seguinte código:

<script type="text/javascript"> window.location="http://www.yoursite.com/second-page.html" </script>

Uma tag adicionada à seção head na página HTML para redirecionar os usuários para outra página após um período definido. A metatag de atualização não é considerada camuflagem quando usada sozinha, mas pode ser combinada com JavaScript, frames ou outras técnicas para enviar um usuário para uma página diferente dos spiders do mecanismo de pesquisa.

Fique atento ao seguinte código:

<meta http-equiv="refresh" content="0;url=http://www.yoursite.com/second-page.html">

Atualizações meta duplas/múltiplas ou camuflagem de referenciador

Múltiplas atualizações meta podem ser usadas para ocultar o referenciador de sites afiliados. Evite encadear vários redirecionamentos de qualquer tipo, pois isso pode ter impactos negativos no SEO e pode até ser contra os termos de serviço (TOS) de seus parceiros afiliados

Atualização meta em JavaScript ou na tag <noscript>

OK, agora estamos entrando no reino do “chapéu preto”. É improvável que um webmaster combine uma atualização meta com JavaScript, a menos que eles não sejam bons.

Isso é fácil para um mecanismo de pesquisa detectar. Não faça isso.

Os mecanismos de pesquisa podem não seguir vários redirecionamentos encadeados (de acordo com as diretrizes da especificação HTML, o número recomendado foi definido em 5 redirecionamentos). O Google pode seguir cerca de 5 redirecionamentos encadeados. Os navegadores da Web podem seguir mais.

Múltiplos redirecionamentos consecutivos (especialmente combinando diferentes tipos de redirecionamentos 301, 302, meta-refresh, JavaScript etc) afetam os tempos de carregamento da página, podem afetar o fluxo de PageRank (até mesmo redirecionamentos 301 podem ter algum declínio de PageRank) e podem ser considerados cloaking- Spam.

Não consegui encontrar nenhum dado sobre quantos redirecionamentos um navegador da Web seguirá, então criei um script de redirecionamento encadeado rápido para testar alguns dos navegadores instalados em minha máquina e fornecer algumas estatísticas sobre o número aproximado de redirecionamentos seguidos (por tipo de redirecionamento) . Limitei o script a um máximo de 5.000 redirecionamentos encadeados.

Navegador da Web	Versão	Nº aproximado de 301 Redirecionamentos	Nº aproximado de 302 Redirecionamentos	Nº aproximado de redirecionamentos de atualização de meta	Número aproximado de redirecionamentos JavaScript
Google Chrome	8.0.552.224	21	21	21	Maior que 5000 (limite desconhecido)
Internet Explorer	8.0.6001.18702IC	11	11	Maior que 5000 (limite desconhecido)	Maior que 5000 (limite desconhecido)
Mozilla Firefox	3.5.16	20	20	20	Maior que 3000 (limite desconhecido, pois o navegador parou após 3000 redirecionamentos JS)
Safári	3.1.2 (525.21)	16	16	Maior que 5000 (limite desconhecido)	Maior que 5000 (limite desconhecido)

À medida que o script foi escrito, pensamos em executar um teste adicional e enviar o URL de redirecionamento ao Google. Também vinculamos ao script do Twitter. Os resultados estão na tabela abaixo.

Motor de busca	IP do host do agente do usuário	Número aproximado de 301 redirecionamentos seguidos
Microsoft *Assumido com base no intervalo de IP Mozilla/4.0 (compatível; MSIE 7.0; Windows NT 6.0)	65.52.17.79	25
Google Mozilla/5.0 (compatível; Googlebot/2.1; +http://www.google.com/bot.html)	66.249.68.249	5
Yahoo Mozilla/5.0 (compatível; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)	67.195.111.225	4
Twitter Twitterbot/0.1	128.242.241.94	3
LinkedIn LinkedInBot/1.0 (compatível; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)	216.52.242.14	1
PostRank PostRank/2.0 (postrank.com)	204.236.206.79	0

Embora o Googlebot tenha rastreado apenas 5 dos redirecionamentos permanentes neste caso, pode ser justo supor que o Google pode implementar uma verificação baseada em rastreamento para testar redirecionamentos além do limite de 5 bots de redirecionamento de forma semelhante à Microsoft acima, que segue aproximadamente 25 redirecionamentos encadeados. Observação: assumimos que este é um IP de propriedade da Microsoft com base nas informações do IP Whois das Ferramentas de Domínio.

Os frames permitem que um webmaster incorpore outro documento em uma página HTML. Tradicionalmente, os mecanismos de pesquisa não são bons em atribuir o conteúdo emoldurado à página pai, permitindo que um webmaster impeça que os mecanismos de pesquisa vejam parte ou todo o conteúdo de uma página.

Frames e iFrames são elementos HTML legítimos (mesmo que muitas vezes não sejam uma prática recomendada do ponto de vista de SEO), no entanto, eles também podem ser combinados com outras técnicas para enganar os usuários.

Quadros com um redirecionamento JavaScript

A incorporação de um frame com um redirecionamento JavaScript pode deixar os spiders do mecanismo de pesquisa na primeira página e redirecionar sorrateiramente os usuários com JavaScript ativado para a segunda página “oculta”.

Não consigo pensar em um “chapéu branco” legítimo pelo qual você escolheria usar isso. Pode resultar em penalidade ou banimento. Verifique o código-fonte de seus documentos emoldurados, remova este código ou implemente um redirecionamento amigável de SEO apropriado.

A tag <noscript> foi projetada para fornecer um equivalente não JavaScript para conteúdo JavaScript, de modo que navegadores e mecanismos de pesquisa somente de texto possam interpretar formas mais avançadas de conteúdo. A tag <noscript> pode ser tratada com alguma suspeita, pois foi abusada por spammers no passado.

Crie a funcionalidade JavaScript/AJAX com aprimoramento progressivo em mente para que o conteúdo seja adequado para todos os usuários e não exija o uso da tag <noscript>. Se o seu site usa a tag <noscript> e você não pode atualizar o código, verifique se qualquer texto, links e imagens dentro da tag <noscript> descrevem com precisão o conteúdo JavaScript, AJAX ou Flash que ele representa de forma precisa, clara e concisa maneiras.

Se a página ou site ofensivo tiver problemas de indexação, considere revisar o código <noscript> como parte de uma auditoria completa de SEO do site.

As redes de distribuição de conteúdo (CDNs) permitem que as empresas distribuam seu conteúdo estático em várias localizações geográficas para melhorar o desempenho dos usuários finais. Dependendo da configuração da CDN, há várias maneiras de rotear a solicitação do cliente para a melhor fonte disponível para servir o conteúdo. CDNs são uma área complexa, geralmente implementada por empresas globais que precisam servir o conteúdo dos usuários no menor tempo possível.

Se você estiver usando uma CDN, certifique-se de que ela permita que um mecanismo de pesquisa acesse o mesmo conteúdo e informações que os usuários veem e certifique-se de que não haja nada que um mecanismo de pesquisa possa interpretar erroneamente como enganoso.

Os hackers usaram exploits em CMSs comuns para direcionar o tráfego para sites de terceiros menos éticos. Um exemplo é o WordPress Pharma Hack, que usava camuflagem para apresentar conteúdo relacionado a produtos farmacêuticos aos mecanismos de pesquisa, mas ocultava esse conteúdo do webmaster.

Certifique-se de que seu CMS, servidor web e software de sistema operacional estejam executando as versões mais recentes e que estejam protegidos. Algumas das explorações mais comuns são senhas ruins, software ou scripts inseguros, funcionários descontentes e truques de engenharia social.

Os cabeçalhos HTTP enviam informações adicionais sobre a página solicitada ao spider do mecanismo de pesquisa ou ao navegador da web. Por exemplo, o status da página, informações em cache/de expiração, informações de redirecionamento etc.

Enviar cabeçalhos diferentes para um mecanismo de pesquisa para enganar pode resultar em penalidade. Por exemplo, substituir um bom conteúdo em uma página de alta classificação por um formulário de inscrição e alterar os cabeçalhos de expiração e/ou controle de cache na tentativa de enganar os mecanismos de pesquisa para manter a versão de alta classificação com o bom conteúdo não funcionará.

O Googlebot pode fazer o download do conteúdo periodicamente, independentemente dos cabeçalhos de expiração e controle de cache, para verificar se o conteúdo realmente não foi alterado.

Você pode verificar o status dos cabeçalhos de resposta do servidor usando uma de nossas ferramentas de SEO gratuitas.

Para citar o Google:

“As páginas de entrada geralmente são grandes conjuntos de páginas de baixa qualidade, onde cada página é otimizada para uma palavra-chave ou frase específica. Em muitos casos, as páginas de entrada são escritas para classificar uma frase específica e, em seguida, direcionar os usuários para um único destino”
Fonte: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=66355

Matt Cutts tem um discurso sobre as páginas do Doorway aqui.

Ferramentas de teste multivariadas, como o Otimizador de website do Google, permitem que você melhore a eficácia de seu website testando alterações no conteúdo e no design de seu website para melhorar as taxas de conversão (ou outras métricas importantes medidas).

No entanto, o teste multivariado é um uso ético da camuflagem, afirma o Google:

“se encontrarmos um site executando uma única combinação não original a 100% por vários meses ou se a página original de um site estiver carregada com palavras-chave que não se relacionam às combinações exibidas aos visitantes, podemos remover esse site do nosso índice”.

Não necessariamente o spam de camuflagem em si, mas uma técnica de isca e troca, que redireciona 301 domínios não relacionados (geralmente domínios que estão à venda ou expiraram, mas ainda têm PageRank ou links externos significativos) para um domínio malicioso ou não relacionado sobre um tópico completamente diferente .https://www.youtube.com/watch?v=70LR8H8pn1Mhttps://searchengineland.com/do-links-from-expired-domains-count-with-google-17811

Isso é enganoso para os usuários, pois eles podem estar esperando um site diferente e podem passar um texto âncora não relacionado ao seu domínio.

Além disso, não espere crédito por registrar domínios expirados com links externos na esperança de um PR ou aumento de links.

Historicamente, os mecanismos de busca têm se esforçado para interpretar e indexar o conteúdo Flash de forma eficaz, mas estão melhorando a cada momento.

Os webmasters tiveram que considerar usuários e mecanismos de pesquisa que não tinham navegadores habilitados para Flash e construíram um site HTML padrão “nos bastidores” para mecanismos de pesquisa, usaram uma tag <noscript>, JavaScript ou método semelhante para indexar seu conteúdo textual. Infelizmente, isso pode ser identificado inadvertidamente como camuflagem pelos mecanismos de pesquisa se o conteúdo indexado do conteúdo Flash não corresponder ao conteúdo textual.

Construir um site inteiro em Flash ainda não é uma boa ideia do ponto de vista de SEO, no entanto, se você tiver algum conteúdo em Flash, considere a implementação de SWFObject ou uma técnica semelhante para garantir que o Flash se degrade para usuários e mecanismos de pesquisa.

Divs popover e anúncios por si só não estão camuflando. Quando os anúncios intersticiais ou divs popover não puderem ser fechados (por exemplo, a menos que o usuário se registre), você poderá apresentar conteúdo aos mecanismos de pesquisa e um formulário de inscrição para seus usuários.

Certifique-se de que os usuários possam fechar ou pular anúncios intersticiais, pop-ups, popovers, divs sobrepostos, caixas de luz etc. e visualizar o conteúdo disponível

AJAX (Asynchronous JavaScript And XML) é uma forma de JavaScript que permite que uma página da Web recupere conteúdo dinâmico de um servidor sem recarregar uma página. Tornou-se muito popular nos últimos dois anos e é frequentemente (mais) usado em muitos aplicativos da Web 2.0.

O AJAX pode ser usado de maneira enganosa para apresentar conteúdo diferente a um usuário e a um mecanismo de pesquisa – Não faça isso.

Além disso, o outro lado da moeda, em uma abordagem de “camuflagem negativa”, o usuário pode ver o conteúdo, mas um mecanismo de pesquisa não, pois não pode executar as chamadas JavaScript que recuperam o conteúdo dinâmico do servidor. Algo para verificar.

Muitas das técnicas descritas neste artigo podem ser combinadas, cortadas ou manipuladas em uma tentativa inútil de enganar os motores de busca.

Um exemplo é combinar JavaScript e Cookies para ocultar o conteúdo. Se a função JavaScript não puder gravar ou ler um cookie (como um spider de mecanismo de pesquisa), exiba um conteúdo diferente de um usuário padrão com cookies ativados. Existem também alguns exemplos de scripts JQuery que permitirão que uma pessoa sem escrúpulos faça isso.

A camuflagem de links refere-se ao envio de um usuário para uma URL diferente daquela clicada usando um redirecionamento de algum formulário. Redirecionamentos podem ser usados para o bem e para o mal, como vimos acima. A camuflagem de links é frequentemente usada para fins analíticos ou de manutenção. Há uma série de razões práticas para fazer isso, por exemplo:

Para manter um link para um afiliado em um PDF ou aplicativo distribuído. Usando um URL curto semelhante e redirecionamento acima para garantir que, se o afiliado atualizar sua estrutura de URL, você possa atualizar o redirecionamento no URL curto e, assim, garantir que os links no eBook e no conteúdo distribuído ainda funcionem
URLs curtos usados em material de marketing e publicidade que são mais fáceis de lembrar do que a versão padrão do URL

Claro, isso pode ser usado para enganar e enganar, como disfarçar um link de afiliado (por exemplo, substituir o link por http://mysite.com/vanity-url e redirecioná-lo para http://affiliate.com/offer.html ?=meu-código-de-afiliado).

Modificar o texto âncora ou atributos de link com JavaScript ou um mecanismo semelhante para enganar ou enganar os usuários. Esta é uma forma de camuflagem que modifica apenas um pequeno componente da página para enganar o usuário.

Sequestro do evento onClick para enviar um usuário a um URL diferente para os mecanismos de pesquisa
Adicionando um atributo rel=”nofollow” aos links exibidos nos mecanismos de pesquisa e removendo-o do código exibido aos usuários
Modificar o texto âncora dos links para incluir palavras-chave no texto âncora enviado aos mecanismos de pesquisa e exibir algo diferente para os usuários

Evite o sequestro de links para enganar os usuários, pois isso pode resultar em penalidades do mecanismo de pesquisa ou banir seu site.

Existem formas éticas dessa técnica para garantir que usuários e mecanismos de pesquisa possam ver seu conteúdo AJAX usando HiJAX conforme recomendado no blog do Google.

Ocultar texto é contra os TOS do Google e as Diretrizes para webmasters. É uma forma de camuflagem, pois um mecanismo de pesquisa pode ver o conteúdo textual, mas o usuário não pode. Evite os seguintes tipos de texto oculto:

Texto indiscernível no fundo (por exemplo, cinza escuro em preto)
Configurando o tamanho da fonte para 0
Estilizar texto âncora rico em palavras-chave como texto de corpo padrão para que os usuários não percebam que é um link
Exibição de folhas de estilo em cascata (CSS): nenhuma
Texto por trás das imagens. Sempre um assunto complicado e muitas vezes aberto ao debate entre SEOs. Se o texto por trás da imagem for uma representação precisa e justa de uma imagem (por exemplo, um cabeçalho com uma fonte personalizada), você “deveria ficar bem” para citar Matt Cutts. A solução definitiva dependerá de suas circunstâncias particulares, no entanto, verifique estes recursos para obter algumas orientações: W3C: Usando CSS para substituir texto por imagens , Substituição de imagem Farner (FIR) , Substituição de Flash Inman Scalable (sIFR) (Observe que o texto substituído por sIFR pode não aparecem no Google Preview a partir de dezembro de 2010.)

Se o tráfego do mecanismo de pesquisa for importante para você, considere o seguinte em relação à camuflagem:

Certifique-se de estar familiarizado com as formas óbvias e não tão óbvias de cloaking acima e esteja ciente de como elas são usadas em seu site para evitar possíveis penalidades.
Se você estiver implementando alguma forma de camuflagem, certifique-se de que isso seja revisado adequadamente de uma perspectiva de SEO para evitar possíveis penalidades.