Spamdexing - Spamdexing

Spamdexing (também conhecido como o spam motor de busca , envenenamento motor de pesquisa , chapéu preto Search Engine Optimization , o spam procurar ou de spam web ) é a manipulação deliberada de motor de busca índices . Envolve uma série de métodos, como link building e repetição de frases não relacionadas, para manipular a relevância ou proeminência dos recursos indexados, de maneira inconsistente com o propósito do sistema de indexação.

Spamdexing pode ser considerado uma parte da otimização de mecanismos de pesquisa , embora existam muitos métodos de otimização de mecanismos de pesquisa que melhoram a qualidade e a aparência do conteúdo de sites da web e veiculam conteúdo útil para muitos usuários.

Os mecanismos de pesquisa usam uma variedade de algoritmos para determinar a classificação de relevância. Algumas delas incluem determinar se o termo de pesquisa aparece no corpo do texto ou no URL de uma página da web . Muitos mecanismos de pesquisa verificam instâncias de spamdexing e removerão páginas suspeitas de seus índices. Além disso, os operadores de mecanismo de pesquisa podem bloquear rapidamente a listagem de resultados de sites inteiros que usam spamdexing, talvez em resposta a reclamações de usuários de correspondências falsas. O aumento do spamdexing em meados da década de 1990 tornou os principais mecanismos de pesquisa da época menos úteis. O uso de métodos antiéticos para fazer com que os sites tenham uma classificação mais elevada nos resultados do mecanismo de pesquisa do que seria normalmente referido na indústria de SEO (otimização de mecanismos de pesquisa) como "black-hat SEO". Esses métodos são mais focados em quebrar as regras e diretrizes de promoção do mecanismo de pesquisa. Além disso, os perpetradores correm o risco de seus sites serem severamente penalizados pelos algoritmos de classificação dos resultados de pesquisa do Google Panda e do Google Penguin .

As técnicas comuns de spamdexing podem ser classificadas em duas classes amplas: spam de conteúdo (ou spam de termo ) e spam de link .

História

A referência mais antiga conhecida ao termo spamdexing é feita por Eric Convey em seu artigo "Porn sneaks way back on Web", The Boston Herald , 22 de maio de 1996, onde ele disse:

O problema surge quando os operadores de sites carregam suas páginas da Web com centenas de termos estranhos, de modo que os mecanismos de busca os listam entre endereços legítimos. O processo é chamado de "spamdexing", uma combinação de spam - o termo da Internet para enviar informações não solicitadas aos usuários - e " indexação ".

Spam de conteúdo

Essas técnicas envolvem alterar a visão lógica que um mecanismo de busca tem sobre o conteúdo da página. Todos eles visam variantes do modelo de espaço vetorial para recuperação de informações em coleções de texto.

Enchimento de palavras-chave

O recheio de palavras-chave envolve a colocação calculada de palavras-chave em uma página para aumentar a contagem, a variedade e a densidade de palavras-chave da página. Isso é útil para fazer uma página parecer relevante para um rastreador da web de uma forma que a torne mais provável de ser encontrada. Exemplo: um promotor de um esquema Ponzi deseja atrair internautas para um site onde anuncia seu golpe. Ele coloca um texto oculto apropriado para uma página de fãs de um grupo de música popular em sua página, esperando que a página seja listada como um site de fãs e receba muitas visitas de amantes da música. Versões mais antigas de programas de indexação simplesmente contavam a frequência com que uma palavra-chave aparecia e usavam isso para determinar os níveis de relevância. A maioria dos mecanismos de pesquisa modernos tem a capacidade de analisar uma página em busca de palavras-chave e determinar se a frequência é consistente com a de outros sites criados especificamente para atrair o tráfego do mecanismo de pesquisa. Além disso, grandes páginas da web são truncadas, de forma que listas de dicionários massivas não podem ser indexadas em uma única página da web. (No entanto, os remetentes de spam podem contornar essa limitação de tamanho de página da web simplesmente configurando várias páginas da web, independentemente ou vinculadas umas às outras.)

Texto oculto ou invisível

O texto oculto não relacionado é disfarçado tornando-o da mesma cor do fundo, usando um tamanho de fonte minúsculo ou ocultando-o dentro do código HTML , como seções "sem moldura", atributos alt , DIVs de tamanho zero e seções "sem script". Pessoas que rastreiam manualmente sites com bandeira vermelha para uma empresa de mecanismo de pesquisa podem bloquear temporária ou permanentemente um site inteiro por ter texto invisível em algumas de suas páginas. No entanto, o texto oculto nem sempre é spamdexing: ele também pode ser usado para melhorar a acessibilidade .

Recheio de metatag

Isso envolve a repetição de palavras-chave nas metatags e o uso de meta palavras-chave não relacionadas ao conteúdo do site. Essa tática tornou-se ineficaz desde 2005.

Páginas de entrada

"Gateway" ou páginas de entrada são páginas da web de baixa qualidade criadas com muito pouco conteúdo, que, em vez disso, são preenchidas com palavras-chave e frases muito semelhantes. Eles são projetados para obter uma classificação elevada nos resultados da pesquisa, mas não têm nenhum propósito para os visitantes que procuram informações. Uma página de entrada geralmente terá "clique aqui para entrar" na página; o autoforwarding também pode ser usado para esse fim. Em 2006, o Google expulsou o fabricante de veículos BMW por usar "páginas de entrada" para o site alemão da empresa, BMW.de.

Sites de raspadores

Os sites de raspagem são criados usando vários programas projetados para "raspar" páginas de resultados de mecanismos de pesquisa ou outras fontes de conteúdo e criar "conteúdo" para um site. A apresentação específica do conteúdo nesses sites é única, mas é apenas um amálgama de conteúdo obtido de outras fontes, muitas vezes sem permissão. Esses sites geralmente estão cheios de publicidade (como anúncios pay-per-click ) ou redirecionam o usuário para outros sites. É até viável para sites de raspagem ultrapassar sites originais em suas próprias informações e nomes de organização.

Spinning de artigo

A rotação de artigos envolve a reescrita de artigos existentes, em vez de simplesmente copiar o conteúdo de outros sites, para evitar penalidades impostas pelos motores de busca por conteúdo duplicado . Esse processo é realizado por escritores contratados ou automatizado usando um banco de dados de dicionário de sinônimos ou uma rede neural .

Maquina de tradução

Da mesma forma que o artigo spinning , alguns sites usam a tradução automática para renderizar seu conteúdo em vários idiomas, sem edição humana, resultando em textos ininteligíveis que, no entanto, continuam a ser indexados pelos motores de busca, atraindo tráfego.

Spam de links

Spam de link 'é definido como links entre páginas que estão presentes por outros motivos que não o mérito. O spam de link tira proveito de algoritmos de classificação baseados em link, o que dá aos sites classificações mais altas quanto mais links de outros sites de alta classificação a ele. Essas técnicas também visam influenciar outras técnicas de classificação baseadas em links, como o algoritmo HITS .

Fazendas de links

As fazendas de links são redes fortemente interligadas de sites que se vinculam entre si com o único propósito de explorar os algoritmos de classificação do mecanismo de pesquisa. Essas também são conhecidas jocosamente como sociedades de admiração mútua . O uso de farms de links foi bastante reduzido com o lançamento do primeiro Panda Update do Google em fevereiro de 2011, que introduziu melhorias significativas em seu algoritmo de detecção de spam.

Redes privadas de blogs

As redes de blogs (PBNs) são um grupo de sites autorizados usados ​​como fonte de links contextuais que apontam para o site principal do proprietário para obter uma classificação mais alta no mecanismo de pesquisa. Os proprietários de sites PBN usam domínios expirados ou domínios de leilão que têm backlinks de sites de alta autoridade. O Google direcionou e penalizou usuários PBN em várias ocasiões com várias campanhas massivas de desindexação desde 2014.

Links ocultos

Colocar hiperlinks onde os visitantes não os verão é usado para aumentar a popularidade do link . O texto do link destacado pode ajudar a classificar uma página da web em uma posição superior para corresponder a essa frase.

Ataque Sybil

Um ataque de Sybil é a forja de múltiplas identidades com intenções maliciosas, em homenagem ao famoso paciente com transtorno de personalidade múltipla " Sybil ". Um spammer pode criar vários sites em diferentes nomes de domínio com links entre si, como blogs falsos (conhecidos como blogs de spam ).

Blogs de spam

Os blogs de spam são blogs criados exclusivamente para promoção comercial e passagem de autoridade de link para sites-alvo. Freqüentemente, esses "splogs" são projetados de uma maneira enganosa que dará o efeito de um site legítimo, mas após uma inspeção cuidadosa, muitas vezes serão escritos usando um software giratório ou muito mal escritos com conteúdo dificilmente legível. Eles são semelhantes em natureza para vincular fazendas.

Spam de blog de convidado

Spam de blog de convidado é o processo de colocar blogs de convidado em sites com o único propósito de obter um link para outro site ou sites. Infelizmente, eles são freqüentemente confundidos com formas legítimas de guest blogging com outros motivos além da colocação de links. Essa técnica ficou famosa por Matt Cutts , que declarou publicamente "guerra" contra essa forma de spam de link.

Compra de domínios expirados

Alguns spammers de link utilizam software rastreador de domínio expirado ou monitoram registros DNS para domínios que irão expirar em breve, então os compram quando expiram e substituem as páginas por links para suas páginas. No entanto, é possível, mas não confirmado, que o Google redefina os dados do link em domínios expirados. Para manter todos os dados anteriores de classificação do Google para o domínio, é aconselhável que um comprador adquira o domínio antes que ele seja "descartado".

Algumas dessas técnicas podem ser aplicadas para criar uma bomba do Google - isto é, cooperar com outros usuários para aumentar a classificação de uma página específica para uma consulta específica.

Recheio de biscoito

O recheio de cookies envolve a colocação de um cookie de rastreamento afiliado no computador de um visitante do site sem o seu conhecimento, o que irá gerar receita para a pessoa que está fazendo o recheio do cookie. Isso não apenas gera vendas fraudulentas de afiliados, mas também tem o potencial de sobrescrever os cookies de outros afiliados, essencialmente roubando suas comissões legitimamente ganhas.

Usando páginas graváveis ​​por todo o mundo

Os sites que podem ser editados por usuários podem ser usados ​​por spamdexers para inserir links para sites de spam se as medidas anti-spam apropriadas não forem tomadas.

Spambots automatizados podem inutilizar rapidamente a parte editável pelo usuário de um site. Os programadores desenvolveram uma variedade de técnicas automatizadas de prevenção de spam para bloquear ou pelo menos desacelerar os spambots.

Spam em blogs

Spam em blogs é a colocação ou solicitação de links aleatoriamente em outros sites, colocando uma palavra-chave desejada no texto com hiperlink do link de entrada. Livros de visitantes, fóruns, blogs e qualquer site que aceite comentários de visitantes são alvos específicos e costumam ser vítimas de spamming drive-by, em que o software automatizado cria postagens sem sentido com links que geralmente são irrelevantes e indesejados.

Spam de comentários

Spam de comentários é uma forma de spam de links que surge em páginas da web que permitem a edição dinâmica do usuário, como wikis , blogs e livros de visitas . Pode ser problemático porque os agentes podem ser escritos para selecionar automaticamente uma página da web editada pelo usuário, como um artigo da Wikipedia, e adicionar links de spam.

Spam Wiki

Spam de wiki é quando um spammer usa a capacidade de edição aberta dos sistemas wiki para colocar links do site wiki para o site de spam.

Log de referenciador spamming

O spam de referência ocorre quando um perpetrador ou facilitador de spam acessa uma página da web (o referee ), seguindo um link de outra página da web (o referrer ), de forma que o referenciador recebe o endereço do referenciador pelo navegador de Internet da pessoa. Alguns sites têm um registro de referência que mostra quais páginas estão vinculadas a esse site. Ao fazer com que um robô acesse aleatoriamente muitos sites o suficiente, com uma mensagem ou endereço específico fornecido como referenciador, essa mensagem ou endereço de Internet aparecerá no log de referenciador dos sites que possuem logs de referenciador. Como alguns mecanismos de pesquisa da Web baseiam a importância dos sites no número de sites diferentes com links para eles, o spam de registro de referência pode aumentar as classificações do mecanismo de pesquisa dos sites do spammer. Além disso, os administradores do site que notam as entradas de log do referenciador em seus logs podem seguir o link de volta para a página do referenciador do spammer.

Contramedidas

Por causa da grande quantidade de spam postado em páginas da web editáveis ​​pelo usuário, o Google propôs uma tag "nofollow" que poderia ser incorporada a links. Um mecanismo de busca baseado em link, como o sistema PageRank do Google , não usará o link para aumentar a pontuação do site vinculado se o link contiver uma tag nofollow. Isso garante que links de spam para sites editáveis ​​pelo usuário não aumentem a classificação dos sites nos mecanismos de pesquisa. O Nofollow é usado por vários sites importantes, incluindo Wordpress , Blogger e Wikipedia .

Outros tipos

Espelhar sites

Um site espelho é a hospedagem de vários sites com conteúdo conceitualmente semelhante, mas usando URLs diferentes . Alguns mecanismos de pesquisa dão uma classificação mais alta aos resultados em que a palavra-chave pesquisada aparece no URL.

Redirecionamento de URL

O redirecionamento de URL é levar o usuário para outra página sem sua intervenção, por exemplo , usando tags de atualização META , Flash , JavaScript , Java ou redirecionamentos do lado do servidor . No entanto, o redirecionamento 301 , ou redirecionamento permanente, não é considerado um comportamento malicioso.

Camuflagem

Cloaking refere-se a qualquer um dos vários meios de servir uma página ao spider do mecanismo de pesquisa que seja diferente daquela vista por usuários humanos. Pode ser uma tentativa de enganar os mecanismos de pesquisa em relação ao conteúdo de um determinado site. Cloaking, no entanto, também pode ser usado para aumentar eticamente a acessibilidade de um site para usuários com deficiências ou fornecer a usuários humanos conteúdo que os mecanismos de pesquisa não são capazes de processar ou analisar. Ele também é usado para entregar conteúdo com base na localização do usuário; O próprio Google usa entrega IP , uma forma de camuflagem, para entregar resultados. Outra forma de camuflagem é a troca de código , ou seja , otimizar uma página para uma classificação superior e, em seguida, trocar outra página em seu lugar quando uma classificação superior for alcançada. O Google se refere a esse tipo de redirecionamento como redirecionamentos dissimulados .

Contramedidas

Omissão de página pelo mecanismo de pesquisa

As páginas com spamdex às vezes são eliminadas dos resultados da pesquisa pelo mecanismo de pesquisa.

Omissão de página pelo usuário

Os usuários podem empregar operadores de pesquisa para filtragem. Para o Google, uma palavra-chave precedida por "-" (menos) irá omitir sites que contenham a palavra-chave em suas páginas ou no URL das páginas do resultado da pesquisa. Por exemplo, a pesquisa "- <site indesejado>" eliminará sites que contenham a palavra "<site indesejado>" em suas páginas e as páginas cujo URL contenha "<site indesejado>".

Os usuários também podem usar a extensão do Google Chrome "Personal Blocklist (by Google)", lançada pelo Google em 2011 como parte das contra-medidas contra o cultivo de conteúdo . Por meio da extensão, os usuários podem bloquear a exibição de uma página específica ou conjunto de páginas em seus resultados de pesquisa. Em 2021, a extensão original parece ter sido removida, embora extensões de funcionamento semelhante possam ser usadas.

Veja também

Referências

links externos