Pesquisa Yandex - Yandex Search

Yandex Search
Yandex 2021.svg
Logotipo da versão em inglês
Tipo de site
Motor de busca na web
Disponível em Multilíngue
Proprietário Yandex
Criado por Arkady Volozh
Arkady Borkovsky
Ilya Segalovich
URL Yandex.com
Comercial sim
Cadastro Opcional
Status atual Ativo

Yandex Search (Яндекс) é um motor de busca . É propriedade da Yandex , com sede na Rússia . Em janeiro de 2015, o Yandex Search gerou 51,2% de todo o tráfego de pesquisa na Rússia de acordo com o LiveInternet  [ ru ; uk ] .

Cerca de

A tecnologia de pesquisa fornece resultados de pesquisa local em mais de 1.400 cidades. O Yandex Search também oferece uma pesquisa “paralela” que apresenta resultados do índice principal da web e de recursos de informação especializados, incluindo notícias, compras, blogs, imagens e vídeos em uma única página.

O Yandex Search responde a consultas em tempo real, reconhecendo quando uma consulta requer as informações mais atuais, como notícias de última hora ou a postagem mais recente no Twitter sobre um determinado tópico. Ele também contém alguns recursos adicionais: Resposta do assistente, que fornece informações adicionais (por exemplo, resultados de esportes), verificador ortográfico , preenchimento automático que sugere consultas conforme você digita, antivírus que detecta malware em páginas da web e assim por diante.

Em maio de 2010, a Yandex lançou o Yandex.com, uma plataforma para testes beta e aprimoramento da pesquisa em outros idiomas.

O produto de pesquisa pode ser acessado de computadores pessoais, telefones celulares, tablets e outros dispositivos digitais. Além da pesquisa na web, Yandex oferece uma ampla gama de serviços de pesquisa especializados.

Em 2009, a Yandex lançou o MatrixNet, um novo método de aprendizado de máquina que melhora significativamente a relevância dos resultados de pesquisa. Ele permite que o mecanismo de pesquisa do Yandex leve em consideração um grande número de fatores ao tomar a decisão sobre a relevância dos resultados da pesquisa.

Outra tecnologia, Spectrum, foi lançada em 2010. Ela permite inferir consultas implícitas e retornar resultados de pesquisa correspondentes. O sistema analisa automaticamente as pesquisas dos usuários e identifica objetos como nomes pessoais, filmes ou carros. Proporções dos resultados da pesquisa que respondem a diferentes intenções do usuário são baseadas na demanda do usuário por esses resultados.

Com o primeiro lançamento em 21 de julho de 2017, o navegador Brave apresenta o Yandex como um de seus mecanismos de pesquisa padrão.

Funcionalidade

Informação básica

O mecanismo de pesquisa consiste em três componentes principais:

  1. Um agente é um robô de busca. Ele ignora a rede, baixa e analisa documentos. Se um novo link for encontrado durante a análise do site, ele cairá na lista de endereços da web do robô. Os robôs de busca são dos seguintes tipos: spiders - sites de download como os navegadores do usuário; Crawler - descubra links novos e ainda desconhecidos com base na análise de documentos já conhecidos; indexadores - analisam as páginas da web detectadas e adicionam dados ao índice . Muitos documentos vazios são divididos em partes desconexas e são eliminados da marcação.
  2. Índice é um banco de dados compilado por robôs de indexação de mecanismos de pesquisa . Os documentos são pesquisados ​​no índice.
  3. Motor de pesquisa. A solicitação de pesquisa do usuário é enviada ao servidor menos carregado após analisar a carga do sistema de pesquisa. Para fornecer essa oportunidade, os servidores Yandex são agrupados. Em seguida, a solicitação do usuário é processada por um programa chamado "Metapoisk". O Metapoisk analisa a solicitação em tempo real: determina a localização geográfica do usuário, realiza análises lingüísticas, etc. O programa também determina se a solicitação pertence à categoria dos mais populares ou definidos recentemente. A emissão de tais solicitações há algum tempo é armazenado na memória (cache) da metaprocura e, em caso de correspondência, os resultados salvos anteriormente são exibidos. Se a solicitação for rara e não houver correspondências no cache, o sistema o redireciona para o programa de Pesquisa Básica. Ele analisa o índice do sistema, que também é dividido em diferentes servidores duplicados (isso acelera o procedimento). Em seguida, a informação recebida cai novamente em meta-pesquisa, os dados são classificados e mostrados ao usuário em uma forma final.

Indexando

Em geral, o Yandex indexa os seguintes tipos de arquivo: html , pdf , rtf , doc , xls , ppt , docx , odt , odp, ods, odg, xlsx , pptx .

O mecanismo de busca também é capaz de indexar texto dentro de objetos Shockwave Flash (se o texto não for colocado na própria imagem), se esses elementos forem transferidos como uma página separada, que possui o tipo MIME application/x-shockwave-flash, e arquivos com a extensão .swf

Yandex tem 2 robôs de varredura - o “principal” e o “rápido”. O primeiro é responsável por toda a Internet, o segundo indexa sites com troca e atualização frequentes de informações (sites de notícias e agências de notícias). Em 2010, o robô “rápido” recebeu uma nova tecnologia chamada “Orange”, desenvolvida em conjunto pelas divisões Califórnia e Moscou da Yandex.

Desde 2009, Yandex oferece suporte à tecnologia Sitemaps .

Logs do servidor

Nos logs do servidor, os robôs Yandex são representados da seguinte forma:

  • Mozilla/5.0 (compatible; YandexBot/3.0) é o principal robô de indexação.
  • Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector)- um robô que detecta espelhos do site. Se houver vários sites com o mesmo conteúdo, apenas um será mostrado nos resultados da pesquisa.
  • Mozilla/5.0 (compatible; YandexImages/3.0)- indexador Yandex. Imagens.
  • Mozilla/5.0 (compatible; YandexVideo/3.0)- indexador Yandex. Vídeo.
  • Mozilla/5.0 (compatible; YandexMedia/3.0) - indexador de dados multimídia.
  • Mozilla/5.0 (compatible; YandexBlogs/0.99; robot) é um robô de pesquisa que indexa comentários de postagens.
  • Mozilla/5.0 (compatible; YandexAddurl/2.0)- é um chapéu de robô de pesquisa que indexa páginas por meio do formulário "Adicionar URL ".
  • Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel)- verificando Yandex. Direto.
  • Mozilla/5.0 (compatible; YandexMetrika/2.0)- indexador Yandex. Métricas.
  • Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel)- verificando Yandex. Catálogo.
  • Mozilla/5.0 (compatible; YandexNews/3.0)- indexador Yandex. Notícia.
  • Mozilla/5.0 (compatible; YandexAntivirus/2.0) - Robô antivírus Yandex.

Linguagem de consulta

Os seguintes operadores são usados ​​para definir:

  • "" - citação exata
  • | - digite entre palavras, se precisar encontrar uma delas
  • * - insira entre palavras, se alguma palavra estiver faltando
  • site: - pesquisar em um site específico
  • date: - pesquisar documentos por data, por exemplo, data: 2007
  • + - digite antes da palavra, que deve estar no documento

Procurar Resultados

Yandex, automaticamente, junto com a “forma exata” original da consulta, busca suas diversas variações e formulações.

A pesquisa Yandex leva em consideração a morfologia do idioma russo, portanto, independentemente da forma da palavra na consulta de pesquisa, a pesquisa será realizada para todas as formas de palavras. Se a análise morfológica for indesejável, você pode colocar um ponto de exclamação (!) Antes da palavra - a pesquisa, neste caso, mostrará apenas a forma específica da palavra. Além disso, a consulta de pesquisa praticamente não leva em consideração as chamadas palavras irrelevantes , ou seja, preposições , pontuação , pronomes, etc., devido à sua ampla distribuição.

Como regra, as abreviações são reveladas automaticamente, a ortografia é correta. Também procura sinônimos (celular - celular). A extensão da solicitação do usuário original depende do contexto. A expansão não ocorre quando um conjunto de termos altamente especializados, nomes de nomes próprios de empresas (por exemplo, OJSC “Hipopótamo” - OJSC “Hippopotamus”), adicionando a palavra “preço”, em aspas exatas (são consultas destacadas com máquina de escrever citações).

Os resultados da pesquisa para cada usuário são formados individualmente com base em sua localização, idioma de uma consulta, interesses e preferências com base nos resultados de sessões de pesquisa anteriores e atuais. No entanto, o fator-chave na classificação dos resultados da pesquisa é sua relevância para a consulta de pesquisa. A relevância é determinada com base em uma fórmula de classificação, que é constantemente atualizada com base em algoritmos de aprendizado de máquina.

A pesquisa é realizada em russo , inglês , francês , alemão , ucraniano , bielorrusso , tártaro , cazaque .

Os resultados da pesquisa podem ser classificados por relevância e por data (botões abaixo dos resultados da pesquisa).

A página com os resultados da pesquisa consiste em 10 links com anotações curtas - “snippets”. Os trechos incluem um comentário de texto, link, endereço, seções populares do site, páginas em redes sociais, etc. Como alternativa aos trechos, Yandex introduziu em 2014 uma nova interface chamada “Ilhas”.

Yandex implementa o mecanismo de “buscas paralelas”, quando junto com uma busca na web, uma busca é realizada nos serviços Yandex, como Catálogo, Notícias, Mercado, Enciclopédias, Imagens, etc. sistema mostra não apenas informações textuais, mas também links para arquivos de vídeo, imagens, entradas de dicionário, etc.

Uma característica distintiva do mecanismo de busca também é a tecnologia de "busca intencional", que significa uma busca pela solução de um problema. Os elementos de pesquisa de intenção são - prompts de diálogo em caso de solicitação ambígua, tradução automática de texto, informações sobre as características do carro solicitado, etc. Por exemplo, quando você solicitar “ Boris Grebenshchikov - Golden City”, o sistema mostrará um formulário para online ouvindo música do serviço Yandex Music , a pedido de "st. Koroleva 12" será mostrado um fragmento do mapa com o objeto marcado nele.

Proteção contra spam e vírus

Em 2013, o Yandex foi considerado por alguns como o mecanismo de pesquisa mais seguro da época e o terceiro mais seguro entre todos os recursos da web. Em 2016, o Yandex caiu para o terceiro lugar, com o Google sendo o primeiro.

A verificação de páginas da web e o aviso aos usuários surgiram no Yandex em 2009: desde então, na página de resultados da pesquisa, ao lado de um site perigoso, há uma nota “Este site pode ameaçar a segurança do seu computador”. Duas tecnologias ao mesmo tempo são usadas para detectar ameaças. O primeiro foi adquirido do antivírus americano Sophos e baseado em uma abordagem de assinatura: ou seja, ao acessar uma página da web, o sistema antivírus também acessa um banco de dados de vírus e malwares já conhecidos . Essa abordagem é rápida, mas praticamente impotente contra novos vírus que ainda não entraram no banco de dados. Portanto, Yandex junto com a assinatura também usa seu próprio complexo antivírus, com base em uma análise do fator comportamental. O programa Yandex, ao acessar o site, verifica se este solicitou arquivos adicionais do navegador, redirecionou-os para um recurso estranho, etc. Assim, se for recebida informação de que o site começa a realizar determinadas ações (folhas de estilo em cascata, módulos JavaScript são iniciados e programas completos) sem a permissão do usuário, é colocado na “lista negra” e no banco de dados de assinaturas de vírus. As informações sobre a infecção do site aparecem nos resultados da pesquisa e, por meio do serviço Yandex.Webmaster, o proprietário do site recebe uma notificação. Após a primeira verificação, o Yandex faz a segunda e, se as informações de infecção forem confirmadas uma segunda vez, as verificações serão mais frequentes até que a ameaça seja eliminada. O número total de sites infectados no banco de dados Yandex não excede 1%.

Todos os dias em 2013, Yandex verifica 23 milhões de páginas da web (enquanto detecta 4.300 sites perigosos) e mostra aos usuários 8 milhões de avisos. Aproximadamente um bilhão de sites são verificados mensalmente.

Ranking de pesquisa

Por muito tempo, o principal fator de classificação para Yandex foi o número de links de terceiros para um determinado site. Cada página da Internet recebeu um índice de citação único, semelhante ao índice para autores de artigos científicos: quanto mais links, melhor. Um mecanismo semelhante foi implementado no Yandex e no PageRank do Google . Para evitar trapaças , Yandex usa análise multivariada, na qual apenas 70 dos 800 fatores são afetados pelo número de links de terceiros. Hoje, o conteúdo do site e a presença ou ausência de palavras-chave nele, a facilidade de leitura do texto, o nome do domínio, sua história e a presença de conteúdo multimídia desempenham um papel muito maior.

Em 5 de dezembro de 2013, a Yandex anunciou uma recusa total de contabilizar o fator de link no futuro.

Dicas de pesquisa

Conforme o usuário digita a consulta na barra de pesquisa, o mecanismo de pesquisa oferece dicas na forma de uma lista suspensa. As dicas aparecem antes mesmo de os resultados da pesquisa aparecerem e permitem que você refine a consulta, corrija o layout ou erro de digitação ou vá diretamente para o site que está procurando. Para cada usuário são geradas dicas, inclusive sobre o histórico de suas consultas de pesquisa (serviço My Finds). Em 2012, surgiram as chamadas “Dicas de pesquisa inteligente”, que fornecem instantaneamente informações sobre as constantes principais (comprimento do equador, velocidade da luz e assim por diante), engarrafamentos e têm uma calculadora embutida. Além disso, um tradutor foi integrado às “Dicas” (a consulta “amor em francês” instantaneamente dá amor, carinho ), a programação e resultados de jogos de futebol, taxas de câmbio, previsões do tempo e muito mais. Você pode descobrir a hora exata perguntando "que horas são". Em 2011, Hints in the search for Yandex tornou-se totalmente local em 83 regiões da Rússia.

Além da pesquisa real, as dicas são integradas aos mecanismos de pesquisa do Yandex. Dicionários ”,“ Yandex. Mercado ”,“ Yandex. Maps "e outros serviços Yandex.

A função dica é uma consequência do desenvolvimento da tecnologia de busca por intenção e apareceu pela primeira vez no Yandex.Bar em agosto de 2007 e, em outubro de 2008, foi introduzida na página principal do mecanismo de busca. Disponível nas versões desktop e mobile do site, Yandex mostra a seus usuários mais de um bilhão de dicas de pesquisa por dia

História

As mudanças no mecanismo de busca por muito tempo não foram amplamente representadas e permaneceram sem nome. E apenas a partir do início de 2008, quando foi anunciado o lançamento do algoritmo 8 SP1 , Yandex anunciou que a partir de então os novos algoritmos de classificação terão nomes de cidades.

Década de 1990

O nome do sistema - Yandex, - foi inventado em conjunto por Arkady Volozh e Ilya Segalovich .

A palavra significa y et an other em dex er (ou como “ Eu sou ( " ya " na língua russa ) e índice )”. De acordo com a interpretação de Artemy Lebedev , o nome do motor de busca é consoante com Yandeks, onde yang significa o início masculino,

O motor de busca yandex.ru foi anunciado pela CompTek em 23 de setembro de 1997 na exposição Softool, embora alguns desenvolvimentos no campo da busca ( indexação da Bíblia , busca de documentos em CD-ROM , busca no site) tenham sido realizados pela empresa até mais cedo.

O primeiro índice continha informações de 5 mil servidores e ocupava 4,5 GB.

No mesmo 1997, a busca por Yandex começou a ser usada na versão russa do Internet Explorer 4.0. Tornou-se possível fazer consultas em linguagem natural.

Em 1998, a função “localizar documentos semelhantes” apareceu para cada resultado da pesquisa.

“Yandex. Search ”a partir de 1998 trabalhou em três máquinas rodando em FreeBSD sob Apache : uma máquina rastreou a Internet e indexou documentos, um motor de busca e uma máquina duplicou o motor de busca.

Em 1999, surgiu uma pesquisa nas categorias - pesquisa, uma combinação de um motor de pesquisa e um catálogo. A versão do motor de busca foi atualizada.

2000

Em 6 de junho de 2000, a segunda versão do mecanismo de busca foi apresentada. Um mecanismo de busca paralelo foi introduzido e, junto com a emissão, foram oferecidas informações de grandes fontes. Os usuários puderam limitar os resultados da pesquisa ao tópico selecionado. O título “Achados populares” apareceu - palavras que refinam a pesquisa.

Em dezembro de 2000, o volume de informações indexadas atingiu 355,22 GB.

2001

Em 2001, o Yandex ultrapassou outro mecanismo de busca russo, o Rambler , em termos de atendimento, e se tornou o principal mecanismo de busca do Runet . Yandex começou a entender pedidos em uma linguagem natural que eram feitos de forma interrogativa. O sistema aprendeu a reconhecer erros de digitação e sugerir corrigi-los. O design mudou.

2002

O número de consultas diárias ao mecanismo de pesquisa Yandex ultrapassou 2 milhões

2003

Indexando. rtf e. documentos PDF foram lançados. Os resultados da pesquisa passaram a ser emitidos inclusive em formato XML.

2004

O algoritmo de classificação mudou.

Yandex começou a indexar documentos em. swf ( Flash ). xls e. formatos de ppt .

No final do ano, foi publicado o estudo “ Alguns aspectos da pesquisa de texto completo e da classificação no Yandex ” (autores Ilya Segalovich , Mikhail Maslov), que revelou alguns detalhes de classificação em um mecanismo de pesquisa.

2005

No verão, foi lançado o chamado robô de busca “rápida”, trabalhando em paralelo com as próprias páginas destinadas à indexação. A base do "robô rápido" é atualizada a cada 1,5–2 horas.

O algoritmo de classificação foi aprimorado para aumentar a precisão da pesquisa.

Os recursos de pesquisa foram expandidos com a ajuda do Yandex. Dicionários ”e“ Yandex. Lingvo ". O mecanismo de pesquisa aprendeu a entender consultas como“ O que é [algo] em espanhol ”e a traduzi-las automaticamente.

Tornou-se possível limitar os resultados da pesquisa por região.

2006

Desde maio de 2006, os ícones do site são exibidos nos resultados da pesquisa.

No início de dezembro, ao lado de cada link nos resultados da pesquisa aparecia o item “Cópia salva”, clicando nele, o usuário acessa uma cópia completa da página em um banco de dados especial de arquivo (“cache Yandex”).

2007

O algoritmo de classificação mudou novamente.

2008

Em 2008, Yandex pela primeira vez começou a anunciar abertamente mudanças no algoritmo de busca e começou a nomear as mudanças com nomes de cidades russas. O nome da “cidade” de cada algoritmo subsequente começa com a letra com a qual terminava o nome do anterior.

Conquistas Yandex

Segundo o especialista em mídia Mikhail Gurevich, o Yandex é um “tesouro nacional”, um “produto estratégico”.

Este fato também foi reconhecido na Duma Estatal da Federação Russa , onde em maio de 2012 foi publicado um projeto de lei no qual Yandex e VKontakte são reconhecidos por empresas estratégicas como tradutores de informação nacionais. Em 2009, o presidente da Rússia, Dmitry Medvedev, iniciou a compra de uma “ ação de ouro ” da Yandex pelo Sberbank para evitar que uma importante empresa nacional caísse em mãos estrangeiras.

Em 2012, o Yandex ultrapassou o Channel One em audiência diária, o que o tornou líder no mercado de mídia nacional. Em 2013, a Yandex confirmou este estatuto, ultrapassando a First em termos de receita.

Em 2008, o Yandex foi o nono mecanismo de busca do mundo, em 2009 o sétimo e em 2013 o quarto.

Um dos componentes dessa situação é a presença na Rússia de um número suficiente de especialistas matemáticos com instinto científico.

Em 2002, a palavra Yandex se tornou tão comum que quando a empresa de Arkady Volozh exigiu a devolução do domínio yandex.com, comprado por terceiros, o réu afirmou que a palavra "Yandex" já era sinônimo de pesquisa e se tornou um termo familiar na Rússia.

Desde o final de 2012, a Yandex motor de busca superou o número de Google usuários no Google Chrome navegador na Rússia .

Versão russa do logotipo usado desde 2021

O logotipo Yandex aparece em várias configurações para identificar a empresa do mecanismo de pesquisa. Yandex confiou em vários logotipos desde a sua renomeação, com o primeiro logotipo criado por Arkady Volozh e lançado em 1997 nos produtos Яndex.Site e Яndex.CD, antes mesmo do anúncio do mecanismo de busca Yandex. O logotipo foi desenhado de forma análoga ao logotipo da CompTek.

Desde 1997 os logotipos são desenhados pela Art. Lebedev Studios , - que projetou quatro versões. O logotipo atual usa palavras em cirílico.

Referências

links externos