reCAPTCHA - reCAPTCHA

reCAPTCHA
RecaptchaLogo.svg
Autor (es) original (is)
Desenvolvedor (s) Google
lançamento inicial 27 de maio de 2007 ; 14 anos atras ( 27/05/2007 )
Modelo Versão clássica: CAPTCHA
Nova versão: Análise comportamental
Local na rede Internet www .google .com / recaptcha

O reCAPTCHA é um sistema CAPTCHA que permite aos hosts da web distinguir entre o acesso humano e automatizado a sites. A versão original pedia aos usuários que decifrassem textos difíceis de ler ou combinassem imagens. A versão 2 também pedia aos usuários que decifrassem texto ou correspondessem imagens se a análise de cookies e a renderização da tela sugerissem que o download da página estava sendo feito automaticamente. Desde a versão 3, o reCAPTCHA nunca interrompe os usuários e deve ser executado automaticamente quando os usuários carregam páginas ou clicam em botões. O reCAPTCHA é propriedade do Google .

A iteração original do serviço era uma plataforma de colaboração em massa projetada para a digitalização de livros, especialmente aqueles que eram muito ilegíveis para serem digitalizados por computadores . Os prompts de verificação utilizaram pares de palavras de páginas digitalizadas, com uma palavra conhecida usada como controle de verificação e a segunda usada para crowdsource a leitura de uma palavra incerta. O reCAPTCHA foi originalmente desenvolvido por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen e Edison Tan no campus principal da Carnegie Mellon University em Pittsburgh . Foi adquirido pelo Google em setembro de 2009. O sistema ajudou a digitalizar os arquivos do The New York Times e foi posteriormente usado pelo Google Books para fins semelhantes.

O sistema foi relatado como exibir mais de 100 milhões CAPTCHAs todos os dias, em sites como o Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , Craigslist (desde junho de 2008), e os EUA Telecomunicações e Informação Administração Nacional de TV digital site do programa de cupons da caixa do conversor (como parte da transição da DTV nos Estados Unidos ).

Em 2014, o Google desviou o serviço de seu conceito original, com foco na redução da quantidade de interação do usuário necessária para verificar um usuário, e apenas apresentando desafios de reconhecimento humano (como identificar imagens em um conjunto que satisfaça um prompt específico) se a análise comportamental suspeita que o usuário pode ser um bot.

Origem

Distributed Proofreaders foi o primeiro projeto a oferecer seu tempo voluntariamente para decifrar texto digitalizado que não podia ser lido por programas de reconhecimento óptico de caracteres (OCR). Funciona com o Project Gutenberg para digitalizar material de domínio público e usa métodos bastante diferentes do reCAPTCHA.

O programa reCAPTCHA se originou com o cientista da computação da Guatemala , Luis von Ahn , e foi auxiliado por uma bolsa de estudos da MacArthur . Um dos primeiros desenvolvedores do CAPTCHA, ele percebeu que "ele havia involuntariamente criado um sistema que estava desperdiçando, em incrementos de dez segundos, milhões de horas de um recurso muito precioso: os ciclos do cérebro humano".

Operação

ReCAPTCHA v1 (OCR assistido por humanos)

Um exemplo de como era um desafio reCAPTCHA em 2007, contendo as palavras "seguindo" e "encontrando". A ondulação e o traço horizontal foram adicionados para aumentar a dificuldade de quebrar o CAPTCHA com um programa de computador.

O texto digitalizado está sujeito à análise por dois OCRs diferentes. Qualquer palavra decifrada de forma diferente pelos dois programas OCR ou que não esteja em um dicionário de inglês é marcada como "suspeita" e convertida em um CAPTCHA. A palavra suspeita é exibida, fora do contexto, às vezes junto com uma palavra de controle já conhecida. Se o humano digitar a palavra de controle corretamente, a resposta à palavra questionável será aceita como provavelmente válida. Se um número suficiente de usuários digitar corretamente a palavra de controle, mas digitar incorretamente a segunda palavra que o OCR não conseguiu reconhecer, a versão digital dos documentos pode acabar contendo a palavra incorreta. A identificação realizada por cada programa OCR recebe um valor de 0,5 pontos e cada interpretação por um humano recebe um ponto completo. Quando uma determinada identificação atinge 2,5 pontos, a palavra é considerada válida. Essas palavras que consistentemente recebem uma única identidade por juízes humanos são posteriormente recicladas como palavras de controle. Se os três primeiros palpites corresponderem entre si, mas não corresponderem a nenhum dos OCRs, eles serão considerados uma resposta correta e a palavra se tornará uma palavra de controle. Quando seis usuários rejeitam uma palavra antes que qualquer grafia correta seja escolhida, a palavra é descartada como ilegível.

O método reCAPTCHA original foi projetado para mostrar as palavras questionáveis ​​separadamente, como correção fora do contexto, em vez de em uso, como em uma frase de cinco palavras do documento original. Além disso, a palavra de controle pode enganar o contexto da segunda palavra, como uma solicitação de "/ metal / / fife /" sendo inserida como " lima de metal " devido à conexão lógica de lima com uma ferramenta de metal ser considerada mais comum do que a instrumento musical " fife ".

Em 2012, o reCAPTCHA começou a usar fotos tiradas do projeto Google Street View , além de palavras digitalizadas.

O Google cobra pelo uso do reCAPTCHA os sites que fazem mais de um milhão de consultas ao reCAPTCHA por mês.

CAPTCHA de identificação de imagem

Sem CAPTCHA reCAPTCHA (v2 +)

O NoCAPTCHA reCAPTCHA

Em 2013, o reCAPTCHA começou a implementar análises comportamentais das interações do navegador para prever se o usuário era humano ou bot. No ano seguinte, o Google começou a implantar uma nova API reCAPTCHA, apresentando o "no CAPTCHA reCAPTCHA" - em que os usuários considerados de baixo risco só precisam clicar em uma única caixa de seleção para verificar sua identidade. Um CAPTCHA ainda pode ser apresentado se o sistema não tiver certeza do risco do usuário; O Google também introduziu um novo tipo de desafio CAPTCHA projetado para ser mais acessível aos usuários móveis, em que o usuário deve selecionar imagens que correspondam a um prompt específico de uma grade.

Em 2017, o Google lançou um novo reCAPTCHA "invisível", em que a verificação ocorre em segundo plano e nenhum desafio é exibido se o usuário for considerado de baixo risco. De acordo com o ex-czar da fraude de cliques do Google Shuman Ghosemajumder , esta capacidade "cria um novo tipo de desafio que os bots muito avançados ainda podem contornar, mas introduz muito menos atrito para o humano legítimo."

O reCAPTCHA v1 foi declarado em fim de vida e encerrado em 31 de março de 2018.

Implementação

Os testes reCAPTCHA são exibidos a partir do site central do projeto reCAPTCHA, que fornece as palavras a serem decifradas. Isso é feito por meio de uma API JavaScript com o servidor fazendo um retorno de chamada para reCAPTCHA após o envio da solicitação. O projeto reCAPTCHA fornece bibliotecas para várias linguagens de programação e aplicativos para tornar esse processo mais fácil. O reCAPTCHA é um serviço gratuito fornecido a sites para assistência com a decifração, mas o software reCAPTCHA não é de código aberto .

Além disso, o reCAPTCHA oferece plug-ins para várias plataformas de aplicativos da Web, incluindo ASP.NET , Ruby e PHP , para facilitar a implementação do serviço.

Segurança

Um exemplo de como os desafios do reCAPTCHA foram apresentados em 2010, contendo as palavras "e formões"

O objetivo principal de um sistema CAPTCHA é bloquear spambots e, ao mesmo tempo, permitir usuários humanos. Em 14 de dezembro de 2009, Jonathan Wilkins lançou um artigo descrevendo os pontos fracos do reCAPTCHA que permitiam que os bots obtivessem uma taxa de resolução de 18%.

Em 1 de agosto de 2010, Chad Houck fez uma apresentação na DEF CON 18 Hacking Conference detalhando um método para reverter a distorção adicionada às imagens, o que permitiu a um programa de computador determinar uma resposta válida 10% do tempo. O sistema reCAPTCHA foi modificado em 21 de julho de 2010, antes que Houck falasse sobre seu método. Houck modificou seu método para o que ele descreveu como um CAPTCHA "mais fácil" para determinar uma resposta válida 31,8% das vezes. Houck também mencionou defesas de segurança no sistema, incluindo um bloqueio de alta segurança se uma resposta inválida for dada 32 vezes seguidas.

Em 26 de maio de 2012, Adam, CP e Jeffball do DC949 fizeram uma apresentação na conferência de hackers LayerOne detalhando como eles conseguiram obter uma solução automatizada com uma taxa de precisão de 99,1%. A tática deles era usar técnicas de aprendizado de máquina, um subcampo da inteligência artificial, para analisar a versão em áudio do reCAPTCHA disponível para deficientes visuais. O Google lançou uma nova versão do reCAPTCHA poucas horas antes de sua palestra, fazendo grandes mudanças nas versões de áudio e visual de seu serviço. Neste lançamento, a versão de áudio foi aumentada em duração de 8 segundos para 30 segundos, e é muito mais difícil de entender, tanto para humanos quanto para bots. Em resposta a esta atualização e à seguinte, os membros do DC949 lançaram mais duas versões do Stiltwalker que venceram o reCAPTCHA com uma precisão de 60,95% e 59,4%, respectivamente. Após cada pausa sucessiva, o Google atualizava o reCAPTCHA em alguns dias. De acordo com o DC949, eles costumam reverter para recursos que foram hackeados anteriormente.

Em 27 de junho de 2012, Claudia Cruz, Fernando Uceda e Leobardo Reyes publicaram um artigo mostrando um sistema rodando em imagens reCAPTCHA com uma precisão de 82%. Os autores não disseram se seu sistema pode resolver imagens recentes do reCAPTCHA, embora afirmem que seu trabalho é OCR inteligente e robusto para algumas, senão todas as alterações no banco de dados de imagens.

Em uma apresentação feita em agosto de 2012 no BsidesLV 2012, o DC949 chamou a última versão de "incomensuravelmente impossível para os humanos" - eles também não foram capazes de resolvê-los manualmente. A organização de acessibilidade da web WebAIM relatou em maio de 2012, "Mais de 90% dos entrevistados [usuários de leitores de tela] consideram o CAPTCHA muito ou um pouco difícil."

Crítica

A iteração original do reCAPTCHA foi criticada por ser uma fonte de trabalho não remunerado para auxiliar nos esforços de transcrição.

O Google lucra com os usuários do reCAPTCHA como trabalhadores livres para melhorar sua pesquisa de IA.

Privacidade

A iteração atual do sistema tem sido criticada por sua dependência de cookies de rastreamento e promoção de vínculo de fornecedor com os serviços do Google; os administradores são incentivados a incluir o código de rastreamento reCAPTCHA em todas as páginas de seus sites para analisar o comportamento e o "risco" dos usuários, o que determina o nível de atrito apresentado quando um prompt reCAPTCHA é usado. O Google declarou em sua política de privacidade que os dados do usuário coletados dessa maneira não são usados ​​para publicidade personalizada. Também foi descoberto que o sistema favorece aqueles que têm um login de conta do Google ativo e apresenta um risco maior para aqueles que usam proxies de anonimato e serviços VPN.

As preocupações foram levantadas em relação à privacidade quando o Google anunciou o reCAPTCHA v3.0, que permite ao Google rastrear usuários em sites que não são do Google.

Em abril de 2020, a Cloudflare mudou de reCAPTCHA para hCaptcha, citando questões de privacidade sobre o uso potencial do Google dos dados que eles coletam por meio do reCAPTCHA para publicidade direcionada e para reduzir custos operacionais, uma vez que uma parte considerável dos clientes da Cloudflare são clientes gratuitos e não pagantes. Em resposta, o Google disse à PC Magazine que os dados do reCAPTCHA nunca são usados ​​para fins de publicidade personalizada.

Acessibilidade

A central de ajuda do Google afirma que o reCAPTCHA não é compatível com a comunidade de surdocegos , bloqueando efetivamente esses usuários de todas as páginas que usam o serviço. No entanto, o reCAPTCHA atualmente tem a lista mais longa de considerações de acessibilidade de qualquer serviço CAPTCHA.

Interface

Em uma das variantes dos desafios do CAPTCHA, as imagens não são destacadas de forma incremental, mas desaparecem quando clicadas e substituídas por uma nova imagem que aparece, semelhante a um golpe-a-toupeira .

A crítica tem sido direcionada à longa duração tomada para que as imagens desapareçam e desapareçam.

Projetos derivados

O reCAPTCHA também criou o projeto Mailhide, que protege os endereços de e-mail em páginas da web de serem coletados por spammers . Por padrão, o endereço de e-mail foi convertido em um formato que não permitia a um rastreador ver o endereço de e-mail completo; por exemplo, "mailme@example.com" teria sido convertido para "mai ... @ example.com". O visitante então clica em "..." e resolve o CAPTCHA para obter o endereço de e-mail completo. Também era possível editar o código pop-up para que nenhum endereço ficasse visível. Mailhide foi descontinuado em 2018 porque contava com o reCAPTCHA v1.

Referências

Leitura adicional

links externos