Heritrix - Heritrix

Heritrix
Heritrix logo.png
Captura de tela do console de administração do Heritrix.
Captura de tela do console de administração do Heritrix.
Versão estável
3.4.0 / 3 de agosto de 2020  ( 03-08-2020 )
Repositório Edite isso no Wikidata
Escrito em Java
Sistema operacional Linux / semelhante ao Unix / Windows (sem suporte)
Tipo Rastreador da web
Licença Licença Apache
Local na rede Internet github .com / internetarchive / heritrix3 / wiki

Heritrix é um rastreador da web projetado para arquivamento da web . Foi escrito pelo Internet Archive . Ele está disponível sob uma licença de software livre e escrito em Java . A interface principal pode ser acessada por meio de um navegador da web e há uma ferramenta de linha de comando que pode ser usada opcionalmente para iniciar rastreamentos.

Heritrix foi desenvolvido em conjunto pelo Internet Archive e as bibliotecas nacionais nórdicas em especificações escritas no início de 2003. O primeiro lançamento oficial foi em janeiro de 2004 e tem sido continuamente aprimorado por funcionários do Internet Archive e outras partes interessadas.

Heritrix não foi o principal rastreador usado para rastrear o conteúdo da coleção da web do Internet Archive por muitos anos. O maior contribuidor para a coleção, a partir de 2011, é Alexa Internet . Alexa rastreia a web para seus próprios fins, usando um rastreador chamado ia_archiver . Alexa então doa o material para o Internet Archive. O próprio Internet Archive fez alguns de seus próprios rastreamentos usando Heritrix, mas apenas em uma escala menor.

A partir de 2008, o Internet Archive começou a melhorar o desempenho para fazer seu próprio rastreamento em grande escala e agora coleta a maior parte de seu conteúdo.

Projetos usando Heritrix

Uma série de organizações e bibliotecas nacionais estão usando Heritrix, entre elas:

Arquivos Arc

Versões mais antigas do Heritrix por padrão armazenavam os recursos da web que rastreia em um arquivo Arc. Este formato de arquivo não está totalmente relacionado ao ARC (formato de arquivo) . Este formato tem sido usado pelo Internet Archive desde 1996 para armazenar seus arquivos da web. Mais recentemente, ele salva por padrão no formato de arquivo WARC , que é semelhante ao ARC, mas especificado com mais precisão e mais flexível. O Heritrix também pode ser configurado para armazenar arquivos em um formato de diretório semelhante ao rastreador Wget que usa a URL para nomear o diretório e o nome do arquivo de cada recurso.

Um arquivo Arc armazena vários recursos arquivados em um único arquivo para evitar o gerenciamento de um grande número de arquivos pequenos. O arquivo consiste em uma sequência de registros de URL, cada um com um cabeçalho contendo metadados sobre como o recurso foi solicitado, seguido pelo cabeçalho HTTP e a resposta. Os arquivos de arco variam entre 100 e 600 MB.

Exemplo:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Ferramentas para processar arquivos Arc

Heritrix inclui uma ferramenta de linha de comando chamada arcreader, que pode ser usada para extrair o conteúdo de um arquivo Arc. O comando a seguir lista todos os URLs e metadados armazenados no arquivo Arc fornecido (no formato CDX ):

arcreader IA-2006062.arc

O comando a seguir extrai hello.html do exemplo acima, assumindo que o registro começa no deslocamento 140:

arcreader -o 140 -f dump IA-2006062.arc

Outras ferramentas:

Ferramentas de linha de comando

O Heritrix vem com várias ferramentas de linha de comando:

  • htmlextractor - exibe os links que o Heritrix extrairia para um determinado URL
  • hoppath.pl - recria o caminho de salto (caminho de links) para o URL especificado de um rastreamento concluído
  • manifest_bundle.pl - agrupa todos os recursos referenciados por um arquivo de manifesto de rastreamento em um tarball descompactado ou compactado
  • cmdline-jmxclient - ativa o controle de linha de comando do Heritrix
  • arcreader - extrai o conteúdo dos arquivos ARC (veja acima)

Outras ferramentas estão disponíveis como parte do projeto warctools do Internet Archive.

Veja também

Referências

A partir desta edição , este artigo usa conteúdo de "Re: Control over the Internet Archive além de apenas“ Disallow / ”?" , que é licenciado de uma forma que permite a reutilização sob a Licença Creative Commons Attribution-ShareAlike 3.0 Unported , mas não sob a GFDL . Todos os termos relevantes devem ser seguidos.

  1. ^ a b c d e Kris (6 de setembro de 2011). "Re: Controle sobre o Internet Archive além de apenas" Disallow / "?" . Webmasters profissionais Stack Exchange . Pilha câmbio, Inc . Recuperado em 7 de janeiro de 2013 .
  2. ^ "Wayback Machine: Now with 240,000,000,000 URLs - Internet Archive Blogs" . blog.archive.org . Retirado em 11 de setembro de 2017 .
  3. ^ "Sobre - Arquivamento da Web (Biblioteca do Congresso)" . www.loc.gov . Página visitada em 29/10/2017 .
  4. ^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Retirado em 11 de setembro de 2017 .
  5. ^ "warctools" . 25 de agosto de 2017 . Recuperado em 11 de setembro de 2017 - via GitHub.
  1. Burner, M. (1997). "Rastejando para a eternidade - construindo um arquivo da World Wide Web" . Técnicas da Web . 2 (5). Arquivado do original em 1º de janeiro de 2008.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introdução ao Heritrix, um rastreador da web com qualidade de arquivamento" (PDF) . Anais do 4º Workshop Internacional de Arquivamento da Web (IWAW'04) . Arquivado do original (PDF) em 12/06/2011 . Página visitada em 2007-03-09 . CS1 maint: vários nomes: lista de autores ( link )
  3. Sigurðsson, K. (2005). "Rastreamento incremental com Heritrix" (PDF) . Proceedings of the 5th International Web Archiving Workshop (IWAW'05) . Arquivado do original (PDF) em 12/06/2011 . Página visitada em 2006-06-23 .

links externos

Ferramentas por Arquivo da Internet:

Links para ferramentas relacionadas: