Arquivo da web - Web archiving

O arquivamento da web é o processo de coleta de porções da World Wide Web para garantir que as informações sejam preservadas em um arquivo para futuros pesquisadores, historiadores e o público. Os arquivistas da web normalmente empregam rastreadores da web para captura automatizada devido ao enorme tamanho e quantidade de informações na web. A maior organização de arquivamento da web com base em uma abordagem de rastreamento em massa é a Wayback Machine , que se esforça para manter um arquivo de toda a web.

A porção crescente da cultura humana criada e registrada na web torna inevitável que mais e mais bibliotecas e arquivos tenham que enfrentar os desafios do arquivamento na web. Bibliotecas nacionais , arquivos nacionais e vários consórcios de organizações também estão envolvidos no arquivamento de conteúdo da Web culturalmente importante.

Software e serviços de arquivamento comercial da Web também estão disponíveis para organizações que precisam arquivar seu próprio conteúdo da Web para fins de patrimônio corporativo, regulamentares ou legais.

História e desenvolvimento

Embora a curadoria e a organização da web tenham prevalecido desde meados até o final da década de 1990, um dos primeiros projetos de arquivamento em grande escala da web foi o Internet Archive , uma organização sem fins lucrativos criada por Brewster Kahle em 1996. O Internet Archive foi lançado seu próprio mecanismo de busca para visualizar conteúdo arquivado da web, o Wayback Machine , em 2001. Em 2018, o Internet Archive continha 40 petabytes de dados. O Internet Archive também desenvolveu muitas de suas próprias ferramentas para coletar e armazenar seus dados, incluindo Petabox para armazenar grandes quantidades de dados de forma eficiente e segura, e Hertrix, um rastreador da web desenvolvido em conjunto com as bibliotecas nacionais nórdicas. Outros projetos lançados na mesma época incluem os arquivos da web Pandora e da Tasmânia da Austrália e o Kulturarw3 da Suécia.

De 2001 a 2010, o International Web Archiving Workshop (IWAW) forneceu uma plataforma para compartilhar experiências e trocar ideias. O International Internet Preservation Consortium (IIPC) , estabelecido em 2003, facilitou a colaboração internacional no desenvolvimento de padrões e ferramentas de código aberto para a criação de arquivos da web.

A extinta Internet Memory Foundation foi fundada em 2004 e fundada pela Comissão Europeia para arquivar a web na Europa. Este projeto desenvolveu e lançou muitas ferramentas de código aberto, como "captura de rich media, análise de coerência temporal, avaliação de spam e detecção de evolução de terminologia." Os dados da fundação agora estão armazenados no Internet Archive, mas não estão acessíveis ao público no momento.

Apesar de não haver uma responsabilidade centralizada para sua preservação, o conteúdo da web está rapidamente se tornando o registro oficial. Por exemplo, em 2017, o Departamento de Justiça dos Estados Unidos afirmou que o governo trata os tweets do presidente como declarações oficiais.

Coletando na web

Os arquivistas da web geralmente arquivam vários tipos de conteúdo da web, incluindo páginas da web em HTML , folhas de estilo , JavaScript , imagens e vídeo . Eles também arquivam metadados sobre os recursos coletados, como tempo de acesso, tipo MIME e comprimento do conteúdo. Esses metadados são úteis para estabelecer a autenticidade e a procedência da coleção arquivada.

Métodos de coleta

Colheita remota

A técnica de arquivamento da web mais comum usa rastreadores da web para automatizar o processo de coleta de páginas da web . Os rastreadores da Web normalmente acessam páginas da Web da mesma maneira que os usuários com um navegador veem a Web e, portanto, fornecem um método comparativamente simples de coleta remota de conteúdo da Web. Exemplos de rastreadores da web usados ​​para arquivamento da web incluem:

Existem vários serviços gratuitos que podem ser usados ​​para arquivar recursos da web "sob demanda", usando técnicas de rastreamento da web. Esses serviços incluem o Wayback Machine e o WebCite .

Arquivo de banco de dados

O arquivamento de banco de dados refere-se a métodos para arquivar o conteúdo subjacente de sites baseados em banco de dados. Normalmente requer a extração do conteúdo do banco de dados em um esquema padrão , geralmente usando XML . Depois de armazenado nesse formato padrão, o conteúdo arquivado de vários bancos de dados pode ser disponibilizado usando um único sistema de acesso. Esta abordagem é exemplificada pelos DeepArc e Xinq ferramentas desenvolvidas pela Bibliothèque Nationale de France e da Biblioteca Nacional da Austrália , respectivamente. O DeepArc permite que a estrutura de um banco de dados relacional seja mapeada para um esquema XML e o conteúdo exportado para um documento XML. O Xinq então permite que o conteúdo seja entregue online. Embora o layout original e o comportamento do site não possam ser preservados com exatidão, o Xinq permite que a funcionalidade básica de consulta e recuperação seja replicada.

Arquivo transacional

O arquivamento transacional é uma abordagem orientada a eventos, que coleta as transações reais que ocorrem entre um servidor da web e um navegador da web . É utilizado principalmente como meio de preservar as evidências do conteúdo efetivamente visualizado em um determinado site , em uma determinada data. Isso pode ser particularmente importante para organizações que precisam cumprir requisitos legais ou regulamentares para divulgar e reter informações.

Um sistema de arquivamento transacional normalmente opera interceptando todas as solicitações HTTP e respostas do servidor da web, filtrando cada resposta para eliminar o conteúdo duplicado e armazenando permanentemente as respostas como fluxos de bits.

Dificuldades e limitações

Crawlers

Arquivos da web que dependem do rastreamento da web como seu principal meio de coleta da web são influenciados pelas dificuldades de rastreamento da web:

  • O protocolo de exclusão de robôs pode solicitar que os rastreadores não acessem partes de um site. Alguns arquivistas da web podem ignorar a solicitação e rastrear essas partes de qualquer maneira.
  • Grandes partes de um site podem estar ocultas na Deep Web . Por exemplo, a página de resultados por trás de um formulário da web pode estar na Deep Web se os rastreadores não puderem seguir um link para a página de resultados.
  • As armadilhas do rastreador (por exemplo, calendários) podem fazer com que um rastreador baixe um número infinito de páginas, portanto, os rastreadores são geralmente configurados para limitar o número de páginas dinâmicas que rastreiam.
  • A maioria das ferramentas de arquivamento não captura a página como ela é. Observa-se que banners e imagens de anúncios muitas vezes são perdidos durante o arquivamento.

No entanto, é importante notar que um arquivo da web em formato nativo, ou seja, um arquivo da web totalmente navegável, com links funcionais, mídia, etc., só é realmente possível usando a tecnologia de crawler.

A Web é tão grande que rastrear uma parte significativa dela exige um grande número de recursos técnicos. A web está mudando tão rápido que partes de um site podem mudar antes mesmo que o rastreador termine de rastreá-lo.

Limitações gerais

Alguns servidores da web são configurados para retornar páginas diferentes às solicitações do arquivador da web do que fariam em resposta às solicitações regulares do navegador. Normalmente, isso é feito para enganar os mecanismos de pesquisa, levando-os a direcionar mais tráfego do usuário para um site, e geralmente é feito para evitar responsabilidade ou para fornecer conteúdo aprimorado apenas aos navegadores que podem exibi-lo.

Os arquivistas da web não devem apenas lidar com os desafios técnicos do arquivamento da web, mas também devem lidar com as leis de propriedade intelectual. Peter Lyman afirma que "embora a Web seja popularmente considerada um recurso de domínio público , é protegida por direitos autorais ; portanto, os arquivistas não têm direito legal de copiar a Web". No entanto, as bibliotecas nacionais em alguns países têm o direito legal de copiar partes da web sob a extensão de um depósito legal .

Alguns arquivos privados da web sem fins lucrativos que são disponibilizados publicamente, como o WebCite , o Internet Archive ou a Internet Memory Foundation, permitem que os proprietários de conteúdo ocultem ou removam o conteúdo arquivado ao qual não desejam que o público tenha acesso. Outros arquivos da web só podem ser acessados ​​em determinados locais ou têm uso regulamentado. WebCite cita um processo recente contra o cache do Google, que o Google venceu.

Leis

Em 2017, a Financial Industry Regulatory Authority, Inc. (FINRA), uma organização reguladora financeira dos Estados Unidos, divulgou um aviso afirmando que todas as empresas que fazem comunicações digitais devem manter um registro. Isso inclui dados de sites, postagens em mídias sociais e mensagens. Algumas leis de direitos autorais podem inibir o arquivamento na web. Por exemplo, o arquivamento acadêmico da Sci-Hub está fora dos limites da lei de direitos autorais contemporânea. O site fornece acesso permanente a trabalhos acadêmicos, incluindo aqueles que não têm uma licença de acesso aberto e, portanto, contribui para o arquivamento de pesquisas científicas que, de outra forma, poderiam ser perdidas.

Veja também

Referências

Citações

Bibliografia geral

links externos