Arquivo da web - Web archiving

O arquivamento da web é o processo de coleta de porções da World Wide Web para garantir que as informações sejam preservadas em um arquivo para futuros pesquisadores, historiadores e o público. Os arquivistas da web normalmente empregam rastreadores da web para captura automatizada devido ao enorme tamanho e quantidade de informações na web. A maior organização de arquivamento da web com base em uma abordagem de rastreamento em massa é a Wayback Machine , que se esforça para manter um arquivo de toda a web.

A porção crescente da cultura humana criada e registrada na web torna inevitável que mais e mais bibliotecas e arquivos tenham que enfrentar os desafios do arquivamento na web. Bibliotecas nacionais , arquivos nacionais e vários consórcios de organizações também estão envolvidos no arquivamento de conteúdo da Web culturalmente importante.

Software e serviços de arquivamento comercial da Web também estão disponíveis para organizações que precisam arquivar seu próprio conteúdo da Web para fins de patrimônio corporativo, regulamentares ou legais.

História e desenvolvimento

Embora a curadoria e a organização da web tenham prevalecido desde meados até o final da década de 1990, um dos primeiros projetos de arquivamento em grande escala da web foi o Internet Archive , uma organização sem fins lucrativos criada por Brewster Kahle em 1996. O Internet Archive foi lançado seu próprio mecanismo de busca para visualizar conteúdo arquivado da web, o Wayback Machine , em 2001. Em 2018, o Internet Archive continha 40 petabytes de dados. O Internet Archive também desenvolveu muitas de suas próprias ferramentas para coletar e armazenar seus dados, incluindo Petabox para armazenar grandes quantidades de dados de forma eficiente e segura, e Hertrix, um rastreador da web desenvolvido em conjunto com as bibliotecas nacionais nórdicas. Outros projetos lançados na mesma época incluem os arquivos da web Pandora e da Tasmânia da Austrália e o Kulturarw3 da Suécia.

De 2001 a 2010, o International Web Archiving Workshop (IWAW) forneceu uma plataforma para compartilhar experiências e trocar ideias. O International Internet Preservation Consortium (IIPC) , estabelecido em 2003, facilitou a colaboração internacional no desenvolvimento de padrões e ferramentas de código aberto para a criação de arquivos da web.

A extinta Internet Memory Foundation foi fundada em 2004 e fundada pela Comissão Europeia para arquivar a web na Europa. Este projeto desenvolveu e lançou muitas ferramentas de código aberto, como "captura de rich media, análise de coerência temporal, avaliação de spam e detecção de evolução de terminologia." Os dados da fundação agora estão armazenados no Internet Archive, mas não estão acessíveis ao público no momento.

Apesar de não haver uma responsabilidade centralizada para sua preservação, o conteúdo da web está rapidamente se tornando o registro oficial. Por exemplo, em 2017, o Departamento de Justiça dos Estados Unidos afirmou que o governo trata os tweets do presidente como declarações oficiais.

Coletando na web

Os arquivistas da web geralmente arquivam vários tipos de conteúdo da web, incluindo páginas da web em HTML , folhas de estilo , JavaScript , imagens e vídeo . Eles também arquivam metadados sobre os recursos coletados, como tempo de acesso, tipo MIME e comprimento do conteúdo. Esses metadados são úteis para estabelecer a autenticidade e a procedência da coleção arquivada.

Métodos de coleta

Colheita remota

A técnica de arquivamento da web mais comum usa rastreadores da web para automatizar o processo de coleta de páginas da web . Os rastreadores da Web normalmente acessam páginas da Web da mesma maneira que os usuários com um navegador veem a Web e, portanto, fornecem um método comparativamente simples de coleta remota de conteúdo da Web. Exemplos de rastreadores da web usados para arquivamento da web incluem:

Existem vários serviços gratuitos que podem ser usados para arquivar recursos da web "sob demanda", usando técnicas de rastreamento da web. Esses serviços incluem o Wayback Machine e o WebCite .

Arquivo de banco de dados

O arquivamento de banco de dados refere-se a métodos para arquivar o conteúdo subjacente de sites baseados em banco de dados. Normalmente requer a extração do conteúdo do banco de dados em um esquema padrão , geralmente usando XML . Depois de armazenado nesse formato padrão, o conteúdo arquivado de vários bancos de dados pode ser disponibilizado usando um único sistema de acesso. Esta abordagem é exemplificada pelos DeepArc e Xinq ferramentas desenvolvidas pela Bibliothèque Nationale de France e da Biblioteca Nacional da Austrália , respectivamente. O DeepArc permite que a estrutura de um banco de dados relacional seja mapeada para um esquema XML e o conteúdo exportado para um documento XML. O Xinq então permite que o conteúdo seja entregue online. Embora o layout original e o comportamento do site não possam ser preservados com exatidão, o Xinq permite que a funcionalidade básica de consulta e recuperação seja replicada.

Arquivo transacional

O arquivamento transacional é uma abordagem orientada a eventos, que coleta as transações reais que ocorrem entre um servidor da web e um navegador da web . É utilizado principalmente como meio de preservar as evidências do conteúdo efetivamente visualizado em um determinado site , em uma determinada data. Isso pode ser particularmente importante para organizações que precisam cumprir requisitos legais ou regulamentares para divulgar e reter informações.

Um sistema de arquivamento transacional normalmente opera interceptando todas as solicitações HTTP e respostas do servidor da web, filtrando cada resposta para eliminar o conteúdo duplicado e armazenando permanentemente as respostas como fluxos de bits.

Dificuldades e limitações

Crawlers

Arquivos da web que dependem do rastreamento da web como seu principal meio de coleta da web são influenciados pelas dificuldades de rastreamento da web:

O protocolo de exclusão de robôs pode solicitar que os rastreadores não acessem partes de um site. Alguns arquivistas da web podem ignorar a solicitação e rastrear essas partes de qualquer maneira.
Grandes partes de um site podem estar ocultas na Deep Web . Por exemplo, a página de resultados por trás de um formulário da web pode estar na Deep Web se os rastreadores não puderem seguir um link para a página de resultados.
As armadilhas do rastreador (por exemplo, calendários) podem fazer com que um rastreador baixe um número infinito de páginas, portanto, os rastreadores são geralmente configurados para limitar o número de páginas dinâmicas que rastreiam.
A maioria das ferramentas de arquivamento não captura a página como ela é. Observa-se que banners e imagens de anúncios muitas vezes são perdidos durante o arquivamento.

No entanto, é importante notar que um arquivo da web em formato nativo, ou seja, um arquivo da web totalmente navegável, com links funcionais, mídia, etc., só é realmente possível usando a tecnologia de crawler.

A Web é tão grande que rastrear uma parte significativa dela exige um grande número de recursos técnicos. A web está mudando tão rápido que partes de um site podem mudar antes mesmo que o rastreador termine de rastreá-lo.

Limitações gerais

Alguns servidores da web são configurados para retornar páginas diferentes às solicitações do arquivador da web do que fariam em resposta às solicitações regulares do navegador. Normalmente, isso é feito para enganar os mecanismos de pesquisa, levando-os a direcionar mais tráfego do usuário para um site, e geralmente é feito para evitar responsabilidade ou para fornecer conteúdo aprimorado apenas aos navegadores que podem exibi-lo.

Os arquivistas da web não devem apenas lidar com os desafios técnicos do arquivamento da web, mas também devem lidar com as leis de propriedade intelectual. Peter Lyman afirma que "embora a Web seja popularmente considerada um recurso de domínio público , é protegida por direitos autorais ; portanto, os arquivistas não têm direito legal de copiar a Web". No entanto, as bibliotecas nacionais em alguns países têm o direito legal de copiar partes da web sob a extensão de um depósito legal .

Alguns arquivos privados da web sem fins lucrativos que são disponibilizados publicamente, como o WebCite , o Internet Archive ou a Internet Memory Foundation, permitem que os proprietários de conteúdo ocultem ou removam o conteúdo arquivado ao qual não desejam que o público tenha acesso. Outros arquivos da web só podem ser acessados em determinados locais ou têm uso regulamentado. WebCite cita um processo recente contra o cache do Google, que o Google venceu.

Leis

Em 2017, a Financial Industry Regulatory Authority, Inc. (FINRA), uma organização reguladora financeira dos Estados Unidos, divulgou um aviso afirmando que todas as empresas que fazem comunicações digitais devem manter um registro. Isso inclui dados de sites, postagens em mídias sociais e mensagens. Algumas leis de direitos autorais podem inibir o arquivamento na web. Por exemplo, o arquivamento acadêmico da Sci-Hub está fora dos limites da lei de direitos autorais contemporânea. O site fornece acesso permanente a trabalhos acadêmicos, incluindo aqueles que não têm uma licença de acesso aberto e, portanto, contribui para o arquivamento de pesquisas científicas que, de outra forma, poderiam ser perdidas.

Veja também

Referências

Citações

Bibliografia geral

Brown, A. (2006). Arquivando sites: um guia prático para profissionais de gerenciamento de informações . Londres: Publicação de facetas. ISBN 978-1-85604-553-7.
Brügger, N. (2005). Arquivando sites. Considerações gerais e estratégias . Aarhus: O Centro de Pesquisa na Internet. ISBN 978-87-990507-0-3. Arquivado do original em 29 de janeiro de 2009.
Day, M. (2003). "Preservando a estrutura de nossas vidas: uma pesquisa sobre iniciativas de preservação da web" (PDF) . Pesquisa e Tecnologia Avançada para Bibliotecas Digitais: Anais da 7ª Conferência Europeia (ECDL) . Notas de aula em Ciência da Computação. 2769 : 461–472. doi : 10.1007 / 978-3-540-45175-4_42 . ISBN 978-3-540-40726-3.
Eysenbach, G. & Trudel, M. (2005). "Vou, vou, ainda está aí: usar o serviço WebCite para arquivar permanentemente as páginas web citadas" . Journal of Medical Internet Research . 7 (5): e60. doi : 10.2196 / jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .
Fitch, Kent (2003). "Arquivamento de sites - uma abordagem para registrar cada resposta materialmente diferente produzida por um site" . Ausweb 03 . Arquivado do original em 20 de julho de 2003 . Recuperado em 27 de setembro de 2006 .
Jacoby, Robert (19 de agosto de 2010). "Arquivando uma página da web" . Arquivado do original em 3 de janeiro de 2011 . Recuperado em 23 de outubro de 2010 .
Lyman, P. (2002). "Arquivando a World Wide Web" . Construindo uma Estratégia Nacional de Preservação: Problemas no Arquivamento de Mídia Digital .
Masanès, J.), ed. (2006). Arquivamento da Web . Berlim: Springer-Verlag . ISBN 978-3-540-23338-1.
Pennock, Maureen (2013). Arquivamento da Web . Relatórios DPC Technology Watch. Grã-Bretanha: Coalizão de Preservação Digital . doi : 10.7207 / twr13-01 . ISSN 2048-7916 .
Toyoda, M., Kitsuregawa, M. (2012). "A História do Arquivamento da Web" . Atas do IEEE . 100 (edição especial do centenário): 1441–1443. doi : 10.1109 / JPROC.2012.2189920 .CS1 maint: usa o parâmetro de autores ( link )

links externos

International Internet Preservation Consortium (IIPC) - Consórcio internacional cuja missão é adquirir, preservar e tornar acessível o conhecimento e as informações da Internet para as gerações futuras
Workshop Internacional de Arquivamento da Web (IWAW) - Workshop anual com foco em arquivamento da web
Biblioteca Nacional da Austrália, Preservando o Acesso às Informações Digitais (PADI)
Biblioteca do Congresso - Arquivo da Web
Bibliografia de arquivamento da web - lista extensa de recursos de arquivamento da web
"Rumo ao arquivamento contínuo da web" - Julien Masanès, Bibliothèque Nationale de France
Comparação de serviços de arquivamento da web Arquivado em 12 de outubro de 2015, na Wayback Machine
Lista de blogs sobre arquivamento da web , 2015

Languages

In other projects