Internet Archive supera 100 petabytes e quer cobrir até radioamadorismo
Wayback Machine, do Internet Archive, alcançou 100 PB de conteúdo; só de páginas web são 741 bilhões de cópias
Wayback Machine, do Internet Archive, alcançou 100 PB de conteúdo; só de páginas web são 741 bilhões de cópias
Há 26 anos que o Internet Archive atua como um “backup” da web. O site preserva softwares, vídeos, imagens e páginas dos mais diversos tipos. O conteúdo mantido por lá é tão extenso que, recentemente, o banco de dados do serviço atingiu a marca de 100 PB (petabytes)! E vem mais por aí: o plano, agora, é o de também arquivar materiais sobre radioamadorismo.
Internet Archive é o nome da organização sem fins lucrativos por trás da iniciativa. O serviço que coleta e armazena os arquivos da internet é chamado de Wayback Machine.
Como o nome sugere, o site funciona como uma espécie de máquina do tempo. Grande parte do conteúdo arquivado por lá não existe mais na origem ou é diferente nos dias atuais.
Só de páginas web, o Wayback Machine reúne mais de 741 bilhões de cópias. Mas vídeos, áudios, imagens e livros, por exemplo, também fazem parte do acervo da plataforma.
Para você ter noção, o Internet Archive arquivou 2 mil jogos de MS-DOS em 2019. No ano seguinte, foi a vez de jogos em Flash. Em 2021, um processo de digitalização de mais de 250 mil discos em 78 rpm foi colocado em curso.
Esse trabalho é realizado desde 1996. Em 1997, o serviço chegou à marca de 2 terabytes de dados arquivados — hoje, esse volume pode caber em uma única unidade SSD.
Como você já sabe, o serviço chegou a 100 petabytes de dados recentemente, um número equivalente a 100.000 terabytes.
Nesta semana, o Internet Archive revelou que está reunindo conteúdo para a recém-criada Biblioteca Digital de Rádio Amador e Comunicações (DLARC, na sigla em inglês).
A biblioteca foi idealizada para preservar todo tipo de conteúdo digital relacionado ao radioamadorismo. Alguns exemplos: materiais impressos digitalizados, sites especializados, arquivos de áudio, coleções pessoais e registros de comunicações.
Para tanto, esse trabalho seguirá algumas estratégias, como:
A DLARC é apoiada financeiramente por uma fundação privada — a ARDC —, mas depende da colaboração de outras entidades ou pessoas para montar o seu acervo.
Interessados podem ajudar com revistas, livros, manuais, catálogos e qualquer outro tipo de conteúdo que tenha relação com o radioamadorismo.
A atenção ao radioamadorismo é um acréscimo. Os trabalhos de preservação de páginas, vídeos, softwares e afins continuam. Mas há alguns desafios pela frente. Um deles é o paywall, isto é, o mecanismo usado por sites de notícias que bloqueia o acesso ao conteúdo por usuários não pagantes.
Esse tipo restrição tem dificultado a coleta de notícias e outros conteúdos que, daqui a alguns anos, provavelmente não existirão mais nas origens.
O problema não é exatamente novo. A restrição de acesso a conteúdos já acontece em redes sociais. O Facebook, por exemplo, permite que suas páginas sejam indexadas por serviços externos, mas muitas de suas publicações são restritas a comunidades fechadas ou usuários pagantes.
É inegável que o Internet Archive faz um excelente trabalho, mas, apesar dos esforços, muito conteúdo deve ficar de fora de sua cobertura por causa dessas limitações.
Com informações: Financial Times.