Internet Archive supera 100 petabytes e quer cobrir até radioamadorismo

Wayback Machine, do Internet Archive, alcançou 100 PB de conteúdo; só de páginas web são 741 bilhões de cópias

Emerson Alecrim

Há 26 anos que o Internet Archive atua como um “backup” da web. O site preserva softwares, vídeos, imagens e páginas dos mais diversos tipos. O conteúdo mantido por lá é tão extenso que, recentemente, o banco de dados do serviço atingiu a marca de 100 PB (petabytes)! E vem mais por aí: o plano, agora, é o de também arquivar materiais sobre radioamadorismo.

Página do Internet Archive (imagem: Emerson Alecrim/Tecnoblog)
Página do Internet Archive (imagem: Emerson Alecrim/Tecnoblog)

Internet Archive é o nome da organização sem fins lucrativos por trás da iniciativa. O serviço que coleta e armazena os arquivos da internet é chamado de Wayback Machine.

Como o nome sugere, o site funciona como uma espécie de máquina do tempo. Grande parte do conteúdo arquivado por lá não existe mais na origem ou é diferente nos dias atuais.

100 PB e 741 bilhões de página web

Só de páginas web, o Wayback Machine reúne mais de 741 bilhões de cópias. Mas vídeos, áudios, imagens e livros, por exemplo, também fazem parte do acervo da plataforma.

Para você ter noção, o Internet Archive arquivou 2 mil jogos de MS-DOS em 2019. No ano seguinte, foi a vez de jogos em Flash. Em 2021, um processo de digitalização de mais de 250 mil discos em 78 rpm foi colocado em curso.

Esse trabalho é realizado desde 1996. Em 1997, o serviço chegou à marca de 2 terabytes de dados arquivados — hoje, esse volume pode caber em uma única unidade SSD.

Como você já sabe, o serviço chegou a 100 petabytes de dados recentemente, um número equivalente a 100.000 terabytes.

Agora é a vez do rádio amador

Nesta semana, o Internet Archive revelou que está reunindo conteúdo para a recém-criada Biblioteca Digital de Rádio Amador e Comunicações (DLARC, na sigla em inglês).

A biblioteca foi idealizada para preservar todo tipo de conteúdo digital relacionado ao radioamadorismo. Alguns exemplos: materiais impressos digitalizados, sites especializados, arquivos de áudio, coleções pessoais e registros de comunicações.

Para tanto, esse trabalho seguirá algumas estratégias, como:

  • Digitalizar materiais impressos, como jornais, livros e documentos;
  • Arquivar e organizar conteúdos “nascidos digitais”, como fotos, sites, vídeos, newsletters e podcasts;
  • Realizar entrevistas em áudio com membros importantes da comunidade.

A DLARC é apoiada financeiramente por uma fundação privada — a ARDC —, mas depende da colaboração de outras entidades ou pessoas para montar o seu acervo.

Interessados podem ajudar com revistas, livros, manuais, catálogos e qualquer outro tipo de conteúdo que tenha relação com o radioamadorismo.

Paywall é um problema

A atenção ao radioamadorismo é um acréscimo. Os trabalhos de preservação de páginas, vídeos, softwares e afins continuam. Mas há alguns desafios pela frente. Um deles é o paywall, isto é, o mecanismo usado por sites de notícias que bloqueia o acesso ao conteúdo por usuários não pagantes.

Esse tipo restrição tem dificultado a coleta de notícias e outros conteúdos que, daqui a alguns anos, provavelmente não existirão mais nas origens.

O problema não é exatamente novo. A restrição de acesso a conteúdos já acontece em redes sociais. O Facebook, por exemplo, permite que suas páginas sejam indexadas por serviços externos, mas muitas de suas publicações são restritas a comunidades fechadas ou usuários pagantes.

É inegável que o Internet Archive faz um excelente trabalho, mas, apesar dos esforços, muito conteúdo deve ficar de fora de sua cobertura por causa dessas limitações.

Com informações: Financial Times.

Leia | Como ver tweets apagados usando o Internet Archive

Relacionados

Escrito por

Emerson Alecrim

Emerson Alecrim

Repórter

Emerson Alecrim cobre tecnologia desde 2001 e entrou para o Tecnoblog em 2013, se especializando na cobertura de temas como hardware, sistemas operacionais e negócios. Formado em ciência da computação, seguiu carreira em comunicação, sempre mantendo a tecnologia como base. Em 2022, foi reconhecido no Prêmio ESET de Segurança em Informação. Em 2023, foi reconhecido no Prêmio Especialistas, em eletroeletrônicos. Participa do Tecnocast, já passou pelo TechTudo e mantém o site Infowester.