Preservação da Memória da Internet sob Ameaça: Como a Crise do Wayback Machine e o Medo da IA Podem Apagar a História Digital

Há três décadas, o portal archive.org tem sido o guardião incansável da memória da internet, com sua plataforma Wayback Machine contendo mais de um bilhão de sites arquivados. Esta ferramenta se tornou indispensável para jornalistas, pesquisadores, historiadores e juristas, permitindo o acesso a conteúdos originais de páginas que foram modificadas ou até mesmo excluídas.

No entanto, este projeto fundamental, gerenciado por uma entidade sem fins lucrativos de São Francisco, nos EUA, enfrenta agora uma crise existencial. A ameaça mais recente e significativa vem, ironicamente, dos próprios veículos de imprensa, que mais se beneficiam de seu serviço.

Um número crescente de empresas de comunicação está negando ao Internet Archive o acesso aos seus conteúdos, comprometendo seriamente a preservação da memória da internet, conforme informações divulgadas pela Deutsche Welle ao g1.

O Dilema dos Veículos de Comunicação e a Ascensão da IA

Pelo menos 241 portais de notícias em nove países já bloquearam o acesso da Wayback Machine aos seus conteúdos, segundo uma pesquisa da Nieman Foundation for Journalism, da Universidade de Harvard. Entre eles estão gigantes como o britânico The Guardian, o americano New York Times, o francês Le Monde e o USA Today, o maior conglomerado jornalístico dos Estados Unidos.

É notável que o próprio USA Today, que já utilizou a Wayback Machine para apurar reportagens, como a que revelou informações ocultadas pela polícia de imigração americana (ICE), agora adota uma política de bloqueio. Essa contradição expõe a complexidade do problema.

O principal motivo para os veículos de comunicação barrarem o acesso à ferramenta que eles próprios utilizam reside no temor de que empresas de inteligência artificial, como OpenAI ou Google, acessem os conteúdos jornalísticos arquivados para treinar seus modelos de linguagem, sem a devida autorização e sem qualquer pagamento.

Graham James, porta-voz do New York Times, foi enfático ao declarar: “O problema é que os conteúdos do New York Times no Internet Archive são utilizados pelas empresas de IA, que infringem direitos autorais para concorrer diretamente conosco”.

Dados revelam que, de fato, inúmeros robôs acessam o site archive.org para buscar conteúdos jornalísticos e utilizá-los no treinamento de modelos de IA, obtendo assim exatamente as informações que lhes são negadas. Mark Graham, diretor do Wayback Machine, afirmou à revista Wired que algumas empresas chegaram a realizar dezenas de milhares de solicitações por segundo, sobrecarregando temporariamente os servidores da plataforma.

A Missão de Acesso Universal em Xeque

O Internet Archive, uma organização sem fins lucrativos, se apresenta como uma entidade comprometida com a internet aberta. Sua filosofia é de acesso universal ao conhecimento, funcionando como uma biblioteca pública digital.

Seu lema reforça essa visão: “Exatamente como uma biblioteca clássica, oferecemos acesso gratuito a pesquisadores, historiadores, cientistas e pessoas com deficiência visual e ao público em geral. Nosso objetivo é possibilitar a todas as pessoas o acesso universal a todo o conhecimento”.

Essa postura de abertura, no entanto, impede o bloqueio de robôs e rastreadores, o que acabou por gerar as sanções impostas por grandes editoras e empresas de mídia. A Electronic Frontier Foundation (EFF), uma organização de direitos humanos focada em questões digitais, compara a atitude dos veículos de imprensa a uma situação em que “um jornal proibisse bibliotecas de manter cópias de seu periódico”.

O Risco de Perder a História Digital e o Jornalismo

Diante dessa situação alarmante, mais de 100 jornalistas assinaram uma petição em apoio ao Internet Archive. Em uma carta aberta, eles alertam para os riscos: “Em um cenário de mídia digital em que artigos desaparecem devido à perda de links, fusões de empresas ou cortes de custos, os jornalistas dependem frequentemente da Wayback Machine do Internet Archive para recuperar páginas que, de outra forma, estariam perdidas. Sem esse trabalho contínuo de preservação da internet, grande parte da história jornalística recente já teria se perdido.”

Mark Graham, do Internet Archive, mencionou à Wired que está em conversas com as empresas de jornalismo para tentar reaver o acesso, mas o desfecho ainda é incerto. “Não há dúvida de que o bloqueio crescente de grande parte da internet pública prejudica a capacidade da sociedade de compreender o que está acontecendo em nosso mundo”, confessou Graham, destacando a gravidade da situação.

Caminhos para a Preservação da Memória da Internet

Martin Fehrensen, repórter especializado em mídia e fundador do socialmedia watchblog.de, ressalta que o archive.org é o único registro funcional da web aberta. Caso a plataforma não consiga mais cumprir essa função, as consequências seriam severas, explicou ele à DW.

Ele detalha os impactos: “Milhões de trechos da Wikipedia perderiam a referência, pesquisas sobre a responsabilidade das plataformas, ou seja, quais termos de uso vigoravam em cada momento, quais regras de moderação foram reformuladas e de que maneira, se tornariam significativamente mais difíceis, e as evidências digitais com valor probatório judicial seriam perdidas”. Fehrensen acrescenta que, especialmente para os veículos jornalísticos, bloquear o arquivo seria totalmente absurdo.

Para resolver esse conflito, Fehrensen sugere duas abordagens. “Precisamos de um diálogo com os editores, com uma separação técnica clara entre o arquivamento e o treinamento de IA, pois esse é o verdadeiro conflito, não o arquivo em si”, explica o jornalista.

A médio prazo, ele defende a criação de um status jurídico especial para os arquivos da web. A longo prazo, o arquivamento da internet deve ser tratado como infraestrutura pública, e não como um projeto isolado de uma ONG em São Francisco, acrescenta. “O fato de que, em 2026, ele ainda dependa de uma única organização é a verdadeira falha estrutural”, conclui Fehrensen.

Esta não é a primeira vez que o Internet Archive enfrenta desafios existenciais. Em setembro de 2024, um ataque hacker resultou no roubo de 31 milhões de contas de usuário. No mesmo ano, a organização perdeu um processo de direitos autorais em um tribunal de apelação dos EUA, movido por editoras como Hachette e Penguin Random House, devido ao seu programa gratuito de empréstimo de e-books. Mais de 500 mil livros tiveram que ser removidos, e o archive.org ainda enfrenta pedidos de indenização milionários.

No entanto, em comparação com essas derrotas, a ameaça atual representada pelos bloqueios da mídia é estruturalmente mais grave, pois não pode ser resolvida por uma decisão judicial ou uma atualização tecnológica. Ela é o resultado de inúmeras decisões corporativas que, em conjunto, minam a essência da Wayback Machine: a documentação completa e acessível da internet pública, colocando em risco a preservação da memória da internet como a conhecemos.

Tags

Compartilhe esse post