Che cos’è Archive.org? Informazioni sull’archivio digitale online di pagine web più grande del mondo

internetarchive

Archive.org è, a tutti gli effetti, una biblioteca online creata dalla Internet Archive di San Francisco nel 1996 con lo scopo di fornire un accesso universale alla conoscenza; questa organizzazione no profit raccoglie opere pubblicate per metterle a disposizione in formato a chiunque nel mondo abbia un accesso a Internet.

Per molti è famosa soprattutto per aver iniziato a salvare il contenuto pubblicato su siti web allo scopo di creare un enorme archivio che conta ad oggi, dopo 21 anni di attività, qualcosa come più di 305 miliardi di pagine internet rintracciabili utilizzando, nel motore di ricerca, il nome del dominio del sito per il quale siamo interessati a vedere i cambiamenti nel tempo.

Per semplificare, indicizza i siti come Google e gli archivia per data sul calendario.
Al contrario di Google, le pagine salvate risiedono sui server di Archive.org che ne restituiscono la copia fedele di come si presentavano quando sono state archiviate; per un lavoro simile è necessario uno spazio d’immagazzinamento impressionate il quale, considerando tutte le altre tipologie di risorse presenti, supera i 30 Petabytes di spazio web sul server per copia (salvano due copie di ogni pagina…).

Nei momenti di nostalgia, lo utilizzo per ricordarmi l’aspetto grafico dei miei siti e portali agli inizi per poi vedere come il web design si sia evoluto col tempolibri digitalizza.

Homepage del prototipo di Google l’11 novembre 1998

Oltre alle pagine web, l’archivio è cresciuto anche grazie ad altre opere messe a disposizione in digitale e la possibilità per ogni utente di caricare i propri media:
11 milioni di libri e testi
4 milioni di registrazioni audio (di cui 160.000 concerti dal vivo)
3 milioni di video (compresi 1 milione di programmi televisivi)
1 milione di immagini
100.000 programmi software

Proprio perché si definiscono una biblioteca, Archive.org presta particolare attenzione ai libri digitalizzati grazie all’impegno continuo da parte delle 28 sedi sparse nel mondo di scansionare più di 1000 libri ogni giorno; i libri pubblicati prima del 1923 sono disponibili per il download e centinaia di migliaia di libri moderni possono essere presi in prestito attraverso il sito Open Library mentre altri sono disponibili con la funzione stampa disabilitata.

Alcuni lamentano che effettuare il download e mantenere una copia del proprio sito a disposizione di tutti sarebbe contro la privacy, in realtà anche Google opera in maniera simile e, come per i motori di ricerca, è possibile evitare l’inclusione nell’archivio aggiungendo una semplice regola di esclusione di Archive.org al file robots.txt.

Archive.org viene consultato quotidianamente da milioni di navigatori e risulta essere uno dei primi 300 siti web del mondo.

Lorenzo Tomada
Lorenzo Tomada
Un blog personale attraverso il quale condividere esperienze, consigli, trucchi, idee e tutto quello che ritengo utile ed interessante.

1 Commento

  • Una garanzia! Era uno dei miei passatempi preferiti il cercare le versioni dei siti famosi agli albori per vedere come hanno incominciato!

Commenta questo articolo