E-Siber.com
M. Mekin Pesen
Sitede 1775 okunmaya değer yazı var.

İnternetin Ne Kadarı Arşivlenmiş Olabilir?

Web'in aynen müzeler ve kütüphanelerde olduğu gibi eski eserlerin gelecek nesillere aktarılabilmesi adına arşivlendiği ve saklandığı çok korunaklı bir ortam olmadığı ve birçok verinin de zamanla bu muazzam genişlikteki dijital evrende kaybolmaya yüz tuttuğu aşikar. İşte bu yüzden çok uzun bir zamandır başta Internet Archive ve Archive-It gibi kâr amacı gütmeyen internet arşivleri olmak üzere Google, Yahoo ve Bing gibi arama motorları internette değdikleri her şeyi arşivliyorlar. Peki bu kadar çalışmaya göre şimdiye kadar internetin kaçta kaçı arşivlenmiştir? Bu arşivlerde hiç mi birbirinin kopyası veriler barındırılmıyor?

 

Old Dominion Üniversitesinden bir grup araştırmacıya göre farklı çevrimiçi arşiv kaynaklarında ne kadar ve ne şekillerde verilerin arşivlendiği tamamen neyi aradığınıza bağlı olarak değişen birşey. Çünkü arşivler çok uzun zamandır var ve her birindeki veri miktarı inanılmaz boyutlara ulaşmış durumda. Tek sorun farklı kaynaklardaki verilerin ne kadarının birbirinin kopyası olduğudur. Ayrıca araştırmacılara göre internetteki her şeyi indekslemek kesinlikle mümkün gözükmüyor.

Araştırmacılar da DMOZ, Delicious, Bitly, Google, Bing ve Yahoo'dan 1000 tane URI (URL+URN) adresini örneklem olarak seçip, bunların Web arşivlerinde ne oranda kopyalarının olduğunu gösteren istatistiksel bir yaklaşım kullandılar. Araştırmacılar adreslerin Web arşivlerindeki zamana bağlı farklı kayıtlarını incelemek için Memento adlı ilginç bir uygulamadan faydalanmışlar. Bu uygulama özellikle Internet Archive, Archive-It ve The National Archives'te farklı tarihli ama aynı URI'ye ait kayıtları incelemek için kullanılmış.

 

Araştırmada kullanılan web arşivleri:

1. Internet Archive - http://www.archive.org
2. Google - http://www.google.com
3. Yahoo - http://www.yahoo.com
4. Bing - http://www.bing.com
5. Archive-It - http://archive-it.org
6. The National Archives - http://nationalarchives.gov.uk
7. National Archives and Records Administration - http://www.archive.gov
8. İngiltere Web Arşivi - http://www.webarchive.org.uk
9. Web Cite - http://www.webcitation.org
10. ArchiefWeb - http://archiefweb.eu
11. California Dijital Kütüphanesi - http://webarchives.cdlib.org
12. Diigo (Furl) - http://www.diigo.com

Araştırmacılar her bir URI için arşivlenmiş olan adreslerin yüzdesini, kaç kez arşivlendiğini ve arşivlerde ne kadar geriye gittiğini ayrı ayrı hesaplamışlar. Araştırmanın sonuçları bazı ilginç farklılıklar sergiliyor.

Buna göre Internet Archive hali hazırda Web'deki en derinlikli ve detaylı arşiv konumuda. Arama motorları da her sayfanın önbelliğini tutarken, yalnızca 1 aylık geçmiş görünümleri göstermekteler. DMOZ ve Delicious'tan alınan adresler özellikle yakın geçmişin arşivlenmesinde nispeten daha iyi bir arşiv sunarken, arama motorları ise bunun %90'ını ancak indekslemiş oluyor.

Arama motorları ve Bitly gibi kaynaklardan alınan adresler ve arşivlerde ise pek de iyi bir arşivleme söz konusu olmuyor. Bunun en temel sebebi ise, DMOZ ve Delicious gibi kaynaklar organik yani insan eliyle indeksleme yaparken, arama motorları ve sosyal imleme sitelerinin bu işi otomatik olarak yani algoritmalar yoluyla gerçekleştirmesidir.

 

Araştırmanın en genel sonuçlarına göre Web'in:

  • %35-%90 arasında değişen bir kısmının en az bir adet,
  • %17-%49 arasında bir kısmının 2-5 adet,
  • %1-%8 arasında bir kısmının 6-10 adet,
  • ve %8-%63 arasında bir kısmının da 10 adet

arşiv kopyası internet arşivlerinde bulunuyor...

 

Meraklılarına iletişime geçmeleri halinde ilgili araştırmaya yollayabiliriz. Ayrıca konuyla ilgili olarak diğer yazıları da inceleyebilirsiniz:


· · · · · ·
Yazan: | 03.01.2013 | 2482 kez okundu.

Yazılar E-Posta Kutunuza Gelsin:

Bu yazıyı izinsiz olarak alıp başka herhangi bir yerde yayınlayamazsınız (Bkz "dijital at hırsızı" kimdir?). Yazıların başka yerlerde yayınlanmasına ücreti mukabili izin veriyoruz. Yazıları izinsiz olarak başka bir yerde yayınlamanız, her türlü hukuki sonucu kabul ettiğiniz manasına gelir. Yazıları izin almak ve kaynak göstermek kaydıyla sadece kamu kurumları ve akademik araştırmacılar ücretsiz olarak kullanabilir. Bunların dışında kalan herkes ücret öder. Detaylar için bize ulaşın.

Yorum altyapısı: Disqus

Yukarı Çık

M. MEKİN PESEN
© 2007-2015 E-SİBER BİLGİ-İLETİŞİM TEKNOLOJİLERİ
E-Siber.com | E-Siber.net | ESiber.com | ESiber.net | RSS | Facebook | Twitter | E-Posta Aboneliği
IP: 54.163.209.109 | Yüklenme: 0.209 saniye. | Hakkımızda | İletişim | Reklam Verin | Site Politikaları | Atıflar