E-Siber.com
M. Mekin Pesen
Sitede 1774 okunmaya değer yazı var.

Ýnternetin Ne Kadarý Arþivlenmiþ Olabilir?

Web'in aynen müzeler ve kütüphanelerde olduðu gibi eski eserlerin gelecek nesillere aktarýlabilmesi adýna arþivlendiði ve saklandýðý çok korunaklý bir ortam olmadýðý ve birçok verinin de zamanla bu muazzam geniþlikteki dijital evrende kaybolmaya yüz tuttuðu aþikar. Ýþte bu yüzden çok uzun bir zamandýr baþta Internet Archive ve Archive-It gibi kâr amacý gütmeyen internet arþivleri olmak üzere Google, Yahoo ve Bing gibi arama motorlarý internette deðdikleri her þeyi arþivliyorlar. Peki bu kadar çalýþmaya göre þimdiye kadar internetin kaçta kaçý arþivlenmiþtir? Bu arþivlerde hiç mi birbirinin kopyasý veriler barýndýrýlmýyor?

 

Old Dominion Üniversitesinden bir grup araþtýrmacýya göre farklý çevrimiçi arþiv kaynaklarýnda ne kadar ve ne þekillerde verilerin arþivlendiði tamamen neyi aradýðýnýza baðlý olarak deðiþen birþey. Çünkü arþivler çok uzun zamandýr var ve her birindeki veri miktarý inanýlmaz boyutlara ulaþmýþ durumda. Tek sorun farklý kaynaklardaki verilerin ne kadarýnýn birbirinin kopyasý olduðudur. Ayrýca araþtýrmacýlara göre internetteki her þeyi indekslemek kesinlikle mümkün gözükmüyor.

Araþtýrmacýlar da DMOZ, Delicious, Bitly, Google, Bing ve Yahoo'dan 1000 tane URI (URL+URN) adresini örneklem olarak seçip, bunlarýn Web arþivlerinde ne oranda kopyalarýnýn olduðunu gösteren istatistiksel bir yaklaþým kullandýlar. Araþtýrmacýlar adreslerin Web arþivlerindeki zamana baðlý farklý kayýtlarýný incelemek için Memento adlý ilginç bir uygulamadan faydalanmýþlar. Bu uygulama özellikle Internet Archive, Archive-It ve The National Archives'te farklý tarihli ama ayný URI'ye ait kayýtlarý incelemek için kullanýlmýþ.

 

Araþtýrmada kullanýlan web arþivleri:

1. Internet Archive - http://www.archive.org
2. Google - http://www.google.com
3. Yahoo - http://www.yahoo.com
4. Bing - http://www.bing.com
5. Archive-It - http://archive-it.org
6. The National Archives - http://nationalarchives.gov.uk
7. National Archives and Records Administration - http://www.archive.gov
8. Ýngiltere Web Arþivi - http://www.webarchive.org.uk
9. Web Cite - http://www.webcitation.org
10. ArchiefWeb - http://archiefweb.eu
11. California Dijital Kütüphanesi - http://webarchives.cdlib.org
12. Diigo (Furl) - http://www.diigo.com

Araþtýrmacýlar her bir URI için arþivlenmiþ olan adreslerin yüzdesini, kaç kez arþivlendiðini ve arþivlerde ne kadar geriye gittiðini ayrý ayrý hesaplamýþlar. Araþtýrmanýn sonuçlarý bazý ilginç farklýlýklar sergiliyor.

Buna göre Internet Archive hali hazýrda Web'deki en derinlikli ve detaylý arþiv konumuda. Arama motorlarý da her sayfanýn önbelliðini tutarken, yalnýzca 1 aylýk geçmiþ görünümleri göstermekteler. DMOZ ve Delicious'tan alýnan adresler özellikle yakýn geçmiþin arþivlenmesinde nispeten daha iyi bir arþiv sunarken, arama motorlarý ise bunun %90'ýný ancak indekslemiþ oluyor.

Arama motorlarý ve Bitly gibi kaynaklardan alýnan adresler ve arþivlerde ise pek de iyi bir arþivleme söz konusu olmuyor. Bunun en temel sebebi ise, DMOZ ve Delicious gibi kaynaklar organik yani insan eliyle indeksleme yaparken, arama motorlarý ve sosyal imleme sitelerinin bu iþi otomatik olarak yani algoritmalar yoluyla gerçekleþtirmesidir.

 

Araþtýrmanýn en genel sonuçlarýna göre Web'in:

  • %35-%90 arasýnda deðiþen bir kýsmýnýn en az bir adet,
  • %17-%49 arasýnda bir kýsmýnýn 2-5 adet,
  • %1-%8 arasýnda bir kýsmýnýn 6-10 adet,
  • ve %8-%63 arasýnda bir kýsmýnýn da 10 adet

arþiv kopyasý internet arþivlerinde bulunuyor...

 

Meraklýlarýna iletiþime geçmeleri halinde ilgili araþtýrmaya yollayabiliriz. Ayrýca konuyla ilgili olarak diðer yazýlarý da inceleyebilirsiniz:


· · · · · ·
Yazan: | 03.01.2013 | 3082 kez okundu.

Yazılar E-Posta Kutunuza Gelsin:

Bu yazıyı izinsiz olarak alıp başka herhangi bir yerde yayınlayamazsınız (Bkz "dijital at hırsızı" kimdir?). Yazıların başka yerlerde yayınlanmasına ücreti mukabili izin veriyoruz. Yazıları izinsiz olarak başka bir yerde yayınlamanız, her türlü hukuki sonucu kabul ettiğiniz manasına gelir. Yazıları izin almak ve kaynak göstermek kaydıyla sadece kamu kurumları ve akademik araştırmacılar ücretsiz olarak kullanabilir. Bunların dışında kalan herkes ücret öder. Detaylar için bize ulaşın.

Yorum altyapısı: Disqus

Yukarı Çık

M. MEKİN PESEN
© 2007-2015 E-SİBER BİLGİ-İLETİŞİM TEKNOLOJİLERİ
E-Siber.com | E-Siber.net | ESiber.com | ESiber.net | RSS | Facebook | Twitter | E-Posta Aboneliği
IP: 54.224.203.224 | Yüklenme: 0.432 saniye. | Hakkımızda | İletişim | Reklam Verin | Site Politikaları | Atıflar