E-Siber.com
M. Mekin Pesen
Sitede 1775 okunmaya değer yazı var.

5 Milyar Web Sayfasýnýn Tarandýðý Ortak Dizin

Common Crawl, 5 milyardan fazla web sayfasýný, PageRank deðerleri, baðlantý (link) grafikleri ve diðer meta verileriyle birlikte serbestçe eriþilebilir bir dizin (indeks) halinde tamamen ücretsiz olarak sunan açýk-kaynak bir ortak tarama veri tabanýdýr.

 

Herkesin kullanýmýna açýk olan Common Crawl, web ölçeðinde, milyarlarca doküman ve siteden oluþan bir ortak indekstir. Amazon EC2/S3 bulutunda API'ler aracýlýðý ile eriþimin mümkün kýlýndýðý devasa web indeksi onlarca terabyte ebatýnda veriyi araþtýrmacýlarýn, arama motorlarýnýn, kurumlarýn, sitelerin ve bireylerin kullanýmýna ücretsiz olarak sunuyor.

 

 

Aslýnda baðýmsýz bir vakýf teþebbüsü olarak ortaya çýkan Common Crawl Vakfý, yenilik, eðitim ve araþtýrma için yeni bir dalga ve Google'ýn kontrolünde olmayan bir veri kümesi oluþturmak gayesiyle 3 yýl önce kuruldu. Bilgiyi filtrelemeden ve tamamen ücretsiz olarak sunan Common Crawl belki de açýk web inisiyatifinin en çarpýcý örneklerinden biridir.

 

Adres: http://www.commoncrawl.org


· · · · · · · · · · · · · · ·
Yazan: | 09.11.2011 | 2445 kez okundu.

Yazılar E-Posta Kutunuza Gelsin:

Bu yazıyı izinsiz olarak alıp başka herhangi bir yerde yayınlayamazsınız (Bkz "dijital at hırsızı" kimdir?). Yazıların başka yerlerde yayınlanmasına ücreti mukabili izin veriyoruz. Yazıları izinsiz olarak başka bir yerde yayınlamanız, her türlü hukuki sonucu kabul ettiğiniz manasına gelir. Yazıları izin almak ve kaynak göstermek kaydıyla sadece kamu kurumları ve akademik araştırmacılar ücretsiz olarak kullanabilir. Bunların dışında kalan herkes ücret öder. Detaylar için bize ulaşın.

Yorum altyapısı: Disqus

Yukarı Çık

M. MEKİN PESEN
© 2007-2015 E-SİBER BİLGİ-İLETİŞİM TEKNOLOJİLERİ
E-Siber.com | E-Siber.net | ESiber.com | ESiber.net | RSS | Facebook | Twitter | E-Posta Aboneliği
IP: 54.92.175.204 | Yüklenme: 0.611 saniye. | Hakkımızda | İletişim | Reklam Verin | Site Politikaları | Atıflar