E-Siber.com
M. Mekin Pesen
Sitede 1775 okunmaya değer yazı var.

Google'ýn Arama Endekslerini Herkese Açmasý ve Googlebot Bant Geniþliði Tüketimi Problemi

google-iyi-kotu-savasiÝnternetteki trafiðin neredeyse yarýsýný tek baþýna Google'ýn yani interneti sürekli bir þekilde indekslemek için kullandýðý tarama robotlarýnýn (Googlebot) tükettiðini biliyor muydunuz? Web sitelerinin trafik istatistikleri incelendiðinde Googlebot ve diðer tarama robotlarýnýn çok önemli miktarlarda band geniþliðini tek baþýna yuttuðu görülüyor.

 

Google'ýn tüm interneti diðer arama motorlarýndan (Yahoo ve Bing gibi) daha fazla  indekslemek için canhýraþane çabaladýðýný ve internetteki her siteye ulaþamaya çalýþtýðýný düþündüðünüzde; her sitenin band geniþliðini, server (sunucu) kaynaklarýný ve performansýný gayet orantýsal bir þekilde etkileyeceðini görebilirsiniz.

Özellikle video sitelerinin sürekli olarak indekslenmesi korkunç miktarlarda trafiðin sadece indekslenmeye gittiði gösteriyor. Yani Googlebot ayrý, Yahoo ayrý, Msn ayrý; kýsacasý bütün arama motorlarý kendi dizinleri için siteleri baðýmsýz bir þekilde tarayýp indeksleyerek ayný site üzerinde muazzam kaynak ve band geniþliði tüketimine neden olurlar.

Netice olarak baþta video siteleri olmak üzere tüm sitelerin trafiklerinin %50'si Googlebots, Msnbot ve Yahoo bot gibi tarama örümcekleri tarafýndan doðrudan çöpe gidiyor. Sadece bununla da kalmýyor, sunucular (server) daha çok yoruluyor, sitelerin performansý göreceli olarak etkileniyor, internetin hýzýnda genel anlamda sürekli bir yarý yarýya performans düþüklüðü görülüyor ve daha çok enerji tüketimine neden olunuyor.

 

google-arama

© CEM KIZILTUÐ

 

Peki interneti diðer tarama robotlarýndan daha çok ve iyi tarayan Google, bu tarama endeksini diðer arama motorlarýnýn da kullanýmýna açsa ve diðer motorlar indekslemelerini buradan gerçekleþtirse nasýl olurdu?


Aslýnda bu fikir silikon vadisini yakýndan takip eden ve bir teknoloji yazarý Tom Foremski tarafýndan geçen senenin sonlarýnda dile getirilmiþti. Hem de bu fikrini Google Brezilya Mühendislik Baþkaný olan Berthier Ribeiro-Neto'ya açtýðýnda çok ilginç bulunmuþtu.

Eðer Google böyle bir hamle yapsa, diðer arama motorlarý kendileri interneti indekslemeyi býrakýp Google'dan veri çekmeye baþlarlar mý bilinmez ama bu fikir hayata geçtiðinde, hiçbir altyapý ve teknik yatýrýma gerek kalmadan bir anda internetin genel manada hýzý ve performansýnýn en az 2 katýna çýkacaðý aþikardýr.

 

Fakat yazarýn bu fikrini serdederken farkýna varmadýðý ya da dikkatini çekmeyen çok önemli bir husus vardý. Google'ýn endekslerini diðer arama motorlarýna açtýðýný düþünelim. Ýlk baþlarda kendi politikalarýndan taviz vermeyen motorlarýn belli bir süre sonra bu imkandan faydalanmayacaðýný çok net bir biçimde söyleyemeyiz. Zamanla Google'ýn endekslerine baðýmlý hale gelen diðer arama motorlarý yüzünden, koskaca internette bir Google filtresi ile karþý karþýya kalabileceðiz.

Ayrýca bu basit fikirle interneti kendi tekeli etrafýna toplayýp belki de bir tröst haline gelebilecek olan Google, arama sonuçlarýný kendi isteðine göre derleyip, istemediklerini aradan çýkartmayacaðýný hiçkimse garanti edemez. Zira daha yakýn bir zamanda kendi algoritmasýnda yaptýðý Panda güncellemesi neticesinde birçok popüler site arama sonuçlarýnda çok arka sayfalara çaktýrmadan düþmüþtü! Hem de bu sorun hala devam etiyor. Hatta Avrupa'da bazý þirketler, Google'ýn yaptýðý son güncellemeden sonra kendi sitelerinin neredeyse sonuçlar arasýndan çýkartýldýðýný görünce büyük davalar açmýþtý.

Fikir güzeldi ama üzerinden neredeyse 1 sene geçmesine raðmen ne Google'dan bu konuda bir ses var ne de diðer arama motorlarý kendi sistemleri üzerinden interneti indekslemekten vazgeçmiþ durumda...

 

Peki Googlebot'un büyük oranlarda band geniþliði tüketiminin önüne nasýl geçeriz?

Google tarama robotlarý, sitelerin kodlamasýnda yapýlan birçok hatadan ötürü, ilgili siteleri daha çok tarayarak band geniþliðini tüketebilmektedir. Google da bu sorunu çözmek için sitelerin almasý gereken önlemlerle ilgili önceden bir yardým sayfasýný hazýrlamýþtý. Bu sayfadaki önerileri uygulayarak Googlebot'unun gereksiz yere trafiðinizi tüketmesini engelleyebilirsiniz:

Bu sorunun en bilinen nedenleri

  • URL'de sorunlu parametreler - Örneðin, oturum kimlikleri veya sýralama yöntemleri büyük miktarda yineleme ve daha çok sayýda URL oluþturabilir. Benzer bir þekilde, dinamik olarak oluþturulmuþ bir takvim, baþlangýç veya bitiþ tarihlerine iliþkin herhangi bir sýnýrlama olmaksýzýn, gelecekteki veya geçmiþteki tarihlere yönelik baðlantýlar oluþturabilir.
  • Bir öðe kümesinin ek filtrelemesi - Birçok site, ayný öðe kümesinin veya arama sonuçlarýnýn farklý görünümlerini saðlar. Filtrelerin birleþtirilmesi (örneðin, sahildeki otelleri göster, köpeðe izin verilen AND fitness merkezi olan), çoðunlukla yedek olan çok büyük sayýda URL'yi döndürebilir.
  • Sayaçlarýn, zaman damgalarýnýn ve reklamlarýn sonucunda belgelerin dinamik bir þekilde oluþturulmasý.
  • Çalýþmayan göreli baðlantýlar - Çalýþmayan göreli baðlantýlar çoðu zaman sonsuz boþluklara neden olabilir. Bu sorun çoðunlukla, yinelenen yol öðelerinden kaynaklanýr.

 

Bu sorunu çözmek için uygulanmasý gereken adýmlar

URL yapýsýna iliþkin olasý sorunlardan kaçýnmak için:

  • Mümkün olan her durumda, gereksiz parametreleri çýkararak URL’leri kýsaltmaya özen gösterin. Google'ýn güvenli bir þekilde yok sayabileceði URL parametrelerini belirtmek için Parametre Kullanýmý aracýndan yararlanýn. Tüm dahili baðlantýlar için bu açýk URL'leri kullandýðýnýzdan emin olun. Gereksiz þekilde uzun URL'leri daha açýk sürümlerine yeniden yönlendirmeyi veya tercih edilen, daha kýsa standart URL'yi belirtmek için rel="canonical" baðlantý öðesini kullanmayý düþünün.
  • URL’lerde mümkün olduðunca oturum kimliði kullanmamaya çalýþýn. Oturum kimliði yerine çerez kullanmayý tercih edin. Ek bilgi için Web Yöneticisi Kurallarýný inceleyin.
  • Siteniz sonsuz bir takvim içeriyorsa, dinamik olarak oluþturulan gelecekteki takvim sayfalarýna götüren baðlantýlara nofollow özniteliðini ekleyin.
  • Sitenizde çalýþmayan göreli baðlantý olup olmadýðýný kontrol edin.
  • Yukarýdakilerin hiçbiri mümkün deðilse, Googlebot'un sorunlu URL'lere eriþimini engellemek için bir robots.txt dosyasý kullanmayý düþünün. Arama sonucu üreten URL’ler gibi dinamik URL’leri veya takvimler gibi sonsuz boþluklar oluþturabilecek URL’leri engellemeyi düþünmeniz gerekir. Robots.txt dosyanýzda joker karakterler kullanmak, çok sayýda URL’yi kolaylýkla engellemenizi saðlayabilir.

 

Referanslar


· · · · · · · · · · · · · · ·
Yazan: | 30.05.2011 | 2798 kez okundu.

Yazılar E-Posta Kutunuza Gelsin:

Bu yazıyı izinsiz olarak alıp başka herhangi bir yerde yayınlayamazsınız (Bkz "dijital at hırsızı" kimdir?). Yazıların başka yerlerde yayınlanmasına ücreti mukabili izin veriyoruz. Yazıları izinsiz olarak başka bir yerde yayınlamanız, her türlü hukuki sonucu kabul ettiğiniz manasına gelir. Yazıları izin almak ve kaynak göstermek kaydıyla sadece kamu kurumları ve akademik araştırmacılar ücretsiz olarak kullanabilir. Bunların dışında kalan herkes ücret öder. Detaylar için bize ulaşın.

Yorum altyapısı: Disqus

Yukarı Çık

M. MEKİN PESEN
© 2007-2015 E-SİBER BİLGİ-İLETİŞİM TEKNOLOJİLERİ
E-Siber.com | E-Siber.net | ESiber.com | ESiber.net | RSS | Facebook | Twitter | E-Posta Aboneliği
IP: 54.211.225.175 | Yüklenme: 0.513 saniye. | Hakkımızda | İletişim | Reklam Verin | Site Politikaları | Atıflar