Robots.txt ile arama motorlarını siz yönetin!

Robots.txt dosyasının sitelerimizde kullanımı her nekadar birçoğumuz tarafından es geçilsede, sayfalarınızın indexlenme hızını artırma ve arama motorlarıyla barışık siteler geliştirme yönündeki faydası küçümsenemeyecek kadar fazladır.

robots.txt dosyasının kullanımı hakkında bilgi sahibi olmayan arkadaşlarım için bir makale hazırlamak istedim.

Bot (örümcek) nedir? Robots.txt dosyası nedir?

Bot tanım olarak bilgisayarda belirli işleri kendiliğinden yapmaya programlanmış yazılımlardır. Arama motoru botlarının amacı, üreticisi oldukları arama motorunun içeriğini (arama sonuçlarını) artırmak ve bu artırma da en kaliteli, özgün, değerli, içeriğine almaya değer siteleri bulmaktır. Arama motorlarında örümcek tabiri de bot kelimesi yerine kullanılabilir. Birçok arama motoru örümceği C/C++, Java, Perl, Delphi gibi popüler dillerde yazılırlar. Internette sürüsüne bereket örümcek vardır fakat birazdan öğreneceğiniz teknikleri en çok kullanılan Google, Yahoo, MSN, Bing gibi arama motorları üzerinde kullanmanız yeterli olacaktır. (Derlenmiş bir bot listesini http://www.robotstxt.org/db.html adresinde bulabilirsiniz)

Robots.txt dosyası ise, web sitemizde indexlenmesini (aramalarda çıkmasını) istemediğimiz sayfaları ve klasörleri belirterek arama motorlarına ve örümceklere yön vermemizi sağlar. Bu tanımı sebebiyle bu sistem Robots Exlude Protocol olarak bilinir.

Neden robots.txt kullanmalıyım?

Tanımda da belirttiğimiz gibi bu dosya sayesinde istemediğimiz içeriklerin arama motorları sonuçlarında çıkmasına engel olabiliriz. Örneğin sitenizin kötü ellere geçmesinden sakındığınız admin panelini arama motorlarının bilmesi gerekmez. Veyahut kişisel/özel resimlerinizi depoladığınız bir klasörü sizden başkasının görmesi hoşunuza gitmeyecektir. FTP alanınızda yarattığınız bir klasörde bazı yazılım testleri yapıyorsunuz ve davetsiz misafirleri bu alanda görmek istemiyorsunuz. Bunun gibi birçok sebepten, herzaman istediğimiz şey olan sitemizin arama motorlarında çıkması bazen beklenmedik sonuçlar doğurabilir.

Yinede robots.txt dosyasının garantili bir yöntem olmadığını bilmelisiniz. Google ve Yahoo gibi ünlü arama motorları sitenizi indexlemeden önce robots dosyanızı dikkate alırken, bu dosyayı dikkate almaması üzere tasarlanmış arama motorları da bulunur. O yüzden robots.txt dışında alınabilecek önlemleri de gözden geçirmenizde fayda var.

Robots.txt dosyasını nasıl yaratırım?

Arama motorları bu dosyayı sitenizin ana root dizininde arar. Örneğin sitenizin adresi google.com ise, bu dosyayı google.com/robots.txt şeklinde yerleştirmeniz gerekir.

Bu dosya içine yazacağımız bazı komutlar ile arama botlarına yön verebiliriz. İşte bilmeniz gereken komutlar:

  • User-agent: Bu tanımlamadan sonra gelecek yönlendirmeleri hangi botların dikkate almasını istiyorsunuz? Yıldız (*) değeri verildiğinde tüm botların dikkate almasını istemiş olursunuz. Fakat amacınız sadece Google botuyla muhatap olmaksa “Googlebot” yazın.
  • Disallow: Bu ayar üzerinden verdiğiniz klasörler arama motorları tarafından indexlenmez. None değerini verdiğinizde herhangi bir işlem yapılmaz, yani tüm içeriğiniz indexlenir. Herhangi bir klasör veya dosya adı yazdığınızda, botlar bunları indexlemeyecektir.

User-agent: *
Disallow: /admin/
Disallow: /fotograflarim/
Disallow: /images/ozel/
Disallow: /sifreler.txt

  • Allow: Bu parametre Disallow’un zıttı şekilde çalışır. Hangi klasör veya dosyalarınızın indexlenme işlemine onay veriyorsanız yazabilirsiniz. Saklayacak birşeyim yok yiğidin malı meydandadır diyorsanız, yıldız (*) değerini vererek sitenizin tüm noktalarına erişime izin verin

Allow: /forum/
Allow: /dokumanlar/

  • Request-rate: Sayfalarınızın indexlenme aralığı. sayfa/saniye formatında girmelisiniz. Örneğin 1/20 yazdığınızda 20 saniyede 1 sayfa anlamına gelir.

Request-rate: 1/15

  • Crawl-delay: Her başarılı indexleme (sayfa bazında) sonrasında beklenmesini istediğiniz süre (saniye cinsinden).

Crawl-delay: 30

  • Visit-time: Arama botlarına ait örümceklerin sitenize hangi saatlerde gelmesini istiyorsunuz? Örneğin siteniz öğlen 12:00 ile akşam 18:00 arasında yeni içerik alıyor ise botların bu sürelerde sitenizde dolaşması yararınıza olabilir. Tüm gün dolaşması halinde, sitenizin güncellenmeyen diğer saatlerinde gereksiz yere gelecektir ve bir süre sonra siteniz az güncellenen bir görüntü çizdiği için yavaş indexlenmeye başlayacaktır. 12:00 ve 18:00 saatleri arasında gelmesi için 1200-1800 değerini yazmalısınız.
  • Sitemap: Bu değere sitenizin sitemap URL adresini verebilirsiniz. Böylece botlar sitemap adresinizi kolayca tespit eder ve indexleme işleminde kullanır. Birden fazla tanımlama yapılabilir.

Sitemap: http://www.adresim.com/sitemap.xml
Sitemap: http://www.adresim.com/sitemap_eski.xml
Sitemap: http://www.adresim.com/forum/sitemap_forum.xml

Dosya genelinde wildcard (*) kullanarak pratik çözümler üretebilirsiniz.

Disallow: *.doc$
Disallow: /ogrenci/*/sorular/*
Allow: /ogrenci/calisma_sorulari/*

İlgili Konular

Yorum Yap

Boş Geçilmez
Boş Geçilmez
Boş Geçilmez

0 Yorum