Robots.txt Dosyasının Önemi ve Robots.txt Düzenleme

Sitenin ana dizininde bulunan ve ismi değiştirildiğinde işlevini kaybeden dosyadır. Robots.txt uzantısından da belli olduğu gibi bir metin belgesidir. Bu küçük metin belgesi arama motoru optimizasyonunda yani seo da önemli bir yere sahiptir. Çünkü arama motoru botları sizi kendi dizinlerinde adreslemek için ilk önce “robots.txt” dosyasından izin alır. Kısacası robots.txt, arama motoru botlarının sizin sitenizde ulaşacağı ve ulaşamayacağı yerleri gösteren dosyadır.

Standart bir robots.txt dosyasında en fazla 3 satır olur.  Ama belli başlı nedenlerden dolayı robots.txt yi düzenlemek isteyebilirsiniz. Böyle durumlarda ekleyeceğiniz ve kullanılan standart terimler vardır. Bu kelimeler sayesinde botların siteye erişimini düzenleyebilirsiniz.

Botların siteye erişimini neden düzenleyeyim ki şeklinde soruları duyar gibiyim. Bunun bir çok sebebi olabilir. Örneğin siteniz yapım aşamasında olabilir ve bu “yapım aşaması” sayfasının  aramam motorları dizininde bulunmasını istemeyebilirsiniz.  Hata sayfaları ve yönlendirilmiş sayfalara sahip olabilirsiniz. Bunların web dizininde yer alması sitenizin optimizasyonu açısından size zarar verebilir. Siteniz içerisinde görünmesini istemediğiniz ve sadece belli başlı kişilerin görebileceği içeriklerin arama motorları botlarınca okunmasını engelleyebilirsiniz. Site imajınızı zedeleyecek ve tutmak zorunda olduğunuz geçici alakasız sayfaların görünmemesini isteyebilirsiniz. Bunlar arasında en önemli nedenlerden biri olan arama motorları botlarının dışında kalan zararlı botları engellemek robots.txt sayesinde yapılabilecek şeylerden biri. Site mimariniz farklı ise ve kullandığınız site haritası ana dizin dışında bir yerdeyse robots.txt site haritası adresi için botları uyarabilir.

 

Robots.txt dosyasını nasıl düzenleyebilirim?

Yukarıda da belirttiğim gibi standart bir robots.txt dosyası aşağıdaki gibidir; (http://blog.polatiyem.com/robots.txt)

 

User-agent: *

Disallow:

 

Sitemap: http://blog.polatiyem.com/sitemap.xml.gz

 

Yukarıda gördüğünüz komutun anlamı “Bütün botlara izin ver, bütün içerik okunabilir” anlamına gelmektedir.

“User-agent” kısmı bot isimlerini temsil eder, her botun kendine özgü bir ismi mevcuttur. Örneğin en çok gördüğümüz ve daha fazla görmek istediğimiz Google Bot’unun son ismi “Googlebot/2.1” dir

“Disallow” kısmı engellenecek ya da engellenmemiş içeriği belirtir. Yukarıdaki örnekte gördüğünüz gibi karşısı tamamen boş. Bu bütün içeriğe izin ver anlamına gelmektedir. Disallow kelime anlamı olarak “izin vermemek” anlamına geliyor. Disallow un karşısına yazacağınız herhangi bir içerik adresi botlar tarafından okunmayacaktır.

“Sitemap” kısmı karşısında yazan bölüm site haritasının yolunu tarif eder. Bunu yapmak zorunda değilsiniz. Fakat oluşturduğunuz sitemap.xml veya sitemap.xml.gz dosyası adreslemesi farklıysa bunu robots.txt dosyasında belirmenizde fayda var.

“*” (yıldız) anlamı isim belirtilmediğinde gösterilir. Bu sadece internet dünyasında değil bilgisayar dünyasında da böyledir. Örneğin bilgisayar içerisinde bir aratma yapmak istediğinizde ve dosyanın sadece birkaç harfini hatırladığınızda kullanabilirsiniz. po*.* şeklinde aratmaya başladığınızda bilgisayar size uzantı farkı gözetmeksizin “po” harfleriyle başlayan bütün dosyaları getirecektir. Kısacası “*” “bütün” anlamına gelmektedir.

 

User-agent: *

Disallow: /

 

Yukarıdaki örnekte robots.txt dosyası botlara “bütün botlara bütün içerik kapalıdır” demek istiyor. User-agent kısmının karşısında bütün botları temsil eden * işareti ve disallow un karşısında site adresiniz ve site adresinizden sonra gelen tüm içeriğin kapatıldığını gösteren “/” işareti mevcuttur.

 

Buraya kadar anladığınız gibi user-agent karşısına yazacağımız herhangi bot ile disallow karşısına yazacağımız herhangi bir içeriği engelleyebiliriz. Örnek vermek gerekirse;

 

User-agent: Googlebot-image

Disallow: /

 

şeklinde bir robots.txt ye sahipseniz bu “google resim botunun siteniz içerisinde bulunan hiç bir resimi kendi dizinine eklemesine izin yok” anlamına gelmektedir.

 

Son olarak bir içeriği nasıl engelleyeceğinizi göstermek için aşağıdaki örneğe bakınız.

 

User-agent: *

Disallow: /engellemek-istedigim-icerik.php

Disallow: /engellemek-istedigim-dizin/

Disallow: /engellemek-istedigim-dizinin-adi/engellemek-istedigim-sayfa.php/

Disallow: /404-hata-sayfamin-ismi.html

 

Yukarıdaki örnekte gördüğünüz gibi engellemek istediğiniz her içerik ya da dizin için 1 satır kullanmak zorundasınız. Unutmayın, botlar her zaman ilk robots.txt dosyasını ziyaret ederler. Aldıkları izinler ve kısıtlamalara göre siteniz içerisinde hareket ederler.

Yazar Hakkında

avatar Polat İyemRadyoloji Teknisyeni, İthalat ihracat Bölümü Mezunu, Web Development ve site yapılandırma ile ilgileniyor. An itibarı ile Freelancer. Şu hayatta uğraşmaktan en çok zevk aldığı şey SEO. Şu an için etrafındaki insanlara SEO Danışmanlığı yapıyor ve SEO konusunda gün geçtikçe kendini geliştirmeye çalışıyor. Twitter adresi: http://www.twitter.com/polatovski E-Posta adresi: bilgi@polatiyem.com

14 Yorum Robots.txt Dosyasının Önemi ve Robots.txt Düzenleme

  • avatar
    emre diyorki:

    Merhaba, robots.txt konusunda yardımınızı isteyecektim. yapmak istediğim şey şu.
    sadece googlenin botları hariç diğer tüm botlara siteye izin vermemek istiyorum. bunu nasıl yapabilirim?
    şimdiden teşekkürler.

    • avatar
      Polat diyorki:

      Merhaba, bilgi paylaştıkça çoğalır. Yardım etmek isterim tabi.
      Bahsettiğiniz durumu yukarıda anlattığım gibi bot isimlerini bildiğiniz sürece çözebilirsiniz. Yapmanız gereken tek şey Google botları hariç aklınıza gelen tüm botları user-agent karşısına yazıp disallow kısmının karşısına “/” eklemek olacak. Öncelikle izin vermek istediğiniz google botlarını yazmalısınız. Bunlar “googlebot, googlebot-image, googlebot-mobile” Örnek vermek gerekirse yapmanız gereken şey aşağıdaki gibi olmalı:

      User-agent: Googlebot
      Disallow:
      User-agent: googlebot-image
      Disallow:
      User-agent: googlebot-mobile
      Disallow:
      User-agent: MSNBot
      Disallow: /
      User-agent: yahoo-mmcrawler
      Disallow: /
      User-agent: Teoma
      Disallow: /
      User-agent: twiceler
      Disallow: /
      User-agent: Gigabot
      Disallow: /



      Sitemap: http://blog.polatiyem.com/sitemap.xml.gz

      Yukarıda gördüğünüz “MSNBot, yahoo-mmcrawler, Teoma, twiceler, Gigabot” botlarına içerik kapatılmış ve “googlebot, googlebot-image, googlebot-mobile” botlarına içerik açılmıştır. İçerik kapatılmış botları çoğaltabilirsiniz, böylece google botları hariç tüm diğer botları yazarsanız içeriğiniz sadece Google botlarına açık kalmış olacaktır. Şahsi fikrimi soracak olursanız bunu yapmamanız gerekiyor. İçeriğinizi tüm botlara açık tutmanız faydanıza olacaktır.

  • avatar
    tuncay diyorki:

    Teşekkürler faydalı oldu.

  • avatar
    abdullah güney diyorki:

    merhaba,

    öncelikle paylaştığın bilgi çok yararlı ve açıklayıcı buldum.
    Benim sorum daha önce robots dosyası oluşturdum ve şimdi güncelledim google bunu otomatık olarak okurmu yoksa site araçlarından birkaç ayar yapmak zorundamıyım?

    • avatar
      Polat diyorki:

      Merhaba, teşekkür ederim. Herhangi bir ayar yapmanıza gerek yok. “robots.txt” dosyası aynı yerde duruyorsa google bot ve diğer botlar gelip onu okur. Dosyadaki güncellemelerinizi onlara bildirmeniz gerekmez.

  • avatar
    blue livza diyorki:

    merhaba,biz sitemizi farklı bir alt yapıya taşıdık.Ve robot txt dosyası kendiliğinden mvcut.Seo çalışmalarına devam ettiğim halde sitenin bir türlü çok gelişme kaydetmemesi sonucu bi araştırma içine girdim.Ve anladığım kadarıyla kurulum aşamasında iken bütün botlara tüm içerik kapalı duruma getirilmiş ve öyle kalmış şuanda.Seo da ilerleme olmaması bu yüzden olabilir mi? bir de bize lazım olan en önemli google botları nelerdir?Hangilerine izin verilmeli?İzin verilen dosyalar seçilebilir mi ve nasıl yazılır?Yardımcı olursanız çok sevinicem şimdiden teşekkürler..

    • avatar
      Polat diyorki:

      – Merhaba, eğer sorununuzun sebebi kesinlikle robots.txt dosyası ise makalede anlattığım gibi robots.txt dosyasını tüm içeriğe ve botlara açıp web sayfanızı pingletiniz.

      – Lazım olan en önemli google botları diye bi ayrıma girmeyin. Google’ın Partner botu adsense kodlarınız yoksa zaten gelmez, diğer tüm google botlarına da içeriği açık tutmanız lazım.

      – İzin verilen dosyaları ve sayfaları seçebilirsiniz, bunun yapmanın yolu izin vermediğiniz dosyaları ve sayfaları robots.txt dosyasında tanıtmak olacaktır. Makalede bulunan son paragraflarda bunu nasıl yapabileceğinizi anlatmış bulunmaktayım.

  • avatar
    Ercan diyorki:

    Merhaba, bende wordpress sitemdeki bir sayfaya arama motorlarına indexlenmesini istemiyorum.

    Hangi kodu nereye eklemem gerekiyor.

    • avatar
      Polat diyorki:

      Merhaba, yazıda bulunan son paragraflardaki “Son olarak bir içeriği nasıl engelleyeceğinizi göstermek için aşağıdaki örneğe bakınız.” cümlesi altındaki örneklemeyi inceleyebilirsiniz.

  • avatar
    oyun diyorki:

    Bilgi için teşekkür ederim. Arşivime ekledim emeğinize sağlık.

  • avatar
    sophos Türkiye diyorki:

    User-agent: *
    Disallow:

    Hostname: http://blog.polatiyem.com
    Sitemap: http://blog.polatiyem.com/sitemap.xml.gz

    yukardaki şekilde eklemeniz de faydalı olacaktır.

  • avatar
    Esin kiper diyorki:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://www.guzelguzelsozler.net/sitemap.xml

    Benim ki böyle ve değiştiremiyorum nasıl değiştireceğimi bilemiyorum. Degistirmeye calısıyorum hep böyle kalıyor

    • avatar
      Polat diyorki:

      sitemap’inize ulaşılamıyor. Ne kullanıyorsunuz? WordPress tabanlı bir sayfanız mı var?

      – Eğer wordpress tabanlıysa hangi eklentiyi kullanarak sitemap.xml oluşturdunuz?
      – robots.txt dosyasını düzenleyip kaydedip tekrar göndermenize rağmen mi sıkıntı yaşıyorsunuz?

  • avatar
    esin kiper diyorki:

    Bir soru daha sorayım ssearch console da dizin durumunda robotlar tarafından engellenen 1300 ben bunu nasıl düzeltebilirim?

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir