robots.txt nedir? Örneklerle Çivilemek İçin Yeni Başlayanlar Kılavuzu

Yayınlanan: 2022-03-29

Ahşap robot figürü çimenlerin üzerinde duruyor.
Ah, robots.txt — büyük sonuçları olan ufacık bir dosya. Bu, yanılmak istemeyeceğiniz teknik bir SEO unsurudur millet.

Bu yazıda, her web sitesinin neden bir robots.txt dosyasına ihtiyaç duyduğunu ve nasıl oluşturulacağını (SEO için sorun yaratmadan) anlatacağım. Sık sorulan SSS'leri yanıtlayacağım ve web siteniz için nasıl düzgün şekilde yürütüleceğine dair örnekler ekleyeceğim. Ayrıca size tüm ayrıntıları kapsayan indirilebilir bir kılavuz vereceğim.

İçindekiler:

robots.txt nedir?
robots.txt neden önemlidir?
Ancak robots.tx gerekli mi?
robots.txt ile hangi sorunlar ortaya çıkabilir?
robots.txt nasıl çalışır?
Hatasız bir robots.txt oluşturmaya yönelik ipuçları
robots.txt Test Aracı
Robotlar Dışlama Protokolü Kılavuzu (ücretsiz indirme)

robots.txt nedir?

Robots.txt, web sitesi yayıncılarının oluşturup web sitelerinin köküne kaydettiği bir metin dosyasıdır. Amacı, arama motoru botları gibi otomatik web tarayıcılarına web sitesinde hangi sayfaların taranmayacağını söylemektir. Bu aynı zamanda robot dışlama protokolü olarak da bilinir.

Robots.txt, hariç tutulan URL'lerin arama için dizine eklenmeyeceğini garanti etmez. Bunun nedeni, arama motoru örümceklerinin, bu sayfaların var olduğunu, kendilerine bağlanan diğer web sayfaları aracılığıyla bulabilmeleridir. Veya sayfalar hala geçmişten dizine eklenmiş olabilir (daha fazlası için).

Robots.txt ayrıca, gönüllü bir sistem olduğundan, bir botun hariç tutulan bir sayfayı taramayacağını kesinlikle garanti etmez. Büyük arama motoru botlarının direktiflerinize uymaması nadir olurdu. Ancak spam robotları, kötü amaçlı yazılımlar ve casus yazılımlar gibi kötü web robotları olan diğerleri genellikle emirlere uymaz.

Robots.txt dosyasının herkese açık olduğunu unutmayın. /robots.txt dosyasını bir alan URL'sinin sonuna ekleyerek onun robots.txt dosyasını (buradaki bizimki gibi) ekleyebilirsiniz. Bu nedenle, iş açısından kritik bilgiler içerebilecek dosya veya klasörleri dahil etmeyin. Özel veya hassas verileri arama motorlarından korumak için robots.txt dosyasına güvenmeyin.

Tamam, bu uyarılar aradan çekilince, devam edelim…

robots.txt Neden Önemli?

Arama motoru botları, web sayfalarını tarama ve dizine ekleme yönergesine sahiptir. Bir robots.txt dosyasıyla sayfaları, dizinleri veya tüm siteyi taranmaktan seçerek hariç tutabilirsiniz.

Bu, birçok farklı durumda kullanışlı olabilir. Robots.txt dosyanızı kullanmak isteyeceğiniz bazı durumlar şunlardır:

Taranmaması/dizine eklenmemesi gereken belirli sayfaları veya dosyaları engellemek (önemsiz veya benzer sayfalar gibi)
Güncellerken web sitesinin belirli bölümlerini taramayı durdurmak için
Arama motorlarına site haritanızın yerini söylemek için
Arama motorlarına sitedeki videolar, ses dosyaları, resimler, PDF'ler vb. gibi belirli dosyaları yok saymasını ve arama sonuçlarında görünmemesini söylemek
Sunucunuzun isteklerle boğulmamasını sağlamak için*

*Gereksiz taramayı engellemek için robots.txt kullanmak, sunucunuzdaki yükü azaltmanın ve botların iyi içeriğinizi daha verimli bir şekilde bulmasına yardımcı olmanın bir yoludur. Google burada kullanışlı bir grafik sağlar. Ayrıca Bing, çok fazla isteğin önlenmesine ve sunucunun aşırı yüklenmesinin önlenmesine yardımcı olabilecek tarama gecikme yönergesini destekler.

Tabii ki, robots.txt'nin birçok uygulaması var ve bu makalede bunlardan daha fazlasını anlatacağım.

Ancak robots.txt Gerekli mi?

Her web sitesinde, boş olsa bile bir robots.txt dosyası olmalıdır. Arama motoru botları web sitenize geldiğinde ilk aradıkları şey bir robots.txt dosyasıdır.

Hiçbiri yoksa, örümceklere 404 (bulunamadı) hatası sunulur. Google, robots.txt dosyası olmasa bile Googlebot'un devam edip siteyi tarayabileceğini söylese de, bir 404 hatası üretmektense bir botun istediği ilk dosyanın yüklenmesinin daha iyi olduğuna inanıyoruz.

robots.txt ile Hangi Sorunlar Oluşabilir?

Bu basit küçük dosya, dikkatli olmazsanız SEO için sorunlara neden olabilir. İşte dikkat etmeniz gereken birkaç durum.

1. Tüm sitenizi yanlışlıkla engellemek

Bu, düşündüğünüzden daha sık olur. Geliştiriciler, robots.txt dosyasını geliştirirken sitenin yeni veya yeniden tasarlanmış bir bölümünü gizlemek için kullanabilir, ancak başlattıktan sonra engellemeyi kaldırmayı unutur. Mevcut bir siteyse, bu hata arama motoru sıralamalarının aniden düşmesine neden olabilir.

Lansman için yeni bir site veya site bölümü hazırlarken taramayı kapatabilmek kullanışlıdır. Site yayına girdiğinde robots.txt dosyanızdaki bu komutu değiştirmeyi unutmayın.

2. Zaten dizine eklenmiş sayfaları hariç tutma

Dizine eklenen robots.txt sayfalarının engellenmesi, bunların Google dizininde takılıp kalmasına neden olur.

Zaten arama motorunun dizininde bulunan sayfaları hariç tutarsanız, orada kalırlar. Bunları dizinden gerçekten kaldırmak için, sayfaların kendilerine bir meta robots "noindex" etiketi ayarlamalı ve Google'ın bunu taramasına ve işlemesine izin vermelisiniz. Sayfalar dizinden çıkarıldıktan sonra, gelecekte Google'ın bunları istemesini önlemek için onları robots.tx'te engelleyin.

robots.txt Nasıl Çalışır?

Bir robots.txt dosyası oluşturmak için Notepad veya TextEdit gibi basit bir uygulama kullanabilirsiniz. Robots.txt dosya adıyla kaydedin ve web sitenizin kök dizinine www.domain.com/robots.txt olarak yükleyin —— örümceklerin onu arayacakları yer burasıdır.

Basit bir robots.txt dosyası şuna benzer:

Kullanıcı aracısı: *
İzin verme: /dizin-adı/

Google, robots.txt dosyası oluşturmaya ilişkin yardım dosyasında, robots.txt dosyasında bir gruptaki farklı satırların ne anlama geldiğine dair iyi bir açıklama sunar:

Her grup, her satırda bir yönerge olmak üzere birden çok kural veya yönergeden (talimatlar) oluşur.
Bir grup aşağıdaki bilgileri verir:
Grubun kime başvurduğu (kullanıcı aracısı)
Aracının hangi dizinlere veya dosyalara erişebileceği
Aracının erişemediği dizinler veya dosyalar

Bir robots.txt dosyasındaki farklı yönergeler hakkında daha fazla bilgi vereceğim.

Robots.txt Yönergeleri

robots.txt içinde kullanılan genel söz dizimi şunları içerir:

kullanıcı aracısı

Kullanıcı aracısı, komutları verdiğiniz botu ifade eder (örneğin, Googlebot veya Bingbot). Farklı kullanıcı aracıları için birden fazla yönergeniz olabilir. Ancak * karakterini kullandığınızda (önceki bölümde gösterildiği gibi), bu, tüm kullanıcı aracıları anlamına gelen her şeyi yakalama anlamına gelir. Burada kullanıcı aracılarının bir listesini görebilirsiniz.

izin verme

İzin Verme kuralı, Web robotlarının erişiminden hariç tutulacak klasörü, dosyayı ve hatta dizinin tamamını belirtir. Örnekler aşağıdakileri içerir:

Robotların tüm web sitesini örmesine izin verin:

Kullanıcı aracısı: *
İzin verme:

Tüm web sitesindeki tüm robotlara izin verme:

Kullanıcı aracısı: *
izin verme: /

“/myfolder/”daki tüm robotlara ve “myfolder”ın tüm alt dizinlerine izin verme:

Kullanıcı aracısı: *
İzin verme: /klasörüm/

Tüm robotların "dosyam.html" ile başlayan herhangi bir dosyaya erişmesine izin vermeyin:

Kullanıcı aracısı: *
İzin verme: /myfile.html

Googlebot'un "benim" ile başlayan dosya ve klasörlere erişmesine izin vermeyin:

Kullanıcı aracısı: googlebot
İzin verme: / benim

İzin vermek

Bu komut yalnızca Googlebot için geçerlidir ve üst dizine veya web sayfasına izin verilmese bile bir alt dizin klasörüne veya web sayfasına erişebileceğini söyler.

Aşağıdaki örneği alın: /scripts/klasöründen page.php dışında tüm robotlara izin vermeyin:

İzin verme: /scriptler/
İzin ver: /scripts/page.php

Tarama gecikmesi

Bu, botlara bir web sayfasını taramak için ne kadar bekleyeceklerini söyler. Web siteleri, sunucu bant genişliğini korumak için bunu kullanabilir. Googlebot bu komutu tanımıyor ve Google, Search Console aracılığıyla tarama hızını değiştirmenizi istiyor. Mümkünse Tarama gecikmesinden kaçının veya bir web sitesinin zamanında ve etkili bir şekilde taranmasını önemli ölçüde etkileyebileceğinden dikkatli kullanın.

site haritası

Arama motoru botlarına, XML site haritanızı robots.txt dosyanızda nerede bulabileceklerini söyleyin. Misal:

Kullanıcı aracısı: *
İzin verme: /dizin-adı/
Site Haritası: https://www.domain.com/sitemap.xml

XML site haritaları oluşturma hakkında daha fazla bilgi edinmek için şuna bakın: XML Site Haritası Nedir ve Nasıl Bir Site Haritası Yapabilirim?

Joker Karakterler

Robotları belirli URL türlerinin nasıl ele alınacağı konusunda yönlendirmeye yardımcı olabilecek iki karakter vardır:

Karakter. Daha önce de belirtildiği gibi, bir dizi kuralla birden çok robota direktifler uygulayabilir. Diğer kullanım, bu URL'lere izin vermemek için bir URL'deki bir dizi karakterle eşleştirmektir.

Örneğin, aşağıdaki kural, Googlebot'un "sayfa" içeren herhangi bir URL'ye erişmesine izin vermez:

Kullanıcı aracısı: googlebot
İzin verme: /*sayfa

$ karakteri. $, robotlara bir URL'nin sonundaki herhangi bir diziyle eşleşmesini söyler. Örneğin, web sitesindeki tüm PDF'lerin taranmasını engellemek isteyebilirsiniz:

Kullanıcı aracısı: *
İzin verme: /*.pdf$

$ ve * joker karakterlerini birleştirebileceğinizi ve bunların izin verme ve izin vermeme yönergeleri için birleştirilebileceğini unutmayın.

Örneğin, tüm asp dosyalarına izin verme:

Kullanıcı aracısı: *
İzin verme: /*asp$

Bu, sonu belirten $ nedeniyle sorgu dizeleri veya klasörleri olan dosyaları dışlamaz.
asp – /pretty-wasp öncesindeki joker karakter nedeniyle hariç tutuldu
asp – /login.asp öncesindeki joker karakter nedeniyle hariç tutuldu
$ ve sorgu dizesi içeren URL nedeniyle hariç tutulmadı (?forgotten-password=1) – /login.asp?forgotten-password=1

Taranmıyor ve Dizine Eklenmiyor

Google'ın bir sayfayı dizine eklemesini istemiyorsanız, bunun için robots.txt dosyası dışında başka çözümler de vardır. Google'ın burada belirttiği gibi:

Tarayıcıları engellemek için hangi yöntemi kullanmalıyım?
robots.txt: İçeriğinizin taranması sunucunuzda sorunlara neden oluyorsa bunu kullanın. Örneğin, sonsuz takvim komut dosyalarının taranmasına izin vermemek isteyebilirsiniz. Özel içeriği engellemek (bunun yerine sunucu tarafı kimlik doğrulamasını kullanın) veya standartlaştırmayı işlemek için robots.txt dosyasını kullanmamalısınız. Bir URL'nin dizine eklenmediğinden emin olmak için bunun yerine robots meta etiketini veya X-Robots-Tag HTTP başlığını kullanın.
robots meta etiketi: Tek bir HTML sayfasının arama sonuçlarında nasıl gösterileceğini kontrol etmeniz gerekiyorsa (veya gösterilmediğinden emin olmak için) bunu kullanın.
X-Robots-Tag HTTP başlığı: Arama sonuçlarında HTML olmayan içeriğin nasıl gösterileceğini kontrol etmeniz gerekiyorsa (veya gösterilmediğinden emin olmak için) bunu kullanın.

Ve işte Google'dan daha fazla rehberlik:

Google'ın bir sayfayı taramasını engellemek, sayfayı Google'ın dizininden kaldırabilir.
Ancak robots.txt Disallow, bir sayfanın sonuçlarda görünmeyeceğini garanti etmez: Google yine de, gelen bağlantılar gibi harici bilgilere dayanarak sayfanın alakalı olduğuna karar verebilir. Bir sayfanın dizine eklenmesini açıkça engellemek istiyorsanız, bunun yerine noindex robots meta etiketini veya X-Robots-Tag HTTP başlığını kullanmalısınız. Bu durumda robots.txt içindeki sayfaya izin vermemelisiniz çünkü etiketin görülebilmesi ve uyulması için sayfanın taranması gerekir.

Hatasız bir robots.txt Oluşturmak için İpuçları

Robots.txt dosyanızı oluştururken aklınızda bulundurmanız gereken bazı ipuçları:

Komutlar büyük/küçük harfe duyarlıdır. Örneğin Disallow'da büyük bir "D" harfine ihtiyacınız var.
Komutta her zaman iki nokta üst üste işaretinden sonra bir boşluk ekleyin.
Tüm bir dizini hariç tutarken, dizin adının önüne ve arkasına eğik çizgi koyun, örneğin: /dizin-adı/
Botların taraması için özel olarak hariç tutulmayan tüm dosyalar dahil edilecektir.

robots.txt Test Aracı

Her zaman robots.txt dosyanızı test edin. Web sitesi yayıncılarının bunu yanlış anladığını düşünmeniz daha yaygındır; bu, SEO stratejinizi yok edebilir (önemli sayfaların veya tüm web sitesinin taranmasına izin vermemeniz gibi).

Google'ın robots.txt Test Aracını kullanın. Bununla ilgili bilgileri burada bulabilirsiniz.

Robotlar Dışlama Protokolü Kılavuzu

Bu makaleden daha derin bir dalışa ihtiyacınız varsa, Robots Dışlama Protokolü Kılavuzumuzu indirin. Bu, robots.txt dosyanızı nasıl oluşturacağınız konusunda size birçok ayrıntı vermek için kaydedebileceğiniz ve referans olması için yazdırabileceğiniz ücretsiz bir PDF'dir.

Kapanış Düşünceleri

Robots.txt dosyası görünüşte basit bir dosyadır, ancak web sitesi yayıncılarının botların bir web sitesini nasıl taramasını istedikleri konusunda karmaşık yönergeler vermelerine olanak tanır. Bu dosyayı doğru yapmak çok önemlidir, çünkü yanlış yapılırsa SEO programınızı yok edebilir.

Robots.txt'nin nasıl kullanılacağına dair pek çok nüans olduğundan, Google'ın robots.txt ile ilgili girişini mutlaka okuyun.

Teknik SEO uzmanlığı gerektiren indeksleme sorunlarınız veya başka sorunlarınız mı var? Ücretsiz danışmanlık ve hizmet teklifi istiyorsanız, bugün bizimle iletişime geçin.