Manual:Robots.txt/tr

robots.txt dosyaları Robot Hariç Tutma Standardı'nın bir parçasıdır ve konusunda yardımcı olabilir. web robotlarına bir sitenin nasıl taranacağını söylerler. Bir etki alanının web köküne bir robots.txt dosyası yerleştirilmelidir.

Tüm taramayı önleyin
Bu kod, tüm botların sitenizdeki tüm sayfaları taramasını engeller:

Yalnızca belirli bir örümceği engellemek istiyorsanız, yıldız işaretini örümceğin kullanıcı aracısı ile değiştirin.

Madde dışı sayfaların taranmasını önleyin
MediaWiki, yalnızca canlı insanlar için yararlı olan birçok sayfa oluşturur: eski revizyonlar ve farklılıklar, maddelerde bulunan içeriği çoğaltma eğilimindedir. Düzenleme sayfaları ve çoğu özel sayfa dinamik olarak oluşturulur, bu da onları yalnızca editörler için yararlı ve sunmaları nispeten pahalı hâle getirir. Aksi belirtilmedikçe, örümcekler binlerce benzer sayfayı dizine eklemeye çalışarak web sunucusunu aşırı yükleyebilir.

Kısa URL'ler ile
Vikipedi tarzı kısa URL'ler kullanıyorsanız, örümceklerin madde olmayan sayfaları taramasını önlemek kolaydır. Maddelere  üzerinden erişilebildiğini ve diğer her şeyin   üzerinden erişilebilir olduğunu varsayarak:

Yine de dikkatli olun! Bu satırı yanlışlıkla koyarsanız:

/w dizinine erişimi engelleyeceksiniz ve arama motorları vikinizi bırakacak!

Bu çözümün CSS, JavaScript ve resim dosyalarının da engellenmesine neden olacağını unutmayın, bu nedenle Google gibi arama motorları viki maddelerinin önizlemelerini oluşturamaz. Bunu aşmak için,  dizininin tamamını engellemek yerine, yalnızca   engellenmesi gerekir:

Bu işe yarar çünkü CSS ve JavaScript  aracılığıyla alınır. Alternatif olarak, bunu Wikimedia çiftliğinde yapıldığı gibi yapabilirsiniz:

Kısa URL'ler olmadan
kullanmıyorsanız, robotları kısıtlamak biraz daha zordur. PHP as CGI çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere  ile erişilebilir:

PHP'yi Apache modülü olarak çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere  üzerinden erişilebilir:

Sonunda iki nokta üst üste bulunmayan satırlar, bu ad alanlarının tartışma sayfalarını kısıtlar.

İngilizce olmayan vikilerin yukarıdaki satırların çeşitli çevirilerini eklemesi gerekebilir.

kısıtlamasını atlamak isteyebilirsiniz çünkü bu, görünüme ait görüntülere erişilmesini engelleyecektir. Google gibi önizleme resimlerini işleyen arama motorları,  dizinine erişemezlerse, eksik resimleri olan maddeleri gösterir.

Ayrıca deneyebilirsin

çünkü Googlebot gibi bazı robotlar, yukarıdaki /w/ çözümünde olduğu gibi, robots.txt standardına yönelik bu joker karakter uzantısını kabul eder ve bu, robotların elenmesini istemediğimiz şeylerin çoğunu durdurur. Ancak bu, CSS'ye erişimi engellemesi ve arama motorlarının önizleme görüntülerini doğru şekilde oluşturmasını engellemesi bakımından aynı sınırlamalardan muzdariptir. Bunu başka bir satır  ekleyerek çözmek mümkün olabilir, ancak bu yazım sırasında test edilmemiştir.

İnternet Arşivi tarafından işlenmemiş kenarların indekslenmesine izin ver
İnternet Arşivleyicisi ​'nin ham sayfaları indekslemesine izin vermek isteyebilirsiniz, böylece sayfaların ham viki metni kalıcı kayıtta olacaktır. Bu şekilde, vikinin düşmesi durumunda, insanların içeriği başka bir vikiye koyması daha kolay olacaktır. Şunu kullanacaksın:

Hız kontrolü
Yalnızca bir botun webi hangi yolları koyabileceğini belirleyebilirsiniz. Yalnızca düz sayfa alanına izin vermek bile, iki yüz bin sayfadan fazla bir örümcek tarafından saniyede iki veya üç sayfa talep edildiğinde büyük bir yük olabilir.

Bazı botların bunun için özel bir özelliği vardır; Inktomi, isabetler arasındaki minimum gecikmeyi saniye cinsinden belirleyebilen bir "Crawl-delay" satırına yanıt verir. (Varsayılan değerleri 15 saniyedir.)

Kötü robotlar
Bazen özel olarak yazılmış bir bot çok akıllı değildir veya düpedüz kötü niyetli olabilir ve robots.txt dosyasına hiç uymaz (veya yol kısıtlamalarına uyuyor ancak çok hızlı örümceklerle siteyi tıkıyor). Belirli kullanıcı aracısı dizelerini veya suçluların bireysel IP'lerini engellemek gerekli olabilir.

Daha genel olarak, istek azaltma, tekrarlayan müdahalenizi gerektirmeden bu tür botları durdurabilir.

Alternatif veya tamamlayıcı bir strateji, bir web tuzağı kullanmaktır.

Web oluşturmaya karşı indeksleme
Robots.txt (kötü olmayan) botların URL'yi indirmesini durdursa da, botları dizine eklemelerini engellemez. Bu, onlara işaret eden harici bağlantılar olduğu sürece, Google ve diğer arama motorlarının sonuçlarında görünmeye devam edebileceği anlamına gelir. (Daha da kötüsü, botlar bu tür sayfaları indirmediğinden, bunlara yerleştirilen noindex meta etiketlerinin hiçbir etkisi olmayacaktır.) Tekli viki sayfaları için,  sihirli kelimesi, onları arama sonuçlarının dışında tutmak için daha güvenilir bir seçenek olabilir.