Manual:Robots.txt/tr

robots.txt dosyaları Robot Hariç Tutma Standardı'nın bir parçasıdır ve konusunda yardımcı olabilir. web robotlarına bir sitenin nasıl taranacağını söylerler. Bir etki alanının web köküne bir robots.txt dosyası yerleştirilmelidir.

Tüm taramayı önleyin
Bu kod, tüm botların sitenizdeki tüm sayfaları taramasını engeller:

Yalnızca belirli bir örümceği engellemek istiyorsanız, yıldız işaretini örümceğin kullanıcı aracısı ile değiştirin.

Madde dışı sayfaların taranmasını önleyin
MediaWiki, yalnızca canlı insanlar için yararlı olan birçok sayfa oluşturur: eski revizyonlar ve farklılıklar, maddelerde bulunan içeriği çoğaltma eğilimindedir. Düzenleme sayfaları ve çoğu özel sayfa dinamik olarak oluşturulur, bu da onları yalnızca editörler için yararlı ve sunmaları nispeten pahalı hâle getirir. Aksi belirtilmedikçe, örümcekler binlerce benzer sayfayı dizine eklemeye çalışarak web sunucusunu aşırı yükleyebilir.

Kısa URL'ler ile
Vikipedi tarzı kısa URL'ler kullanıyorsanız, örümceklerin madde olmayan sayfaları taramasını önlemek kolaydır. Maddelere  üzerinden erişilebildiğini ve diğer her şeyin   üzerinden erişilebilir olduğunu varsayarak:

Yine de dikkatli olun! Bu satırı yanlışlıkla koyarsanız:

/w dizinine erişimi engelleyeceksiniz ve arama motorları vikinizi bırakacak!

Bu çözümün CSS, JavaScript ve resim dosyalarının da engellenmesine neden olacağını unutmayın, bu nedenle Google gibi arama motorları viki maddelerinin önizlemelerini oluşturamaz. Bunu aşmak için,  dizininin tamamını engellemek yerine, yalnızca   engellenmesi gerekir:

Bu işe yarar çünkü CSS ve JavaScript  aracılığıyla alınır. Alternatif olarak, bunu Wikimedia çiftliğinde yapıldığı gibi yapabilirsiniz:

Kısa URL'ler olmadan
kullanmıyorsanız, robotları kısıtlamak biraz daha zordur. PHP as CGI çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere  ile erişilebilir:

PHP'yi Apache modülü olarak çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere  üzerinden erişilebilir:

Sonunda iki nokta üst üste bulunmayan satırlar, bu ad alanlarının tartışma sayfalarını kısıtlar.

İngilizce olmayan vikilerin yukarıdaki satırların çeşitli çevirilerini eklemesi gerekebilir.

kısıtlamasını atlamak isteyebilirsiniz çünkü bu, görünüme ait görüntülere erişilmesini engelleyecektir. Google gibi önizleme resimlerini işleyen arama motorları,  dizinine erişemezlerse, eksik resimleri olan maddeleri gösterir.

Ayrıca deneyebilirsin

çünkü Googlebot gibi bazı robotlar, yukarıdaki /w/ çözümünde olduğu gibi, robots.txt standardına yönelik bu joker karakter uzantısını kabul eder ve bu, robotların elenmesini istemediğimiz şeylerin çoğunu durdurur. Ancak bu, CSS'ye erişimi engellemesi ve arama motorlarının önizleme görüntülerini doğru şekilde oluşturmasını engellemesi bakımından aynı sınırlamalardan muzdariptir. Bunu başka bir satır  ekleyerek çözmek mümkün olabilir, ancak bu yazım sırasında test edilmemiştir.

İnternet Arşivi tarafından işlenmemiş kenarların indekslenmesine izin ver
İnternet Arşivleyicisi ​'nin ham sayfaları indekslemesine izin vermek isteyebilirsiniz, böylece sayfaların ham viki metni kalıcı kayıtta olacaktır. Bu şekilde, vikinin düşmesi durumunda, insanların içeriği başka bir vikiye koyması daha kolay olacaktır. Şunu kullanacaksın:

Hız kontrolü
Yalnızca bir botun webi hangi yolları koyabileceğini belirleyebilirsiniz. Yalnızca düz sayfa alanına izin vermek bile, iki yüz bin sayfadan fazla bir örümcek tarafından saniyede iki veya üç sayfa talep edildiğinde büyük bir yük olabilir.

Bazı botların bunun için özel bir özelliği vardır; Inktomi, isabetler arasındaki minimum gecikmeyi saniye cinsinden belirleyebilen bir "Crawl-delay" satırına yanıt verir. (Varsayılan değerleri 15 saniyedir.)

Kötü robotlar
Sometimes a custom-written bot isn't very smart or is outright malicious and doesn't obey robots.txt at all (or obeys the path restrictions but spiders very fast, bogging down the site). It may be necessary to block specific user-agent strings or individual IPs of offenders.

More generally, request throttling can stop such bots without requiring your repeated intervention.

An alternative or complementary strategy is to deploy a spider trap.

Spidering vs. indexing
While robots.txt stops (non-evil) bots from downloading the URL, it does not stop them from indexing it. This means that they might still show up in the results of Google and other search engines, as long as there are external links pointing to them. (What's worse, since the bots do not download such pages, noindex meta tags placed in them will have no effect.) For single wiki pages, the  magic word might be a more reliable option for keeping them out of search results.