Pozor na robots.txt
Při vytváření souboru robots.txt buďte velmi obezřetní, přístup k němu mají kromě robotů i lidé. A lidé jsou zvědaví…
Jak asi většina z vás ví, soubor robots.txt slouží k omezení pohybu nejrůznějších automatických robotů po vašich stránkách. Taky asi víte, že je třeba umístit jej do kořenového adresáře webu. A právě kombinace těchto dvou vlastností s sebou nese určitá rizika.
Do souboru robots.txt, pokud ho na serveru máte, se vám totiž může kdokoliv podívat. Stačí zadat www.nejakadomena.neco/robots.txt a pokud se zde daný soubor nachází, hned si ho může každý přečíst. Vzhledem k účelu robots.txt je to dost podstatný problém. Proč někam zakazovat robotům přístup? Asi proto, aby se obsah daného souboru/adresáře nezaindexoval do databáze a nestal se tak veřejně přístupným.
Dříve platilo, že stránku, na kterou nevedl odkaz, vyhledávač jednoduše nenašel. Stačilo hlídat, aby se odkaz na ni nikde nevyskytoval. Zde však nastává druhý problém. Dnes totiž vyhledávače přebírají informace o stránkách také ze svých toolbarů. Jenže vy jim přístup na neveřejné stránky zakázat potřebujete. Jak z toho ven?
Řešením je nezadat do robots.txt cestu k souboru v kompletní podobě. Robotovi totiž stačí k zákazu pouze jednoznačný začátek cesty k danému souboru nebo adresáři, kdežto člověku ne. Pokud tak neučiníte, bude se moci kdokoliv dostat třeba k administračnímu rozhraní, připravovaným projektům nebo statistikám.
Situace po úpravě například pro soubor tajna-fotogalerie.html v adresáři tajnosti vypadá následovně:
User-agent: *
Disallow: /taj #pokud nechcete indexovat celý adresář
Disallow: /tajnosti/tajna-f #pokud vám stačí zakázat indexování příslušného souboru
Pokud se chcete o robotech a souboru robots.txt dozvědět víc, doporučuji vám web robotstxt.org. Dobrým zdrojem v češtině je Yuhůova stránka o vyhledávačích.
RSS kanály
Zneužití robots txt robots.txt
MzK
8 Pro 06 at 15.35