Pozor na robots.txt

Při vytváření souboru robots.txt buďte velmi obezřetní, přístup k němu mají kromě robotů i lidé. A lidé jsou zvědaví…

Jak asi většina z vás ví, soubor robots.txt slouží k omezení pohybu nejrůznějších automatických robotů po vašich stránkách. Taky asi víte, že je třeba umístit jej do kořenového adresáře webu. A právě kombinace těchto dvou vlastnosí s sebou nese určitá rizika.

Do souboru robots.txt, pokud ho na serveru máte, se vám totiž může kdokoliv podívat. Stačí zadat www.nejakadome­na.neco/robot­s.txt a pokud se zde daný soubor nachází, hned si ho může každý přečíst. Vzhledem k účelu robots.txt je to dost podstatný problém. Proč někam zakazovat robotům přístup? Asi proto, aby se obsah daného souboru/adresáře nezaindexoval do databáze a nestal se tak veřejně přístupným.

Dříve platilo, že stránku, na kterou nevedl odkaz, vyhledávač jednoduše nenašel. Stačilo hlídat, aby se odkaz na ni nikde nevyskytoval. Zde však nastává druhý problém. Dnes totiž vyhledávače přebírají informace o stránkách také ze svých toolbarů. Jenže vy jim přístup na neveřejné stránky zakázat potřebujete. Jak z toho ven?

Řešením je nezadat do robots.txt cestu k souboru v kompletní podobě. Robotovi totiž stačí k zákazu pouze jednoznačný začátek cesty k danému souboru nebo adresáři, kdežto člověku ne. Pokud tak neučiníte, bude se moci kdokoliv dostat třeba k administračnímu rozhraní, připravovaným projektům nebo statistikám.

Situace po úpravě například pro soubor tajna-fotogalerie.html v adresáři tajnosti vypadá následovně:

User-agent: *
Disallow: /taj #pokud nechcete indexovat celý adresář
Disallow: /tajnosti/tajna-f #pokud vám stačí zakázat indexování příslušného souboru

Pokud se chcete o robotech a souboru robots.txt dozvědět víc, doporučuji vám web robotstxt.org. Dobrým zdrojem v češtině je Yuhůova stránka o vyhledávačích.

19. 04. 2004  ~  Komentáře Komentáře [1]  ~  Kotva trvalý odkaz   ~  

Komentáře

  1. Uživatel  MzK napsal 08. 12. 2006 v 14:35:

    Zneužití robots txt robots.txt

Napsat komentář