Jak na robots.txt

Robots.txt je jednoduchý textový soubor, nacházející se zpravidla v hlavním adresáři webu.Stačí ho tam vytvořit, případně nahrát přes ftp a můžete v něm nastavit, jak se mají crawlující roboty vyhledávačů chovat k vaší stránce.

Vliv na SEO

V řadě knih a příruček se i dnes stále uvádí, že mít na webu soubor robots.txt je v zásadě nutnosí, jedním z důležitých atributů hodnocení webu vyhledávačem, atd. Pravda je poněkud jiná – dokonce by se dalo říct, že opak je pravdou. Soubor a nějaké nastavení v něm potřebujete jen za podmínek, kdy:

  • Máte na webu sekci, kterou chcete ukrýt předvyhledávači
  • Máte na webu vícekrát se opakující stejné věci (duplicitní obsah).
  • Optimalizujete z nějakého důvodu pro různé vyhledávače různé podstránky.

Pokud máte tedy jednoduchý web, nemusíte tedy nic řešit a Google i Seznam projdou a zaindexují všechno, co na vašem webu najdou.

Syntaxe zápisu

Robots.txt není vůbec nijak složitý. Nejedná se soubor, pro jehož zkoumání byste potřebovali být vybaveni magisterským vzděláním z matematicko-fyzikální fakulty, plný záhadných značek a výrazů, ale naopak o velmi malý jednoduchý textový soubor o velikosti několika málo bajtů. Mohou v něm být tyto tři různé veličiny, kterým se mohou definivat hodnoty:

  • User-agent: udává, pro roboty kterých vyhledávaců zápis platí (pokud platí zápis jen pro Google, napíše se do něj hodnota Googlebot, pokud jen pro Seznam, hodnota Seznambot). Pokud zápis platí pro všechny vyhledávače, použije se hvězdička (*).
  • Disallow: definuje oblast webu, na kterou je danému robotu nebo robotům ze řádku Robots zakázán průchod. Pokud nechcete, aby vyhledávač neindexoval ani jednu stránku webu, tj. chcete zakázat celý web, napíše se lomítko (/), pokud chcete zakázat jen určitou stránky, vypíše se její adresa (např. /tajnaadresa.html), pokud adresář nebo kategorii článků, zapíše se cesta k ní (např. /administrace/).
  • Allow: definuje oblast webu, která je vyhledávači dovolena býti indexovanou. Platí pravidlo, co není zakázáno, je automaticky bráno, že je povoleno, nemusíte sem tedy vypisovat všechny oblasti webu a stránky, které chcete, aby byly dohledatelné na Googlu a Seznamu.

Příklady nastavení

  • User-agent: *
  • Disallow: /
Ukázka výpisu při zákazu indexace
Výpis při zákazu indexace

Zákaz indexace celého webu vyhledávači. Při tomto nastavení se dá zpravidla dohledat vyhledávači jen hlavní stránka webu a je pod ní ve výpisu hledání napsáno něco jako: “Zobrazení popisu u tohoto výsledku je zakázáno souborem robots.txt tohoto webu – další informace.”

  • User-agent: *
  • Disallow:

Jedno lomítko pryč a hned úplně jiná situace. Tento zápis znamená, že žadná část webu není zakázána k indexování.

  • User-agent: *
  • Allow:

Ta samá situace – opět povolujeme indexovat všechny stránky webu. Pokud nemáte na serveru žádný soubor typu robots.txt, funguje vyhledávač právě přesně takto.

  • User-agent: *
  • Disallow: /tajny/

Explicitní zákaz indexování obsahu adesáře tajny a všech souborů v něm.

Komentáře k článku. Přidejte i váš!

  1. Dobrý den, ráda bych se zeptala, co je to FTP, všude vidím, jak si nahrát a vytvořit soubor robots.txt, a nahrát přes FTP. ale nevím, co FTP je. prosím o laické a podrobné vysvětlení. Děkuji. Monika M.

  2. Pokud máš web, tak můžeš na server, kde je ten web, nahrát soubory přes program, který se jmenuje ftp klient (například jeden takový je filezilla), když zadáš adresu ftp serveru, jméno a heslo

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *