A robots.txt egy, a honlapunk gyökérkönyvtárában elhelyezett/elhelyezhető szöveges fájl (pl: http://www.domainnevem.hu/robots.txt).
Tartalmával meghatározhatjuk a különböző keresőrobotok számára, hogy honlapunkon mit, és hogyan indexeljenek.
A robots.txt használata
A User-agent sorban határozhatjuk meg, hogy melyik robotnak szánjuk a következő bejegyzéseket.
Például:
User-agent: googlebot (googlebot esetén)
vagy
User-agent: * (összes botra vonatkozólag)
A Disallow utasításokat az ezt követő rész tartalmazza, melyek meghatározzák a nem indexelendő, tiltott fájlokat és/vagy könyvtárakat.
Például:
Disallow: minta.html (a mintha.html tiltása)
Disallow: /cgi-bin/ (a cgi-bin könyvtár tiltása)
Disallow: / (a teljes webhely tiltása)
Sitemap
A robots.txt-ben megadhatjuk azt is, hogy hol található honlapunk oldaltérképe (pl. a google részére).
Az utasítás független a User-Agent parancsoktól, az összes robotra vonatkozik.
Például:
Sitemap: http://www.domainnevem.hu/sitemap.xml
- Ne használjunk nagybetűket (kivéve az utasítások kezdőbetűjét).
- Az utasítások a sor elejére kerüljenek.
- Ha a disallow sor üresen marad (Disallow: ), minden fájl engedélyezve van.
- Minden user-agent sorhoz tartoznia kell disallow meghatározásnak is.
- Nincs allow utasítás, csak tiltani tudunk.
- Minden sor tartalma a # karaktert követően megjegyzésnek tekintendő.
Például:
Disallow: /privat/ # Kommentar - A googlebot támogatja a kiterjesztés szerinti meghatározásokat.
Például:
User-agent: googlebot
Disallow: *.php
robots.txt ellenőrzés
A robots.txt fájlok elemzésével sok oldal foglalkozik, javasolt a "robot.txt checker" kifejezés keresése kedvenc keresőnkben (pl. a Google Webmaster Tool is rendelkezik e szolgáltatással).
A teljes ismertető, példaadatokkal a http://www.robotstxt.org címen érhető el.
