Robots.txt
Haladó

Robots.txt

A robots.txt egy fájl a weboldal gyökerében, amely megmondja a keresőrobotoknak, mely részeket járhatják be. Hibás beállítása akár az egész oldal kizárásához is vezethet.

2 perc olvasás·2026. június·Haladó

Mi az a robots.txt?

A robots.txt egy egyszerű szövegfájl a weboldalad gyökérkönyvtárában (pl. publicator.ai/robots.txt), amely megmondja a keresőrobotoknak (Googlebot, GPTBot stb.), hogy mely részeket járhatják be és melyeket ne.

Miért bánj vele óvatosan?

A robots.txt erős, de veszélyes eszköz: egyetlen rossz sorral akár a teljes oldaladat kizárhatod a Google elől. Gyakori jó használat: az admin- és kosároldalak kizárása, valamint a sitemap helyének megadása.

Fontos: a robots.txt a bejárást tiltja, nem az indexelést, egy tiltott, de máshonnan linkelt oldal még megjelenhet. Az indexelés tiltására a „noindex” való.

2026-ban a robots.txt új szerepet kapott: az AI-crawlerek (pl. GPTBot, ClaudeBot, Googlebot-Extended) külön direktívákkal szabályozhatók. Ha nem szeretnéd, hogy az OpenAI tanítóadatként használja a tartalmaid, a robots.txt-ben GPTBot (AI-crawler)-t disallow-olhatod. A llms.txt fájl a robots.txt AI-kiegészítője: emberolvasható formátumban magyarázza el az AI-rendszereknek, hogy mit és hogyan szabad felhasználni. A Googlebot (keresőrobot) és az AI-crawlerek eltérően reagálnak a robots.txt szabályaira, ezért érdemes mindkét irányból ellenőrizni a beállításokat. A X-Robots-Tag HTTP-fejléc a robots.txt alternatívája nem HTML erőforrásoknál (pl. PDF-ek, képek). A canonical URL és a robots.txt együttes használatával pontosan meghatározhatod, mely URL-eket szeretnéd indexeltetni.

Gyakorlati példa magyar környezetben

Egy miskolci e-kereskedelmi cég WooCommerce-alapú webshopot üzemeltet 2 200 termékkel. A fejlesztő áttekintette a robots.txt fájlt, és megdöbbentő hibát talált: a „Disallow: /wp-admin/” sor helyett véletlenül „Disallow: /” került be egy frissítés során, ami az összes oldalt blokkolta a Googlebot elől. A keresési forgalom 3 nap alatt 94%-kal esett vissza. A Google Search Console „Lefedettség” szekciójában azonnal megjelent a figyelmeztetés. A javítás után (a helyes sor visszaállítása) 10 napon belül helyreállt az indexelés, és a forgalom visszatért az eredeti szintre. Tanulság: minden robots.txt módosítás után futtasd le a Google Search Console robots.txt tesztelőjét, és ellenőrizd a Search Console „Lefedettség” riportját.

Hogyan kapcsolódik más fogalmakhoz?

A robots.txt a technikai SEO egyik alaptáblájának része. A Googlebot (keresőrobot) a robots.txt direktíváit követi, de figyelmeztetés: csak a bejárást tilthatod vele, az indexelést nem. Az indexelés tiltásához a meta robots „noindex” jelölést vagy az X-Robots-Tag HTTP-fejlécet kell használni. A GPTBot (AI-crawler) és más AI-robotok szintén a robots.txt-et olvassák, ezért 2026-ban az AI-crawlerek szabályozása is ide kerül. A llms.txt ezek mellé illeszkedő, AI-specifikus megoldás. A canonical URL a robots.txt-tel együtt határozza meg a crawler viselkedést: ha egy URL-t robots.txt-tel blokkoltál, a canonical tag-et sem tudja a Google elolvasni rajta.

Gyakori hibák, amiket érdemes elkerülni

  • Hiba: A „Disallow: /” direktíva véletlenül kerül be (pl. fejlesztői szerveren hagyott konfiguráció élesítéskor) — ez az egész oldalt kizárja a Google elől, amit csak a Search Console forgalomesésből veszel észre.
  • Hiba: Azt hiszed, hogy a robots.txt-tiltás elegendő az indexelés megakadályozásához — ha az oldalt más oldalak linkelik, a Google megtudhatja az URL létezését, és indexbe veheti cím és leírás nélkül.
  • Hiba: Nem adod meg a sitemap helyét a robots.txt-ben — pedig a „Sitemap: https://pelda.hu/sitemap.xml” sor gyorsítja a Googlebot tájékozódását az oldal struktúrájáról.

Röviden

A robots.txt a weboldalad gyökerében lévő szövegfájl, amely megmondja a Googlebotnak és az AI-crawlereknek, mely részeket járhatják be. Erős eszköz, de veszélyes: egyetlen hibás sorral az egész oldaladat kizárhatod a keresőből. Mindig ellenőrizd a Search Console robots.txt tesztelőjével módosítás után.

Gyakran ismételt kérdések

Hogyan tilthatom le az AI-crawlereket a robots.txt-ben?

Az OpenAI GPTBotját a „User-agent: GPTBot" és „Disallow: /" direktívával tilthatod. Hasonlóan a ClaudeBot-ot „User-agent: ClaudeBot", a Google-Extended-et „User-agent: Google-Extended" sorral. Minden AI-crawler saját user-agent névvel rendelkezik, amelyet a szolgáltatók dokumentációjában megtalálsz.

A robots.txt megakadályozza, hogy egy oldal megjelenjen a Google-ben?

Nem feltétlenül. A robots.txt csak a bejárást tiltja, de ha az oldalt más webhelyek linkelik, a Google megtudhatja az URL létezését, és indexbe veheti (cím és leírás nélkül). Az indexelés teljes megakadályozásához noindex meta tag vagy X-Robots-Tag szükséges.

Hol találom meg az oldalam robots.txt fájlját?

Mindig a domain gyökerében: https://pelda.hu/robots.txt. Ha nem létezik, a Google úgy értelmezi, mintha minden bejárható lenne. A Google Search Console „Beállítások" > „robots.txt tesztelő" funkcióval szerkesztheted és ellenőrizheted.

Kapcsolódó tananyagok

Hasznos volt ez a cikk?

Nem találod a választ?

Ezt automatikusan megcsináljuk helyetted

Publicator AI · SEO és GEO autopilot