Crawl Budget kezelése és indexelés optimalizálása
Megérted, mi a crawl budget, miért pazarolják el a paraméteres URL-ek és a 404-esek, és hogyan biztosítsd, hogy a Google a fontos tartalmaidat indexelje.
Mi az a Crawl Budget?
A crawl budget a Googlebot által egy webhelyen feltérképezhető erőforrások összessége. Két tényező határozza meg:
Crawl Capacity (kapacitás): Mennyi párhuzamos kérést tud kezelni a szervered anélkül, hogy lassulna.
Crawl Demand (igény): Mennyire fontos a Google számára az oldal frissítése (linkek, frissesség alapján).
Mikor kritikus?
- Nagy webshopok több ezer termékoldallal
- Portálok, ahol naponta jelennek meg új cikkek
- Oldalak, ahol sok paraméteres URL keletkezik (szűrők, rendezés)
Kisebb (50-100 oldalas) weboldalakon a crawl budget ritkán jelent problémát.
Hogyan ellenőrizd a crawl budget állapotát?
1. Search Console → Beállítások → Keresőrobot statisztika
Megjeleníti a Googlebot napi kéréseinek számát és a letöltött byte-mennyiséget. Ha a szám hirtelen zuhan, az szerver- vagy robots.txt-problémára utalhat.
2. Search Console → Lefedettség (Index Coverage)
A "Feltérképezett, jelenleg nem indexelt" státuszú URL-ek nagy száma jelzi, hogy a Google sok felesleges oldalt jár be.
3. Szerver naplók (log file) elemzése
A legpontosabb módszer: a naplófájlban látod, melyik URL-eket, mikor és hányszor kérte le a Googlebot.
A crawl budget 5 leggyakoribb pazarlója
1. Paraméteres URL-ek (szűrők, rendezés)
A webshop szűrők kombinációi URL-robbanást okoznak: /termekek?szin=piros&meret=L&rendez=ar-csokken
Megoldás: Tiltsd le a felesleges paramétereket a robots.txt-ben.
2. Sok 404-es oldal
Törött linkek, törölt oldalak, amelyek még mindig be vannak linkelve valahonnan.
Megoldás: Állíts be 301-es átirányítást a régi URL-ről az újra. Ha az oldal végleg eltűnt: 410 Gone státusz.
3. Soft 404-esek
Oldalak, amelyek 200 OK státusszal válaszolnak, de tartalom nélküliek (üres kategória, lejárt kampányoldal).
Megoldás: Adj tényleges 404-es vagy 410-es HTTP státuszt, vagy töltsd fel tartalommal.
4. Átirányítási láncok
/regi-url → /atmeneti-url → /vegso-url
Megoldás: Minden 301-es átirányítást közvetlenül az úti célra irányíts.
5. Nem indexelendő tartalmak a sitemapban
Ha a sitemap.xml tartalmaz noindex oldalakat, a Google erre feleslegesen fordít figyelmet.
Megoldás: A sitemapban csak a ténylegesen indexelni kívánt, kanonikus URL-ek szerepeljenek.
Sitemap és robots.txt optimalizálás
Sitemap best practices:
- Tartsd naprakészen: minden új oldal kerüljön bele, a törölt oldalak kerüljenek ki
- Adj meg lastmod elemeket, hogy a Google tudja, mikor frissült az oldal
- Nagy webhelyeken alkalmazz sitemap index fájlt (több sitemap.xml szervezett formában)
- Küld be a Search Console-ban (Beállítások → Sitemaps)
robots.txt best practices:
- Tiltsd le az admin, kosar, checkout útvonalakat
- Tiltsd le a session és utm paramétereket tartalmazó URL-eket
- Mindig add meg a Sitemap elérési útját
Fontos: A robots.txt tiltás csak a bejárást akadályozza, nem az indexelést! Ha egy oldalt már korábban indexelt a Google, a robots.txt tiltás nem veszi ki az indexből, ehhez noindex meta tag szükséges.
noindex vs. robots.txt, mikor melyiket?
- Ne indexelje az oldalt → meta name="robots" content="noindex"
- Ne járja be az oldalt (és nincs szükség arra, hogy az indexből kivegye) → robots.txt Disallow
- Oldal végleges törlése → 410 Gone státusz
- Oldal átköltöztetése → 301 átirányítás
Gyakorlati példa magyar környezetben
2026-os valós eset: egy 4800 termékes kerti eszközöket forgalmazó WooCommerce-áruház tulajdonosa Miskolcon. A Search Console Lefedettség-riportjában 2300 URL szerepelt "Feltérképezett, jelenleg nem indexelt" státusszal — ebből 1900 szűrőkombinációkból eredő paraméteres URL volt (/termekek?szin=zold&meret=nagy&rendez=ar-novekvo stb.).
A crawl budget (feltérképezési keret) helyreállítása három lépésben zajlott:
1. A robots.txt-be kerültek a felesleges paraméterek: Disallow: /*?szin=, Disallow: /*?rendez=. Ez 1400 URL-t vont ki a bejárásból.
2. A canonical URL (kanonikus cím) jelölést beállították minden szűrt URL-nél a kategóriaoldal alap-URL-jére.
3. A sitemap.xml-ből kiszedték a noindex-szel ellátott oldalakat, csak a 620 tényleges kategória- és termékoldal maradt benne.
Eredmény 10 hét alatt: a Googlebot napi kéréseinek száma a Search Console-ban 55%-kal csökkent, de az indexelt terméklapok száma 18%-kal nőtt, mert a bot most a valóban fontos oldalakra fókuszált. Az indexelés (indexing) sebessége is javult: az új termékek 48 óra helyett átlagosan 18 óra alatt kerültek az indexbe.
A mobile-first indexelés szempontjából is fontos volt a változás: a mobilos CWV-értékek javultak, mert a Googlebot kevesebb felesleges kérést generált a szerveren.
Gyakori hibák, amiket érdemes elkerülni
- Noindex oldalak a sitemapban: Ha a sitemap.xml tartalmaz noindex-szel ellátott URL-eket, a Googlebot feleslegesen jár be és dolgoz fel olyan oldalakat, amelyeket úgysem indexel. Rendszeresen ellenőrizd a sitemap és a noindex jelölések összhangját.
- Robots.txt-tel blokkolt, de fontos tartalmak: A feltérképezési hiba (crawl error) típusok között az egyik legveszélyesebb, ha véletlenül tiltod a bejárást a fő kategória- vagy termékoldalakon. Minden robots.txt-módosítás előtt teszteld a Search Console Robots.txt teszterével.
- Átirányítási láncok figyelmen kívül hagyása: Minden egyes 301-es átirányítási lánclépés crawl budgetet emészt. Ha a /regi-url → /atmeneti-url → /vegso-url útvonal létezik, azonnal rövidítsd le /regi-url → /vegso-url-re.
Röviden
A crawl budget azt határozza meg, hogy a Googlebot hány URL-t jár be a webhelyeden egy adott időszakban. 2026-ban különösen webshopoknak kritikus: a paraméteres URL-ek, soft 404-esek és átirányítási láncok pazarolják el a keretet. A robots.txt, canonical jelölés és a sitemap optimalizálásával biztosíthatod, hogy a Google az értékes oldalaidat indexelje — nem a feleslegeseket.
Következő lépések
- Nyisd meg a Search Console Lefedettség-riportját, és azonosítsd a "Feltérképezett, jelenleg nem indexelt" URL-eket — ezek jelzik a crawl budget-veszteséget.
- Ellenőrizd a robots.txt-et a Search Console beépített teszterével, és tiltsd le a felesleges paramétereket.
- A noindex jelölésű oldalakat vedd ki a sitemap.xml-ből.
👉 Autopilot csomag megismerése — a Publicator AI automatikusan figyeli a crawl budget-problémákat és értesít, ha felesleges URL-ek kerülnek bejárásra.
Gyakran ismételt kérdések
Kisebb (50–100 oldalas) webhelyen is fontos a crawl budget?
Általában nem kritikus, de érdemes figyelni rá. Ha a Search Console Lefedettség-riportjában sok "Feltérképezett, nem indexelt" URL jelenik meg, akkor kisebb webhelyen is van teendő — leggyakrabban paraméterek vagy duplikált URL-ek okozzák.
Mi a különbség a robots.txt tiltás és a noindex között?
A robots.txt Disallow megakadályozza a bejárást, de nem veszi ki az indexből. A noindex meta tag engedélyezi a bejárást, de megakadályozza az indexelést. Ha mindkettőt alkalmazod egyszerre, a Google nem tudja elolvasni a noindex-et (mert blokkolva van), így az oldal benn maradhat az indexben.
Hogyan tudom meg, mikor jár be a Googlebot?
A szerver naplófájljaiban (access log) minden Googlebot-kérés rögzítve van, User-Agent: Googlebot sorral. A Search Console Keresőrobot-statisztika oldala havi összesítést mutat, de a részletes naplóelemzés sokkal pontosabb képet ad.
Források
Kapcsolódó tananyagok
Hasznos volt ez a cikk?
Nem találod a választ?
Ezt automatikusan megcsináljuk helyetted
Publicator AI · SEO és GEO autopilot