Crawl Budget kezelése és indexelés optimalizálása

Megérted, mi a crawl budget, miért pazarolják el a paraméteres URL-ek és a 404-esek, és hogyan biztosítsd, hogy a Google a fontos tartalmaidat indexelje.

7 perc olvasás·2026. március·Haladó

Mi az a Crawl Budget?

A crawl budget a Googlebot által egy webhelyen feltérképezhető erőforrások összessége. Két tényező határozza meg:

Crawl Capacity (kapacitás): Mennyi párhuzamos kérést tud kezelni a szervered anélkül, hogy lassulna.
Crawl Demand (igény): Mennyire fontos a Google számára az oldal frissítése (linkek, frissesség alapján).

Mikor kritikus?
- Nagy webshopok több ezer termékoldallal
- Portálok, ahol naponta jelennek meg új cikkek
- Oldalak, ahol sok paraméteres URL keletkezik (szűrők, rendezés)

Kisebb (50-100 oldalas) weboldalakon a crawl budget ritkán jelent problémát.

Hogyan ellenőrizd a crawl budget állapotát?

1. Search Console → Beállítások → Keresőrobot statisztika
Megjeleníti a Googlebot napi kéréseinek számát és a letöltött byte-mennyiséget. Ha a szám hirtelen zuhan, az szerver- vagy robots.txt-problémára utalhat.

2. Search Console → Lefedettség (Index Coverage)
A "Feltérképezett, jelenleg nem indexelt" státuszú URL-ek nagy száma jelzi, hogy a Google sok felesleges oldalt jár be.

3. Szerver naplók (log file) elemzése
A legpontosabb módszer: a naplófájlban látod, melyik URL-eket, mikor és hányszor kérte le a Googlebot.

A crawl budget 5 leggyakoribb pazarlója

1. Paraméteres URL-ek (szűrők, rendezés)
A webshop szűrők kombinációi URL-robbanást okoznak: /termekek?szin=piros&meret=L&rendez=ar-csokken
Megoldás: Tiltsd le a felesleges paramétereket a robots.txt-ben.

2. Sok 404-es oldal
Törött linkek, törölt oldalak, amelyek még mindig be vannak linkelve valahonnan.
Megoldás: Állíts be 301-es átirányítást a régi URL-ről az újra. Ha az oldal végleg eltűnt: 410 Gone státusz.

3. Soft 404-esek
Oldalak, amelyek 200 OK státusszal válaszolnak, de tartalom nélküliek (üres kategória, lejárt kampányoldal).
Megoldás: Adj tényleges 404-es vagy 410-es HTTP státuszt, vagy töltsd fel tartalommal.

4. Átirányítási láncok
/regi-url → /atmeneti-url → /vegso-url
Megoldás: Minden 301-es átirányítást közvetlenül az úti célra irányíts.

5. Nem indexelendő tartalmak a sitemapban
Ha a sitemap.xml tartalmaz noindex oldalakat, a Google erre feleslegesen fordít figyelmet.
Megoldás: A sitemapban csak a ténylegesen indexelni kívánt, kanonikus URL-ek szerepeljenek.

Sitemap és robots.txt optimalizálás

Sitemap best practices:
- Tartsd naprakészen: minden új oldal kerüljön bele, a törölt oldalak kerüljenek ki
- Adj meg lastmod elemeket, hogy a Google tudja, mikor frissült az oldal
- Nagy webhelyeken alkalmazz sitemap index fájlt (több sitemap.xml szervezett formában)
- Küld be a Search Console-ban (Beállítások → Sitemaps)

robots.txt best practices:
- Tiltsd le az admin, kosar, checkout útvonalakat
- Tiltsd le a session és utm paramétereket tartalmazó URL-eket
- Mindig add meg a Sitemap elérési útját

Fontos: A robots.txt tiltás csak a bejárást akadályozza, nem az indexelést! Ha egy oldalt már korábban indexelt a Google, a robots.txt tiltás nem veszi ki az indexből, ehhez noindex meta tag szükséges.

noindex vs. robots.txt, mikor melyiket?

Ne indexelje az oldalt → meta name="robots" content="noindex"
Ne járja be az oldalt (és nincs szükség arra, hogy az indexből kivegye) → robots.txt Disallow
Oldal végleges törlése → 410 Gone státusz
Oldal átköltöztetése → 301 átirányítás

Gyakorlati példa magyar környezetben

2026-os valós eset: egy 4800 termékes kerti eszközöket forgalmazó WooCommerce-áruház tulajdonosa Miskolcon. A Search Console Lefedettség-riportjában 2300 URL szerepelt "Feltérképezett, jelenleg nem indexelt" státusszal — ebből 1900 szűrőkombinációkból eredő paraméteres URL volt (/termekek?szin=zold&meret=nagy&rendez=ar-novekvo stb.).

A crawl budget (feltérképezési keret) helyreállítása három lépésben zajlott:
1. A robots.txt-be kerültek a felesleges paraméterek: Disallow: /*?szin=, Disallow: /*?rendez=. Ez 1400 URL-t vont ki a bejárásból.
2. A canonical URL (kanonikus cím) jelölést beállították minden szűrt URL-nél a kategóriaoldal alap-URL-jére.
3. A sitemap.xml-ből kiszedték a noindex-szel ellátott oldalakat, csak a 620 tényleges kategória- és termékoldal maradt benne.

Eredmény 10 hét alatt: a Googlebot napi kéréseinek száma a Search Console-ban 55%-kal csökkent, de az indexelt terméklapok száma 18%-kal nőtt, mert a bot most a valóban fontos oldalakra fókuszált. Az indexelés (indexing) sebessége is javult: az új termékek 48 óra helyett átlagosan 18 óra alatt kerültek az indexbe.

A mobile-first indexelés szempontjából is fontos volt a változás: a mobilos CWV-értékek javultak, mert a Googlebot kevesebb felesleges kérést generált a szerveren.

Gyakori hibák, amiket érdemes elkerülni

Noindex oldalak a sitemapban: Ha a sitemap.xml tartalmaz noindex-szel ellátott URL-eket, a Googlebot feleslegesen jár be és dolgoz fel olyan oldalakat, amelyeket úgysem indexel. Rendszeresen ellenőrizd a sitemap és a noindex jelölések összhangját.
Robots.txt-tel blokkolt, de fontos tartalmak: A feltérképezési hiba (crawl error) típusok között az egyik legveszélyesebb, ha véletlenül tiltod a bejárást a fő kategória- vagy termékoldalakon. Minden robots.txt-módosítás előtt teszteld a Search Console Robots.txt teszterével.
Átirányítási láncok figyelmen kívül hagyása: Minden egyes 301-es átirányítási lánclépés crawl budgetet emészt. Ha a /regi-url → /atmeneti-url → /vegso-url útvonal létezik, azonnal rövidítsd le /regi-url → /vegso-url-re.

Röviden

A crawl budget azt határozza meg, hogy a Googlebot hány URL-t jár be a webhelyeden egy adott időszakban. 2026-ban különösen webshopoknak kritikus: a paraméteres URL-ek, soft 404-esek és átirányítási láncok pazarolják el a keretet. A robots.txt, canonical jelölés és a sitemap optimalizálásával biztosíthatod, hogy a Google az értékes oldalaidat indexelje — nem a feleslegeseket.

Következő lépések

Nyisd meg a Search Console Lefedettség-riportját, és azonosítsd a "Feltérképezett, jelenleg nem indexelt" URL-eket — ezek jelzik a crawl budget-veszteséget.
Ellenőrizd a robots.txt-et a Search Console beépített teszterével, és tiltsd le a felesleges paramétereket.
A noindex jelölésű oldalakat vedd ki a sitemap.xml-ből.

👉 Autopilot csomag megismerése — a Publicator AI automatikusan figyeli a crawl budget-problémákat és értesít, ha felesleges URL-ek kerülnek bejárásra.

Gyakran ismételt kérdések

Kisebb (50–100 oldalas) webhelyen is fontos a crawl budget?

Általában nem kritikus, de érdemes figyelni rá. Ha a Search Console Lefedettség-riportjában sok "Feltérképezett, nem indexelt" URL jelenik meg, akkor kisebb webhelyen is van teendő — leggyakrabban paraméterek vagy duplikált URL-ek okozzák.

Mi a különbség a robots.txt tiltás és a noindex között?

A robots.txt Disallow megakadályozza a bejárást, de nem veszi ki az indexből. A noindex meta tag engedélyezi a bejárást, de megakadályozza az indexelést. Ha mindkettőt alkalmazod egyszerre, a Google nem tudja elolvasni a noindex-et (mert blokkolva van), így az oldal benn maradhat az indexben.

Hogyan tudom meg, mikor jár be a Googlebot?

A szerver naplófájljaiban (access log) minden Googlebot-kérés rögzítve van, User-Agent: Googlebot sorral. A Search Console Keresőrobot-statisztika oldala havi összesítést mutat, de a részletes naplóelemzés sokkal pontosabb képet ad.

Források

Kapcsolódó tananyagok

Hasznos volt ez a cikk?

Nem találod a választ?

Ezt automatikusan megcsináljuk helyetted

Publicator AI · SEO és GEO autopilot