Crawl Budget – czym jest i jak go skutecznie optymalizować?

Crawl Budget - czym jest i co znaczy dla Google

W skrócie:

– Crawl budget to liczba adresów URL, które wyszukiwarki będą indeksować na danej stronie w określonym czasie.

– Indeksowanie to proces „dodawania stron internetowych do wyszukiwarki Google”, zaś crawling to proces, poprzez który odbywa się samo indeksowanie.

– Wyszukiwarki obliczają crawl budget w oparciu o czynniki takie jak crawl demand czy crawl rate limit.

– Jeśli twoja strona nie ma kilkunastu tysięcy adresów URL, raczej nie powinieneś martwić się o swój budżet indeksowania.

– Jeśli jednak marnujesz potencjał swojego crawl budgetu, wyszukiwarki nie będą w stanie szybko indeksować twojej strony, co długoterminowo zaszkodzi strategii twojego SEO.

Co to jest crawl budget?

Czym jest crawl budget? Crawl budget (budżet indeksowania) to liczba stron, które robot Google indeksuje na danej witrynie w określonym czasie.

Im jest on większy, tym czas indeksowania stron danej witryny jest krótszy i odwrotnie – im crawl budget będzie mniejszy, tym trudniej będzie zindeksować poszczególne adresy URL stronie internetowej.

Wyższy crawl budget nie oznacza jednak wyższej pozycji strony w wynikach wyszukiwania, czyli lepszego SEO naszej strony.

Przy okazji tego terminu, należy od razu wyjaśnić dwa pokrewne:

  • Crawl Demand – zapotrzebowanie strony na indeksowanie
  • Crawl Rate Limit – limit indeksowania
crawl budget - kontakt z digitix

Od czego zależy Crawl Budget?

Crawl budget Twojej strony jest określany na podstawie jej rozmiaru, częstotliwości z jaką dodajesz nową treść i aktualizujesz starą, ogólnej oceny jej jakości oraz “autorytetu”.

Rozmiar to ilość wszystkich stron, jakie w ogóle posiadasz w witrynie od początku jej powstania, odkąd tylko Googlebot pierwszy raz pojawił się na Twojej stronie.

Częstotliwość aktualizacji i dodawania nowych treści jest znakiem dla Google, czy stronę warto odwiedzać często czy rzadko – jeśli treść w naszej witrynie jest dodawana rzadko, jest to wyraźny sygnał dla Google, że nie warto zbyt często skanować naszych podstron w poszukiwaniu jakichkolwiek nowości czy zmian.

Na ogólną ocenę jakości naszej strony oraz jej autorytet wpływają jakość naszych treści oraz ilość backlinków, jakie do nas prowadzą.

Dlaczego crawl budget jest ważny?

W całym procesie SEO zależy nam na tym, aby pozycjonować swoją stronę jak najwyżej. Do tego potrzebujemy, aby witryny oraz jej adresy URL (przynajmniej większość) były zaindeksowane.

Google, gdy tylko znajdzie jakiś link w naszej stronie, wysyła na nią swojego robota, aby podać stronę tzw. crawlingowi.

Szybka nauka: Crawling oznacza “podążanie za Twoimi linkami” za pomocą robotów Google. Indeksowanie to proces “dodawania stron internetowych do wyszukiwarki Google”, zaś Crawling to proces, poprzez który odbywa się właśnie indeksowanie.

crawl budget crawling

Jeśli Google nie zaindeksuje twojej strony lub jakiejś jej części, nie pojawi się ona w wynikach wyszukiwania w ogóle – nie będzie więc widoczna dla nikogo, poza osobami wchodzącymi bezpośrednio na tę stronę (chyba, że zainwestujesz w Google Ads lub Facebook Ads – możesz śmiało uruchomić reklamy na stronę, która nie jest zaindeksowana).

Roboty Google mogą codziennie odwiedzać daną witrynę nawet przez miesiące, ale w ogóle jej nie indeksować. Częstotliwość indeksacji zależy m. in. od tego, jak dobrze przeprowadzona jest optymalizacja crawl budgetu na naszej witrynie.

Analizując logi serwera możemy dowiedzieć się, jakie mogą być przyczyny takiego stanu rzeczy, a także wykryć problemy ze stroną WWW oraz zbadać, co dokładnie Google od nas pobrało, w tym nawet takie zasoby jak obrazy czy pliki CSS.

Czy powinieneś się martwić o swój Crawl Budget?

Jak już wiesz z poprzednich akapitów, naszym celem jest jak najwyższa pozycja w Google, a do tego potrzebujemy poprawnie zaindeksowanych stron. Może zdarzyć się tak, że część stron, jakie posiadasz w witrynie jest zaindeksowana, a część niekoniecznie.

stan indeksu
Stan indeksu w Google Search Console powie nam, ile stron Google zindeksowało

Kiedy dodajemy nowe podstrony lub aktualizujemy istniejące, chcemy, aby wyszukiwarki zaindeksowały je możliwie jak najszybciej – o tym zaś decyduje właśnie crawl budget.

Musimy jednak wiedzieć, że generalnie jeśli nie mamy bardzo dużej strony internetowej, której ilość adresów url przekracza 10000, nie musimy się zbytnio martwić o nasz budżet indeksowania – Google radzi sobie naprawdę dobrze z rozdysponowaniem pracy dla swoich algorytmów i jeśli tylko nie mamy jakichś dużych problemów na stronie, powinna ona indeksować się dosyć sprawnie.

Czym jest Crawl Demand?

Crawl demand to zapotrzebowanie samego Google na indeksowanie Twoich stron – zarówno nowych jak i tych starszych.

Popyt ten jest określany przez czynniki takie jak popularność witryny czy aktualność informacji znajdujących się wewnątrz strony. Im większą popularnością cieszy się strona, tym jej crawl demand będzie większy.

crawl demand

Oprócz jednak jej popularności, czynnikiem wpływającym są także aktualne informacje – rzeczy na świecie zmieniają się nie tylko w wyszukiwarce, a samo Google zawsze szuka najbardziej aktualnych przekazów.

Czym jest Crawl Rate Limit?

Crawl rate limit to limit tego, ile razy Google pozwala sobie na crawlowanie Twoich stron, aby nie przeciążyć twojego serwera i nie spowolnić twojej strony.

ustawianie crawl rate limit

Jest to liczba jednoczesnych równoległych połączeń, których Googlebot może użyć do indeksowania strony, a także czas, jaki musi odczekać między kolejnymi pobraniami. Google nie będzie przeciążać twojej strony stałym crawlowaniem, aby nie zająć zbyt dużych zasobów twojego serwera.

Jeśli jesteś przekonany, że twój crawl rate limit jest zdecydowanie za wysoki, przez co GoogleBot przeciąża twoją witrynę, możesz ustawić limit klikając tutaj.

Czynniki wpływające negatywnie na Crawl Budget

Jeżeli twoja strona nie chce zaindeksować się mimo próśb i upływającego czasu, co pośrednio ma negatywny wpływ na organic traffic, oto, co może być przyczyną.

Alternatywne adresy URL

Alternatywne adresy URL to różne linki, które prowadzą do tej samej podstrony.

Przykład: Masz sklep z zabawkami, w którym sprzedajesz edukacyjne maty dla dziecka. Robisz promocje na jeden ze swoich produktów, który znajduje się w kategorii “Maty edukacyjne” – tym samym umieszczasz go w jeszcze jednej kategorii, która służy ludziom do pokazania, które produkty są obecnie w ofercie specjalnej. Tym samym masz dwa adresy URL:

  • twoja-domena.pl/maty-edukacyjne/twoj_produkt
  • twoja-domena.pl/promocje/twoj_produkt
duplikaty a crawl budget

Jeśli nie określisz w tym wypadku, który adres URL jest kanoniczny, dla robota Google będą to zduplikowane wersje tej samej strony, co sprawi, iż wybierze on samodzielnie 1 adres URL jako wersję kanoniczną i tylko ją zindeksuje. Nie zawsze robot wybiera akurat ten adres, który chcemy.

Wszystkie pozostałe adresy przekierowujące do jednej i tej samej podstrony będą traktowane jako duplikaty – tym niemniej jednak, robot Google cały czas będzie poruszał się po wszystkich wersjach adresów URL jednej podstrony, tym samym wpływając negatywnie na twój crawl budget.

Dodatkowo, użycie atrybutu nofollow w przypadku linka naszej strony, którego nie chcemy indeksować wcale nie oznacza, iż robot Google nie wejdzie z nim w interakcje. Dyrektywa nofollow wpływa co prawda czasami na crawl budget, ale to zależy od wielu czynników.

Długie łańcuchy przekierowań

Im dłużej kierujesz robota do jakiejś strony, tym bardziej jest on “zmęczony” całą podróżą.

Każde kolejne przekierowanie to wydłużenie czasu oczekiwania na pojawienie się ostatecznej zawartości, która jest wręcz schowana skomplikowanymi powiązaniami między poszczególnymi linkami. Umiejętność linkowania wewnętrznego jest bardzo ważna w całym procesie crawl demand.

błędy przekierowań w google search console
Przykład długiego łańcucha przekierowań

Błędy przekierowań możemy sprawdzić w Google Search Console.

Wydajność strony

Wydajność strony ma duży wpływ na częstotliwość indeksacji naszej witryny. Możemy zmierzyć ją za pomocą PageSpeed Google.

wskaźniki pagespeed google digitix
Chcesz poprawić PageSpeed? Skontaktuj się z nami.

Jeśli wskaźniki Core Web Vitals świecą się na czerwono, oznacza to, iż takie rzeczy jak szybkość ładowania strony czy czas odpowiedzi serwera, na której witryna stoi mogą być znaczną przeszkodą nie tylko dla użytkowników odwiedzających twój serwis czy sklep internetowy, ale także robotów Google. Im wolniej bot porusza się po twojej stronie, tym bardziej będzie na tym cierpiał twój crawl budget.

W przypadku, gdy wydajność strony mieści się w przedziale 90 do 100 zarówno dla urządzenia mobilnego, jak i komputerów stacjonarnych nie ma powodu do obaw.

Brak odpowiednich komend w pliku robots.txt

Instrukcje, jakie możemy określić w pliku robots.txt mogą być zarówno pomocne dla robota crawlującego naszą witrynę, jak i szkodliwe.

Co prawda, Google w poście z 2009 roku (no właśnie, 2009 roku…) twierdzi. iż niedozwolone adresy URL nie mają bezpośredniego wypływu na crawl budżet.

Jednakże, jeśli przez nieumiejętne skonstruowanie komend w tym pliku wykluczymy wartościowe strony z odwiedzin przez robota Google, możemy mieć spory problem z indeksowaniem samych stron.

Google Search Console pokaże nam strony, jakie zostały wykluczone przez robots.txt.

blokada przez robots txt

Dynamiczne tworzenie wielu parametrów URL

Mając w naszej witrynie wyszukiwarkę, każde polecenie wpisane do niej będzie tworzyć nowy adres URL, najczęściej niestety niskiej jakości z uwagi na thin content.

crawl budget - dynamiczne adresy url

Jeśli przez odpowiednie instrukcje w wyżej omawianym pliku robots nie wykluczymy niektórych adresów URL z parametrami, będą one tworzyć się w nieskończoność, jednocześnie skutecznie zabijając nasz crawl budget wieloma adresami, które nie mają żadnej wartości, a które GoogleBot może odwiedzać za każdym razem, kiedy ktoś wpisze jakiekolwiek zapytanie do naszej wyszukiwarki.

Duplikaty treści, stron i URLe o niskiej wartości

Duplicate content, czy duplikat treści, to te strony, które są bardzo do siebie podobne lub dokładnie takie same.

crawl budget a duplicate content
Robot Google jest wyraźnie zniesmaczony duplicate contentem

Strony o niskiej wartości to te, które nie zawierają niczego potencjalnie przydatnego dla wyszukiwarki – np. strona koszyka w naszym sklepie internetowym. Jest ona zupełnie zbyteczna dla Google – raczej robot crawlujący nic od nas nie będzie chciał kupić, niezależnie, jak dobre towary i ceny będziemy oferowali.

Uszkodzone linki

Uszkodzone linki to najczęściej te, które zwracają kod błędu 404 – GoogleBot trafia na stronę, która nie zwraca żadnej wartości. Nie zaindeksuje jej, bo nic tam nie ma – a nasz crawl budget na tym ucierpiał,. Im więcej takich adresów znajduje się w naszej stronie, tym mniejsza szansa na to.

kod odpowiedzi serwera 404

Najczęściej dzieje się tak, gdy strona zaindeksowana w wynikach wyszukiwania zmieniła swój adres, a nikt nie zrobił przekierowania 301 na nowy link, aby dać znać Google, że zawartość, która tu była, jest już teraz gdzieś indziej.

Jak zwiększyć nasz crawl budget?

Jak wspomnieliśmy wcześniej, jeśli mamy stronę z mniej niż 10 tysiącami adresów URL, nasz budżet indeksowania rzadko będzie wymagał uwagi – w większości przypadków, jeśli spełnimy podstawowe wymogi Google’a, robot będzie radził sobie dobrze z naszą stronę.

Jeśli jednak jesteśmy przekonani, że nasz crawl rate limit jest zbyt niski i chcemy poprawić cały crawl budget, jest na to kilka sposobów.

Stwórz mapę witryny i podziel ją

Mapa witryny to plik przeznaczony dla robotów, w którym zawarte są informacje o wszystkich zasobach w Twojej witrynie oraz o związkach między poszczególnymi jej elementami.

Jedną z najlepszych praktyk, jeśli mówimy o optymalizacji crawl budgetu, jest podzielenie naszej sitemapy XML na mniejsze “sekcje”.

crawl budget a mapa witryny

Przykład: Posiadasz sklep internetowy składający się z różnych kategorii stron, z których każda z nich dla użytkownika prezentuje nieco inną wartość – masz na nim blog, w którym dzielisz się wskazówkami dotyczącymi swoich produktów lub branży, kategorie artykułów na tym blogu, są też strony w sekcji menu, kategorie stron czy wreszcie produkty oraz ich kategorie.

Każda z tych sekcji powinna być logicznie podzielona tak, aby wszystkie nowe elementy, które dodamy do jakiejkolwiek z powyższych kategorii były częściej indeksowane.

Popraw linkowanie wewnętrzne

Linkowanie wewnętrzne to jednej z najbardziej zaniedbanych tematów dotyczących SEO, który może bardzo negatywnie wpłynąć na nasz crawl rate limit i cały crawl budget.

Jeśli twoje strony nie są logicznie między sobą połączone, wyszukiwarka za nimi nie podąży w odpowiedni sposób. Indeksowane będą te strony, do których dotrzeć jest najłatwiej.

największe znaczenie ma linkowanie wewnętrzne
Widzisz ten komunikat? To znaczy, że Google nie znajduje określonego adresu URL w witrynie

Przykład z życia: Nasz klient, jeszcze przed współpracą z nami, zgłosił się do nas z problemem, że stworzył na swojej stronie podstronę o nazwie “Współpraca”, która miała spełniać funkcję zachęcającą dystrybutorów do podjęcia interakcji B2B z jego firmą.

Niestety, pomimo tego, że wstawił post z linkiem do niej na Facebooku dając znać, że jest otwarty na propozycje – strona przez długi czas nie została przez Google zindeksowana.

Stało się tak najpewniej dlatego, że Google nie uwzględnia w budowie rankingu przez swój algorytm linków z mediów społecznościowych, zaś sam klient ani nikt z jego pracowników na swojej stronie nie dodał tej zakładki do menu ani nie podlinkował jej w żadnym innym miejscu.

Tym samym była ona niewidoczna nie tylko dla użytkowników, którzy nie zetknęli się z jego social mediami, ale także dla robotów Google.

Rozwiązaniem było wstawienie do sekcji MENU zakładki współpraca – strona została zaindeksowana w ciągu 3 dni.

Przyspiesz Core Web Vitals

Core Web Vitals to wskaźniki opracowane przez Google, których celem jest wizualizacja responsywności strony. Wspominaliśmy o nich wyżej przy okazji wydajności naszej witryny. Jeśli chodzi o to, czy wyszukiwarka Google bierze je pod uwagę w przypadku pozycjonowania jest tutaj tyle opinii w branży SEO, ile specjalistów.

core web vitals witryny

Natomiast faktem jest, iż jeśli nasza witryna ładuje się wolno, na większości podstron robot Google będzie miał po prostu utrudnione zadanie. Im wolniej się bowiem porusza, tym bardziej niechętnie wykonuje swoją prace.

Przyspieszenie wskaźników PageSpeed może dać drugie życie twojej stronie. Niestety, nie zawsze jest to takie proste – czasem wymaga wdrożenia bardzo kosztownych poprawek na stronie.

Dodawaj więcej wartościowej treści

Contet is a king – im więcej wartościowego contentu posiadasz, tym więcej unikalnych podstron, które mają dużą wartość i mogą zostać szybko zindeksowane.

Pamiętaj jednak o zasadzie, że content w pierwszej kolejności musi mieć wartość dla użytkowników, a dopiero potem dla robotów.

Często strategia content marketingowa skupia się na pisaniu jak największej ilości treści pod wyszukiwarki – to błąd. Pamiętaj, że co prawda pisanie tekstu pod algorytm może wypozycjonować twój artykuł wyżej, ale to użytkownik koniec końcem jest twoim klientem – nie robot.

Idealną strategią, jeśli chodzi o content, jest więc balans między tym, co dobre dla użytkownika, a tym co dla wyszukiwarki. Pamiętaj także, iż im więcej dzieje się na twojej stronie, tym bardziej dajesz znać robotowi Google, że musi ją częściej odwiedzać, aby indeksować nowe treści.

Jak sprawdzić budżet indeksowania w Google Search Console?

Wiesz już, czym jest crawl budget i jaką rolę odgrywa w pobieraniu strony do indeksu Google. Teraz pora sprawdzić crawl budget w twojej witrynie.

Statystyki indeksowania adresów URL na danej stronie internetowej są dostępne po zalogowaniu się do narzędzia Google Search Console.

crawl budget - google search console

Przechodzimy do Google Search Console, następnie lewy dolny róg zakładka “Ustawienia” i “Statystyki indeksowania”. Oto naszym oczom ukazuje się raport budżetu indeksowania witryny.

Statystyki indeksowania w Google Search Console

Oprócz crawl budgetu, w Google Search Console sprawdzisz także stan swojego indeksu, mapy witryn oraz usunięcia.

co ma wspólnego crawl budget z indeksowaniem stron?

Stan indeksowania pokaże Ci wszystkie znane Google’owi strony. W GSC możemy podzielić go na 4 kategorie:

  • Błędy – pokazuje strony, które w wyniku problemów nie są zaindeksowane
  • Prawidłowe z ostrzeżeniem – pokazuje strony, które są zaindeksowane, ale występują z nimi problemy
  • Prawidłowe – pokazuje strony prawidłowo pobrane przez Google’a
  • Wykluczone – pokazuje te strony, które robot wykluczył

  • Przeczytaj o czym jeszcze piszemy: