Hva er crawling og indeksering?

Crawling og indeksering er de to grunnleggende prosessene som gjør det mulig for søkemotorer å finne og vise nettsider i søkeresultatene. Crawling er oppdagelsesfasen der søkemotorens roboter besøker nettsider og leser innholdet, mens indeksering er lagringsfasen der innholdet analyseres og legges inn i søkemotorens database.

Kort forklart Crawling er når Google sender roboter ut for å lese nettsidene dine. Indeksering er når Google bestemmer seg for å lagre dem i sin database. Bare indekserte sider kan vises i søkeresultatene.

Hvordan crawling fungerer

Googlebot

Googlebot er Googles webcrawler – et automatisert program som systematisk besøker nettsider på internett. Den starter med en liste over kjente URL-er fra tidligere crawls og sitemaps, og følger deretter lenker fra side til side for å oppdage nytt innhold.

Googlebot finnes i to hovedvarianter: Googlebot Desktop som simulerer en desktop-nettleser, og Googlebot Smartphone som simulerer en mobilnettleser. Siden Google bruker mobile-first indexing, er det smarttelefonversjonen som primært brukes for rangering.

Crawl-prosessen

Når Googlebot besøker en side, laster den ned HTML-koden og registrerer alle lenker den finner. Den legger nye URL-er i en kø for fremtidig crawling. For hver side vurderer Googlebot innholdets type og format, lenkene på siden som peker til andre sider, tekniske signaler som HTTP-statuskoder og sidehastiget, og instruksjoner fra robots.txt og meta-tags.

Googlebot crawler ikke alle sider like ofte. Sider som oppdateres ofte, har høy autoritet eller er populære, crawles oftere enn statiske sider med lite trafikk.

Crawl budget

Crawl budget er et konsept som beskriver hvor mange sider Googlebot er villig til å crawle på nettstedet ditt innenfor en gitt tidsperiode. For de fleste nettsider er crawl budget ikke et problem, men for store nettsteder med hundretusenvis av sider kan det bli en begrensende faktor.

Faktorer som påvirker crawl budget er serverkapasitet der Google begrenser crawling hvis serveren er treg, nettstedets størrelse der flere sider betyr at budsjettet fordeles tynnere, oppdateringsfrekvens der sider som endres ofte prioriteres, og intern lenkestruktur der sider som er godt lenket internt crawles oftere.

Robots.txt

Robots.txt er en tekstfil som ligger i roten av nettstedet ditt og forteller søkemotorens roboter hvilke deler av nettstedet de kan og ikke kan crawle. Filen følger en enkel syntaks med User-agent for å spesifisere hvilken robot regelen gjelder, Disallow for å blokkere tilgang til bestemte stier, Allow for å eksplisitt tillate tilgang, og Sitemap for å peke til nettstedets sitemap.

Det er viktig å forstå at robots.txt blokkerer crawling, men ikke nødvendigvis indeksering. Hvis andre nettsider lenker til en side du har blokkert i robots.txt, kan Google fortsatt indeksere URL-en – bare uten å ha lest innholdet. For å virkelig hindre indeksering bør du bruke noindex meta-taggen.

Vanlige feil med robots.txt inkluderer å utilsiktet blokkere viktige sider eller ressurser som CSS og JavaScript som Google trenger for å rendere sidene dine korrekt.

Hvordan indeksering fungerer

Etter at Googlebot har crawlet en side, analyserer Google innholdet for å bestemme om det skal inkluderes i indeksen. Denne analysen omfatter tekstinnholdet og dets relevans og kvalitet, sidens struktur med overskrifter, avsnitt og lenker, metadata som title tag og meta description, strukturerte data og schema-markup, og duplikatsjekk mot eksisterende indeksert innhold.

Indeksert vs. ikke-indeksert

Ikke alle crawlede sider blir indeksert. Vanlige grunner til at en side ikke indekseres er at den inneholder noindex-tag som eksplisitt ber Google om å ikke indeksere, duplikatinnhold der innholdet er for likt en annen side som allerede er indeksert, tynt innhold der siden har for lite verdifullt innhold, dårlig kvalitet der innholdet ikke oppfyller Googles kvalitetskrav, eller canonical-tag som peker til en annen URL som den foretrukne versjonen.

XML Sitemap

En XML-sitemap er en fil som lister opp alle viktige URL-er på nettstedet ditt. Den fungerer som et veikart for søkemotorer og hjelper dem med å oppdage sider som kanskje ikke er lett tilgjengelige via intern lenking.

En god sitemap bør inkludere alle viktige og indekserbare sider, ekskludere sider med noindex eller som er blokkert i robots.txt, inneholde korrekte lastmod-datoer som viser når innholdet sist ble oppdatert, og være sendt inn via Google Search Console.

For dynamiske nettsider bør sitemapen genereres automatisk slik at nye sider legges til og slettede sider fjernes. De fleste moderne rammeverk og CMS-systemer støtter automatisk sitemap-generering.

Indekseringskontroll

Du har flere verktøy for å kontrollere hvordan Google indekserer nettsiden din. Noindex meta-tag hindrer en spesifikk side fra å bli indeksert, nyttig for interne sider, duplisert innhold eller sider under utvikling. Canonical tag forteller Google hvilken versjon av en side som er den foretrukne, og samler rangeringskraften på én URL. Google Search Console lar deg be om indeksering av nye eller oppdaterte sider, sjekke indekseringsstatus og identifisere problemer.

Vanlige indekseringsproblemer

Noen av de vanligste problemene som hindrer indeksering er feil i robots.txt som utilsiktet blokkerer viktige sider, noindex-tagger som er blitt stående etter lansering, omdirigeringsløkker eller kjeder som forvirrer Googlebot, serverproblemer som gjør sider utilgjengelige når Googlebot besøker dem, og orphan pages som er sider uten interne lenker dit.

For å identifisere og løse disse problemene bør du regelmessig sjekke indekseringsrapporten i Google Search Console, crawle nettstedet med verktøy som Screaming Frog, og sørge for at alle viktige sider er tilgjengelige via intern lenking.

Rendering og JavaScript

Moderne nettsider bruker ofte JavaScript for å generere innhold. Google kan rendere JavaScript, men prosessen er tofaset: først crawles HTML-en, deretter renderes JavaScript i en separat kø. Dette kan bety at JavaScript-generert innhold tar lengre tid å bli indeksert.

For best mulig indeksering av JavaScript-tunge nettsider kan du bruke server-side rendering eller static site generation, sørge for at viktig innhold er tilgjengelig i den initielle HTML-en, og teste rendering med URL-inspeksjonsverktøyet i Google Search Console.

Ofte stilte spørsmål

Hvor lang tid tar det før en ny side blir indeksert?

Det varierer fra timer til uker. Du kan fremskynde prosessen ved å be om indeksering via Google Search Console og sørge for at siden er lenket fra andre allerede indekserte sider.

Hvorfor er siden min ikke indeksert?

Sjekk Google Search Console under «Sider»-rapporten for spesifikk informasjon. Vanlige årsaker er noindex-tag, duplisert innhold, tynt innhold eller at siden er for ny.

Bør jeg blokkere noe i robots.txt?

For de fleste nettsider trenger du minimal blokkering. Blokker admin-sider, interne søkeresultater og andre sider uten SEO-verdi. Blokker aldri CSS- eller JavaScript-filer som trengs for rendering.

Hva er forskjellen mellom crawling og indeksering?

Crawling er oppdagelsesfasen der Google leser siden. Indeksering er beslutningen om å lagre den. En side kan crawles uten å bli indeksert, men den kan ikke indekseres uten å bli crawlet.