Spring til indhold

Robots.txt guiden (OBS: den blokerer ikke for indeksering) đŸ€–

Robots.txt filen giver sÞgemaskinerne (og andre systemer) direktiver angÄende crawling af din hjemmeside.

Eksempler pÄ direktiver:

  • Blokering for crawling af specifikke filer, sider, eller undermapper
  • Blokering for crawling af et helt domĂŠne (inkl. protokoller og subdomĂŠner)
  • Henvisninger til dine sitemaps

Denne .txt fil finder du i dit (sub)domĂŠnes root directory (hvis du altsĂ„ har en). 

Som ogsĂ„ er mappen der kaldes noget knapt sĂ„ charmerende pĂ„ dansk, nemlig “rodmappe”. For mig giver det bĂ„de associationer til en rodet mappe, rodfrugter, eller begge dele. Men det er vidst en anden snak 🙂

Fejl i opsĂŠtningen af ens robots.txt kan vĂŠre en meget dyr fest.

Det kan bl.a. helt forhindre sÞgemaskinerne i helt at crawle din hjemmeside. En fejl du nok fÞrst ville finde ud af, nÄr det var for sent.

Eller hvis du i god tro bruger robots.txt filen til at blokere (disallow) for crawling af URL adresser, med vÊrdifulde eksterne backlinks, sÄ sÞgemaskinerne ikke kan tilgÄ siderne, og dermed heller ikke overfÞre link vÊrdien fra de eksterne links. Det samme gÊlder for dine egne links til andre hjemmesider.

Men bare rolig, i denne guide vil du blive guidet fra A-Å i hvordan du sikrer opsétningen af din robots.txt fil, og sikrer at optimal udnyttelse af dit SEO potentiale. Hvad end du har en robots.txt i forvejen eller ej.

SĂ„dan finder du din robots.txt fil

Det gÞr du ved blot at gÄ til dit /robots.txt URL adressen pÄ dit domÊne (eksempel.dk/robots.txt).

Det gĂŠlder os for dine subdomĂŠner (www/non-www) og protokoller (HTTP/HTTPS).

Nemmere bliver det nok ikke


Hvis du ikke ser en fil, betyder det du ikke har en (der er live i hvert fald).


De 8 dyre fejl i robots.txt

FÞrst og fremmest skal vi sikre os, at du ikke begÄr nogle typiske fejl i din robots.txt.

Det er dog ikke mĂŠrkeligt hvis du er kommet til det, da nogle af anbefalingerne ikke altid giver helt mening.

Selv for nogle af verdens stĂžrste hjemmesider bruger ikke direktiverne ud fra Googles seneste anbefalinger. Der kommer et eksempel senere i guiden.

Det hjÊlper heller ikke pÄ det, at der ikke findes universelle best-practices der passer alle. Det er i virkeligheden er det op til den enkelte, at vurdere hvad den bedste opsÊtning er.

1. Blokering af sĂžgemaskiner

De fleste bruger ogsÄ robots.txt til at blokere sÞgerobotterne, sÄ de ikke kan crawle specifikke sider eller undermapper.

FormĂ„let er at optimere crawlingen af sin hjemmeside, og samtidig bevare eller spare pĂ„ sit “crawl budget”. Og budgettet Ăžnsker vi sĂ„ vidt muligt at bevare til de vigtigste sider pĂ„ vores hjemmeside.

SÞgemaskinerne crawler nemlig ikke en ubegrÊnset mÊngde URL adresser pÄ et domÊne, og ens budget er derfor begrÊnset.

Dit crawl budget vurderer sÞgemaskinerne bl.a. ud fra stÞrrelsen af din hjemmeside, hastigheden, hyppigheden af evt. fejlkoder, populariteten mÄlt pÄ besÞgende, backlinks, og hvor ofte hjemmesiden opdateres med nyt indhold.

Og det giver jo super god mening, da det alternativt ville kréve uendelige ressourcer. Men i den virkelige verden, har selv Google (og andre sþgemaskiner) sine begrénsninger 🙂

Hvis du har en mindre hjemmeside er crawl budgettet dog ikke noget du skal bekymre dig sÄ meget om.

Lad os hurtigt gennemgÄ et eksempel pÄ en robots.txt fil.

Eksempel pÄ robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://ideelt.dk/post-sitemap.xml
Sitemap: https://ideelt.dk/page-sitemap.xml
Sitemap: https://ideelt.dk/category-sitemap.xml

1. linje: User-agent: *

Denne linje specificerer hvilken user agents der skal fĂžlge reglerne (f.eks. googlebot).

Stjernen indikerer, at reglen gĂŠlder for alle robotter. Hvis den f.eks. udskiftes med “googlebot” vil det betyde, at reglen kun gĂŠlder for Google. 

2. linje: Disallow: /wp-admin/

Denne linje specificerer hvilke URL adresser reglen gĂŠlder for.

Her gĂŠlder det om at vĂŠre opmĂŠrksom, da du i vĂŠrste fald kan blokere for hele din hjemmeside, eller vigtige dele af den.

En blokering af en hel hjemmeside vil se sĂ„ledes ud: 

Disallow: /

Hvis du f.eks. Þnsker at blokere en hel undermappe. Det kunne vÊre dine sÞgeresultatsider. SÄ kunne de se sÄdan her ud:

Disallow: /search

3. linje: Allow: /wp-admin/admin-ajax.php

Denne linje specificerer en undtagelse fra reglen i anden linje.

PÄ den mÄde kan du overskrive dine egne regler. Smart ikke?

5-7. linje: Sitemap: https://ideelt.dk/post-sitemap.xml…

Hver linje henviser til et sitemap.

TIP: Hvis du har et sitemap index, kan du blot nĂžjes med at tilfĂžje det.

2. Ugyldige wildcards

Ugyldige wildcards kan ogsÄ vÊre fatale for din organiske trafik.

Her er en tabel over de forskellige wildcards, og eksempler pÄ hvad de matcher og ikke matcher:

🔗 URL-sti:✅ URL-sti matcher:❌ URL-sti matcher ikke:
/Alle URL adresser
/*Alle URL adresser
/fisk*/fisk
/fisk.html
/fisk/laks.html
/fiskehoveder
/fiskehoveder/mums.html
/Fisk.asp
/havkat
/?id=fisk
/fisk//fisk/
/fisk/?id=altting
/fisk/laks.htm
/fisk
/fisk.html
/Fisk/Laks.asp
fisk//fisk/
/fisk/?id=alle
/fisk/laks.htm
/fisk
/fisk.html
/Fisk/Laks.asp
/*.php/filnavn.php
/folder/filnavn.php
/folder/filnavn.php
/folder/filnavn.php?parametre
/folder/alle.php.file.html
/filnavn.php/
/ (selv hvis den er knyttet til /index.php)
/windows.PHP
/*.php$/filnavn.php
/folder/filnavn.php
/filnavn.php?parametre
/filnavn.php/
/filnavn.php5
/windows.PHP
/fisk*.php/fisk.php
/fiskehoveder/havkat.php?
/Fisk.PHP
Kilde: Dog kan jeg godt lide fisk. Men Google skal alligevel have Êren for ovenstÄende eksempler

BemĂŠrk at du ikke nĂždvendigvis behĂžver at bruge * (stjerne) for enden af en URL-sti.

F.eks. sĂ„ ville “/fisk” ogsĂ„ gĂŠlde for “/fiskemad” eller “/fiskehandler-koebenhavn”.

3. Blokering af sider der bĂžr bruge noindex

Undrer du dig over, hvornÄr det giver mening at blokere sider i robots.txt, kontra at bruge noindex?

Umiddelbart ligner det jo at de gÞr en og samme ting, bare teknisk pÄ hver sin mÄde.

Den helt store forskel er, at robots.txt filen ikke garanterer, at en side ikke bliver indekseret (f.eks. hvis et andet domĂŠne linker til den.)

Du blokerer blot for adgangen til crawling af siden.

Hvis du bruger noindex, giver du stadig adgang for sÞgemaskinerne til at crawle siden, men fortÊller dem blot pÄ vejen ud, at den ikke skal indekseres.

Hvad, hvordan (og hvornÄr?) bÞr robots.txt sÄ bruges kontra noindex?

Det kommer vi ogsÄ ind pÄ lÊngere nede i guiden.

4. Blokering af sider der bruger noindex

Mange begÄr den fejl at blokere sider der samtidigt bruger noindex tagget.

Umiddelbart lader det mÄske til at give god mening. Hvis man gÞr begge dele, sÄ mÄ det jo betyde, at chancen for en side ikke bliver indekseret bare er stÞrre. Hurra!

…Men tvĂŠrtimod, sĂ„ betyder det faktisk, at du risikerer at fastlĂ„se indekseringen af en side.

Det skyldes at nÄr du blokerer for sÞgemaskinernes mulighed for at crawle siden, blokerer du ogsÄ for sÞgemaskinernes mulighed for at indlÊse noindex tagget pÄ siden.

Det betyder at en side stadig kan risikere at blive indekseret, hvis en anden hjemmeside linker til den.

5. Ligger under forkert protokol og/eller subdomĂŠne

Som nĂŠvnt tidligere, skal din robots.txt fil ligge i rodmappen for dit domĂŠne.

Hvis din hjemmeside f.eks. bruger HTTPS protokollen og WWW. subdomÊnet, skal det se sÄledes ud:

  • https://www.eksempel.dk/robots.txt.

Men hvis du ved en fejl ligger din robots.txt et andet sted. I dette tilfĂŠlde under en anden protokol eller/og subdomĂŠne. F.eks. under HTTP i stedet for HTTPS:

  • http://www.eksempel.dk/robots.txt.

SĂ„ vil robots.txt kun vĂŠre gĂŠldende for http://www.eksempel.dk/robots.txt og ikke din hjemmesides rigtige adresse, nemlig https://www.eksempel.dk/robots.txt i det her tilfĂŠlde.

Det samme gÊlder ogsÄ for subdomÊner, f.eks. https://shop.eksempel.dk/robots.txt. I dette tilfÊlde ville robots.txt vÊre gÊldende for https://shop.eksempel.dk/robots.txt, og ikke https://www.eksempel.dk

6. Manglende henvisning til sitemaps

Ved at linke til dine sitemaps i din robots.txt, gĂžr du det nemmere for sĂžgemaskinerne at finde dine sitemaps. Og dermed crawle, indeksere, og ultimativt eksponere din hjemmeside i sĂžgeresultaterne.

Eksempler:

Sitemap: https://eksempel.dk/post-sitemap.xml

Sitemap: https://eksempel.dk/page-sitemap.xml

Sitemap: https://eksempel.dk/category-sitemap.xml

Og sÄ giver det ogsÄ en nem og let tilgÊngeligt oversigt, over dine sitemaps.

TIP: Hvis du er i tvivl om du har nogle sitemaps i dag, eller hvor du finder dem, har jeg lavet et hurtigt skriv om det her.

7. Indeholder noindex direktiv

Google har ikke understĂžttet noindex direktivet i robots.txt siden d. 1 september 2019.

Eksempel:

Noindex: side-der-oenskes-noindexed

Hvis du ikke var klar over dette, og stadig bruger direktivet i dag, sÄ er der risiko for du har uÞnsket sider indekseret i sÞgemaskinerne.

LÞsningen er at fÄ implementeret noindex tagget pÄ selve siderne i stedet.

8. Forkert navngivning af fil

For at din robots.txt fil er gyldig, skal den navngives précis “robots.txt”.

AltsĂ„ ikke med f.eks. stort begyndelsesbogstav eller andet (f.eks. Robots.txt). 

SĂ„ledes at URL adressen for filen er “eksempel.dk/robots.txt”, alt efter hvad du bruger af protokol og subdomĂŠne.


SĂ„dan finder du URL adresserne til din egen robots.txt

Det fĂžrste vi skal er at finde siderne du ikke Ăžnsker skal crawles.

Og her kan der hurtigt opstÄ tvivl omkring om hvorvidt en URL bÞr blokeres via robots.txt eller ej.

Selv stÞrre sites som sÄsom HubSpot anbefaler brug af robots.txt til at forhindre sider i at blive indekseret:

Selvom Google ikke garanterer det er tilfĂŠldet:

Dog skriver de at siderne sandsynligvis ikke vil blive indekseret, men det er ingen garanti. Derfor anbefaler de noindex til det i stedet, og frarÄder brug af robots.txt til at forhindre duplikeret indhold:

Men hvornÄr bÞr robots.txt, noindex, eller endda canonicals sÄ bruges, nÄr en side ikke Þnskes indekseret?

Svaret er det populĂŠre; det kommer an pÄ 

Brug nedenstÄende illustration til at finde svare, og se uddybelse af lÞsningerne nedenunder:

LĂžsning 1 (kodeordsbeskyttet):

Den eneste mÄde at vÊre 100% sikker er ved at gemme siden bag en login-side.

LĂžsning 2 (canonicals):

Lav canonical(s) til den originale side.

Eksempel:

F.eks. i en varekategori pÄ en webshop, hvor en sortering- eller filtreringsfunktion genererer unikke indekserbare URL adresser (parameter URLs), og dermed duplikeret indhold.

Canonicals hjĂŠlper sĂžgemaskinerne med at vĂŠlge originalen, og nedsĂŠtter derfor risikoen for duplikeret indhold.

Samtidigt vedvarer du vĂŠrdien fra eksisterende- og potentielt fremtidige backlinks.

LĂžsning 3 (noindex):

Noindex kan vĂŠre det bedste valg.

Hvis du har en mindre mĂŠngde URL adresser, vil det umiddelbart heller ikke have de store konsekvenser for dit crawl budget at tillade crawling af siderne.

Det er ogsÄ Googles primÊre anbefaling kontra robots.txt, nÄr det kommer til at undgÄ indeksering af sider (der ikke er kodeordsbeskyttet):

OBS! Hvis du kom hertil fra “Mange > Er URL adresserne allerede indekseret? > Ja” skal du efterfĂžlgende huske at blokere for URL adresserne med robots.txt, nĂ„r de ikke lĂŠngere er indekseret i Google (og evt. andre sĂžgemaskiner).

AltsÄ nÄr siderne er blevet crawlet efter implementeringen af noindex tagget, og dermed ogsÄ fjernet fra sÞgemaskinerne.

Hvor lang tid det tager afhĂŠnger af mange variabler. Jeg anbefaler at du blot skemalĂŠgger et hurtigt tjek dagligt eller ugentligt, indtil du ikke lĂŠngere ser siderne i dine udvalgte sĂžgemaskiners indekser.

Men der er mÄske en hurtigere og smartere lÞsning.

Hvis URL adresserne ligger i specifikke undermapper (f.eks. /sider-du-oensker-at-ekskludere), kan du alternativt fjerne dem manuelt i Google Search Console (og Bing Webmaster Tools) i stedet for noindex.

I det tilfÊlde kan du springe noindex over, og gÄ direkte til lÞsning 4 (bruge robots.txt).

MEN:

  • Hvis siderne ikke er i undermapper, men er godt spredt, kan det vĂŠre for tidskrĂŠvende at fjerne dem med vĂŠrktĂžjerne, og noindex kan alligevel vĂŠre at foretrĂŠkke.
  • Bing gĂžr det kun muligt at fjerne enkelte sider. SĂ„ har du mange URL adresser, kan det hurtigt blive en meget tidskrĂŠvende opgave at fjerne dem derfra.

OBS! Hvis du vÊlger at bruge vÊrktÞjerne, sÄ vÊr varsom. De kan potentielt fjerne hele din hjemmeside fra sÞgemaskinerne, hvis du laver fejl.

Brug dem derfor kun hvis du har helt styr pÄ dem. Du kan lÊse mere om Googles vÊrktÞj her, og Bings vÊrktÞj her.

LĂžsning 4 (robots.txt):

Blokering i robots.txt kan vĂŠre det bedste valg.

Hvis du har en stÞrre mÊngde URL adresser, kan dit crawl budget risikere at blive spildt pÄ uÞnskede sider.

Selvom det sandsynligvis ikke vil ske, sÄ er ulempen sammenlignet med noindex, at du stadig risikerer en eller flere af dine sider bliver indekseret.

Men er alternativet at sÞgemaskinerne skal crawle tusindvis af irrelevante URL adresser, sÄ er det muligvis det vÊrd.

Vigtigt! UndgÄ at miste vÊrdien af eksisterende (og potentielt fremtidige) backlinks

Uanset om du vÊlger lÞsning 3 (noindex) eller 4 (robots.txt), sÄ vil du miste vÊrdien af eksisterende og fremtidige potentielle backlinks der peger til URL adresserne.

Google viderefĂžrer nemlig ikke linkvĂŠrdi til en side, der har vĂŠret noindexed i en lĂŠngere periode (ingen ved hvor lang tid det tager).

Og aldrig for sider blokeret i robots.txt.

Om det sÄ kan betale sig helt at undlade implementeringen af en af de to, afhÊnger af om konsekvenserne ved ikke at gÞre det, vejer mindre end vÊrdien af de eksisterende og potentielle backlinks.

Desto flere URL adresser du lader forblive indekseret,  desto mere vil det koste pĂ„ crawl budgettet, og desto mere duplikeret indhold vil du potentielt fĂ„.

Hvad der er det rigtige at gĂžre afhĂŠnger af din hjemmeside.

Som hovedregel vil jeg mene at der skal en overbevisende mĂŠngde af kvalitets backlinks til fĂžr det kan betale sig.

En god mÄde at vurdere det pÄ, er ogsÄ at kigge pÄ den eksisterende backlink trend for siderne.

Hvis du har sider eller undermapper du Þnsker at blokere, der har fÄet en vÊsentlig og kontinuerlig mÊngde trafik over en lÊngere periode (f.eks. 3 Är), uden at ryste nogle sÊrlige backlinks af sig. Ja, sÄ er sandsynligheden for der pludselig kommer backlinks til nok ogsÄ meget lille.

Og hvis der er tale om en stÞrre mÊngde URL adresser, sÄ giver det nok bedst mening at bruge robots.txt. Den mindre mÊngde sider der mÄske bliver indekseret, vejer nok ikke op for det sparet crawl budget.


Validering af robots.txt (og tilfĂžjelse til Google Search Console)

NĂ„r du er blevet fĂŠrdig med opsĂŠtningen af din egen fil, skal vi blot sikre os, at den ikke indeholder nogle fejl og mangler.

Det gĂžr vi med hjĂŠlp fra dette vĂŠrktĂžj i Google Search Console.

Det krĂŠver at du allerede har opsat din hjemmeside i Google Search Console. Hvis ikke det er tilfĂŠldet, kan du oprette en konto her.

NĂ„r du er logget ind, vil du se fĂžlgende side:

Hvis du allerede ser en robots.txt i feltet, sÄ betyder det bare, at du allerede har en robots.txt fil, eller har haft en Google tidligere har opsnappet.

SĂ„dan gĂžr du:

  1. Kopier teksten fra din robots.txt fil og indsĂŠt i feltet, hvad end der er en tekst i forvejen eller ej (se pil 1).

    Vi fÄr med det samme mulighed for at se evt. fejl eller advarsler (se pil 2):
  2. Kopier eksempler pÄ alle de URL adresser du enten har disallowed eller allowed, og test dem en efter en:

Resultat:

Resultatet er som forventet.

Nemlig at /wp-admin-disallow-test blev blokeret som den skulle.

  1. NĂ„r du har rettet evt. fejl er vi klar til at uploade din robots.txt fil
  1. Gem din robots som .txt fil og navngiv den “robots.txt”
  1. Upload filen i din rodmappe via dit webhotel, FTP klient, eller hvordan du end foretrĂŠkker

6. GĂ„ til dit domĂŠnes robots.txt, og bekrĂŠft om den er live (f.eks. https://eksempel.dk/robots.txt alt efter dit domĂŠnes protokol og subdomĂŠne):

  1. NĂ„r du har sikret upload, gĂ„r du tilbage til Google Search Console og vĂŠlger “Send”:
  1. Vélg “Send” under 3. punkt (anmoder Google om at opdatere):
  1. Det var det!
  2. Hvis Bing er en vigtig sĂžgemaskine for dig, har de et nĂŠsten identisk vĂŠrktĂžj her, hvor du blot kan kopiere denne proces
  3. Hvis du i fremtiden skulle ĂŠndre noget i din robots.txt fil, kan du med fordel gentage processen.

    Det er ikke et must, men det kan hjĂŠlpe sĂžgemaskinerne til at indlĂŠse ĂŠndringerne hurtigere.

God fornĂžjelse!

Sillas Larsen

MĂ„ jeg sende dig mine bedste SEO guldkorn? 🏆📈

Tilmeld dig mit nyhedsbrev, og hold dig opdateret pÄ (dansk) SEO.

Jeg gĂžr det altid kort og godt, da jeg ved du har andre ting at se til.

nv-author-image

Sillas Larsen

Hej! Jeg hedder Sillas, og det er mig der skriver her pÄ siden. Jeg har vÊret: SEO ansvarlig hos nogle af Danmarks stÞrste internetsucceser, SEO konsulent sÄvel som SEO specialist i webbureau, co-founder af en rÊkke webshops som hovedansvarlig for SEO, og indehaver af en rÊkke danske og internationale affiliate-sider. Jeg hÄber du fÄr gavn af min side. Hvis du har spÞrgsmÄl eller andet er du velkommen til at kontakte mig.

Har du spĂžrgsmĂ„l eller andet? SĂ„ del gerne her! ✍

Din e-mailadresse vil ikke blive publiceret. KrĂŠvede felter er markeret med *