Hvad er robots.txt? hvorfor & hvordan bruges den?-Rittermann

En robots.txt fil er en lille tekstfil, der ligger i roden af din hjemmeside (ditdomæne.dk/robots.txt). Den bruges til at give instruktioner til webcrawlere (som f.eks. Googlebot) om, hvilke dele af din hjemmeside du ønsker at de skal og ikke skal besøge.

Med andre ord så styrer robots.txt-filen, hvilke sider søgemaskinerne må crawle.

Den kan bruges til at fintune og effektivisere SEO-strategien, så det er en god ide at bruge lidt energi på den.

Hvordan virker en robots.txt fil?

Som nævnt ovenfor så virker en robots.txt-fil ved at fortæller søgemaskiner og andre bots, hvilke sider de må eller ikke må crawle. Men det er en frivillig protokol og det betyder, at “velopdragne” bots som for eksempel Googlebot respekterer den, mens andre bots, kan vælge at ignorere den.

Den primære funktion med robots.txt filen er at styre crawling, og altså ikke indeksering – det betyder, at sider som du vælger at blokerede i robots.txt stadig kan blive vist i søgeresultater, især hvis der er eksterne links til dem.

Hvert subdomæne(altså underdomæner adskilt af punktum) bør have sin egen robots.txt-fil, fx underdomæne.ditdomæne.dk/robots.txt.

Aktivt at bruge robots.txt er selvfølgelig ikke en SEO disciplin der kan stå alene, men i kombination med andre SEO-metoder som; optimering af indhold, hastighedsoptimering, meta-tags, link building og canonical-tags for at optimere søgemaskineindeksering og undgå duplicate content.

Hvorfor er robots.txt vigtig i forhold til SEO?

Det kan være en rigtig god ide at bruge en robots.txt-fil i forhold til SEO arbejdet fordi den blandt andet kan hjælpe med:

Styring af crawl-budget

Søgemaskiner har et begrænset crawl-budget, hvilket betyder, at de kun kan crawle et bestemt antal sider på dit website inden for en given periode. Ved at bruge en robots.txt fil kan du blokere irrelevante eller dublerede sider, så søgemaskinerne fokuserer på de vigtigste sider.

Forhindring af indeksering af følsomt indhold

Visse sider, som admin-paneler, interne søgesider og testmiljøer, bør ikke være synlige i søgeresultaterne. Med en robots.txt fil kan du begrænse crawleres adgang til disse sider.

Håndtering af duplicate content

Hvis dit website har mange versioner af den samme side (f.eks. filterede produktsider), kan du bruge robots.txt til at forhindre søgemaskiner i at crawle disse sider og dermed undgå problemer med duplicate content, som kan skade din SEO, det bør dog altid kombineres med canonical-tags.

Optimering af serverbelastning

Ved at blokere ressourcekrævende sider kan du reducere belastningen på din server, hvilket kan forbedre websitets ydeevne

Prioritering af vigtige sider

Ved at prioritere vigtige sider kan du optimere hjemmesidens samlede synlighed.

Hvilke protokoller bruger robots.txt?

Filen robots.txt bruger i virkeligheden kun én protokol, men man kan på en måde godt sige at den bruger to forskellige. Den har nemlig det officielle protokolnavn “Robots Exclusion Protocol”, men den bruger også en form for “robots inclusion protocol”.

Robots Exclusion Protocol er den man oftest forbinder robots.txt med, da det er den protocol der er den officielle og den der fortæller søgemaskinerne, hvilke sider der ikke skal være adgang til.

“Robots inclusion protocol” viser til gengæld hvilke sider der gerne må vises. Dette skyldes at robots.txt filen har en “Sitemap”-funktion, og sitemaps viser hvilke sider søgemaskinerne netop skal tilgå.

Der findes mange forskellige funktioner i robots.txt. Hvis du gerne vil nørde lidt mere ned i det så forklarer i det følgende om fem af funktionerne, hvoraf de fire første er dem der oftest bliver brugt.

User agents

En User Agent kan bruges til at målrette regler mod specifikke crawlere. Det kan give kontrol over, hvordan forskellige bots interagerer med websiden, fordi man kan lave individuelle instrukser til de enkelte crawlere.

Nogle af de største crawlere er følgende:

Googlebot: Bruges af Google til at crawle og indeksere sider.
Bingbot: Microsofts bot til Bing-søgemaskinen.
Baiduspider: Anvendes af den kinesiske søgemaskine Baidu.
DuckDuckBot: Crawleren bag søgemaskinen DuckDuckGo.

Googlebot er i skrivende stund langt den mest anvendte User Agent, da Google dominerer markedet for søgemaskiner globalt. For websites med internationale målgrupper er det også en god ide at tage højde for regionale bots som Baiduspider hvis man er målrettet de kinesiske marked.
For at målrette regler mod alle bots kan du bruge wildcard-syntaksen:
“User-agent: *” (gælder for alle crawlere).

Disallow

Disallow er en kommando i en robots.txt-fil, der fortæller webcrawlere, hvilke områder af et website de ikke må tilgå. Det bruges til at beskytte sider, som ikke skal crawles eller indekseres, såsom testmiljøer, admin-paneler eller duplikeret indhold. Disallow fungerer ved at angive stien (path) til de sider eller mapper, der skal blokeres. Det stopper dog kun crawling, ikke nødvendigvis indeksering, hvis URL’en stadig er offentlig tilgængelig. For fuld kontrol over indeksering bør Disallow kombineres med meta-tags som noindex.

Eksempler på Disallow

Bloker en bestemt mappe: Disallow: /private/ Forhindrer bots i at crawle alle sider i /private/-mappen.
Bloker hele websitet: Disallow: / Stopper bots fra at crawle noget som helst på websitet.

Sidste eksempel er dog et usandsynligt scenarie da vi typisk gerne vil have crawlet og indekseret vores websider.

Allow

Allow er en kommando i en robots.txt-fil, der giver webcrawlere eksplicit tilladelse til at tilgå specifikke sider eller områder på et website. Den bruges ofte i kombination med Disallow, når man ønsker at blokere en hel sektion, men tillade adgang til enkelte sider inden for denne. Allow sikrer, at vigtige sider stadig kan crawles og vises i søgemaskineresultater, selv hvis de befinder sig i en ellers blokeret sektion. Ikke alle bots understøtter Allow, men de fleste store søgemaskiner, som Googlebot, gør.

Eksempler på Allow

Tillad en specifik side i en blokeret mappe:
Disallow: /blog/
Allow: /blog/vigtig-side/
Ovenstående blokerer alle sider i /blog/ undtagen /blog/vigtig-side/.
Tillad hele websitet:
Disallow:
Allow: /
Giver bots fuld adgang til hele websitet.

Sitemap

Sitemap-funktionen i robots.txt bruges til at hjælpe webcrawlere med at finde vigtige sider på et website. Ved at inkludere en Sitemap-kommando med URL’en til dit sitemap, gør du det nemmere for søgemaskiner at indeksere dit indhold korrekt.

Eksempel:
Sitemap: https://www.eksempel.dk/sitemap.xml

Et Sitemap fungerer som en guide for crawlere og sikrer, at ingen væsentlige sider overses, hvilket kan forbedre din SEO og gøre websitet mere tilgængeligt i søgemaskiner.

Du kan læse meget mere om sitemaps her.

Crawl delay

Crawl-delay er en kommando i en robots.txt-fil, der beder webcrawlere om at vente et specifikt tidsinterval mellem hver sideanmodning. Det bruges til at undgå, at crawlere (bots) belaster serveren for meget ved at sende for mange forespørgsler på kort tid. Tiden angives normalt i sekunder, afhængigt af botten. Kommandoen er især nyttig for websites med begrænsede serverressourcer eller meget indhold, der ellers kunne forårsage langsom indlæsning. Dog understøtter ikke alle bots denne kommando, bl.a. Googlebot der ignorerer kommandoen og selv bestemmer crawl tid. Crawl-delay bruges ikke særlig meget, men er god at kende, hvis der skulle blive brug for den.

Eksempler på Crawl-delay

Sæt en crawl-delay på 5 sekunder:
User-agent: *
Crawl-delay: 5
Instruerer alle bots til at vente 5 sekunder mellem hver sideanmodning.
Specifik crawl-delay for Bingbot:
User-agent: Bingbot
Crawl-delay: 10
Beder Bingbot om at vente 10 sekunder mellem hver forespørgsel.

Eksempel på robots.txt fil

Her er et eksempel på en simpel robots.txt-fil, der viser, hvordan man kan styre webcrawleres adgang til forskellige dele af et website:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /private/vores-team/
Sitemap: https://www.eksempel.dk/sitemap.xml

I dette eksempel:

Alle bots (User-agent: *) får adgang til websitet undtagen mapperne /admin/ og /private/.
Siden /private/vores-team/ er eksplicit tilladt, selvom den ligger i en ellers blokeret sektion.
Et sitemap er inkluderet for at hjælpe bots med at finde vigtige sider.

Dette setup hjælper med at optimere crawling og beskytte følsomme områder på dit website.

Begrænsninger ved robots.txt

Selvom robots.txt er et nyttigt værktøj til at styre, hvordan webcrawlere interagerer med dit website, har det nogle begrænsninger:

Frivillighed: Robots.txt er en frivillig protokol, og nogle bots vil ignorere den.
Ingen garanti for privatliv: Sider, der er blokeret via robots.txt, kan stadig blive indekseret, hvis deres URL findes andre steder.
Begrænset til crawling: Robots.txt styrer kun, hvad bots må crawle, men det forhindrer ikke nødvendigvis søgemaskiner i at vise sider i søgeresultater.
Manglende understøttelse: Ikke alle bots forstår avancerede kommandoer som Crawl-delay eller Allow.

Derfor bør robots.txt bruges i kombination med andre metoder som noindex-meta-tags og adgangskontrol for bedre beskyttelse og kontrol.

Sådan finder og redigerer du din robots.txt fil

Via et SEO-plugin i WordPress:
- Hvis du anvender et CMS som WordPress-hjemmesider, så kan du bruge SEO-plugins som Yoast SEO eller Rank Math, der gør det nemt at redigere robots.txt-filen direkte fra kontrolpanelet.
- Gå til plugin-indstillingerne, find sektionen for robots.txt, og rediger filen direkte derfra. Husk at gemme ændringerne, når du er færdig.
Alternativ metode (manuelt):
- Hvis du har adgang til dit webhotel, kan du finde filen i hjemmesidens rodmappe (typisk /public_html/) via en FTP-klient eller som fil ved din hostingplatform. Så kan du redigere den derfra.

Generering af robots.txt fil

Det er nemt at generere en robots.txt-fil, og der er flere metoder til det:

Brug et SEO-plugin:
- Plugins som Yoast SEO eller Rank Math i WordPress giver mulighed for automatisk at oprette en robots.txt-fil baseret på dine præferencer. Du kan redigere filen direkte i plugin-indstillingerne, som også nævnt ovenfor.
Online værktøjer:
- Der findes flere gratis værktøjer online, som kan hjælpe dig med at generere en robots.txt-fil. Du vælger blot, hvilke områder der skal crawles eller blokeres, og værktøjet laver filen for dig. En af siderne du kan bruge til at lave robots.txt filen kan være SEOptimer.
Manuel oprettelse:
- Åbn en teksteditor som Notepad, og skriv dine kommandoer manuelt. For eksempel:
  User-agent: *
  Disallow: /admin/
  Allow: /blog/
  Sitemap: https://www.eksempel.dk/sitemap.xml
- Gem filen som “robots.txt” og upload den til rodmappen på din hjemmeside.

Typiske fejl i en robots.txt fil

En forkert konfigureret robots.txt-fil kan skabe problemer for både SEO og brugeroplevelsen. Her er nogle af de mest almindelige fejl:

Blokering af vigtige sider:
- Ved en fejl kan sider, der skal være offentligt tilgængelige, blive blokeret, hvilket forhindrer søgemaskiner i at indeksere dem.
Manglende eller forkert formateret sitemap:
- Hvis sitemappet ikke er korrekt linket i robots.txt-filen, kan webcrawlere overse vigtige sider.
Brug af avancerede kommandoer, der ikke understøttes:
- Nogle bots forstår ikke kommandoer som Allow eller Crawl-delay, hvilket kan føre til uforudsete problemer.
Udelukkende brug af robots.txt til at skjule sider:
- Robots.txt forhindrer kun crawlere i at besøge siderne, men de kan stadig indekseres, hvis deres URL findes andre steder.
Syntaxfejl:
- Forkert opsætning, som forkerte mellemrum eller manglende linjeskift, kan gøre filen ineffektiv eller ubrugelig.

For at undgå disse fejl bør du regelmæssigt gennemgå og teste din robots.txt-fil med værktøjer som Google Search Console, læs mere om det herunder.

Test din robots.txt fil

For at sikre, at din robots.txt-fil fungerer korrekt og følger din SEO-strategi, er det en god ide at teste den. Her kommer en kort vejledning til hvordan du kan gøre det:

Google Search Console:
- Gå til Google Search Console, og brug værktøjet Robots.txt Tester under afsnittet “Indeks”. Her kan du indsætte din fil og se, om den fungerer som forventet.
Online værktøjer:
- Der findes mange gratis værktøjer online, som kan teste din robots.txt-fil. De giver en oversigt over, hvilke områder bots kan crawle, og hvilke der er blokeret.
Simulér bot-adfærd:
- Prøv at tilgå specifikke URL’er, som du har blokeret med din robots.txt-fil, for at sikre, at de ikke kan crawles af søgemaskiner.
Gennemgå ændringer:
- Hvis du opdaterer din robots.txt-fil, er det en god ide at teste den igen for at undgå utilsigtede blokeringer.

Når du tester din robots.txt kan du undgå fejl, der kan skade din synlighed i søgemaskinerne.

Opsummering – 3 tips til opsætning af robots.txt

Brug et SEO plug-in – Det er meget nemmere og hurtigere.
Brug “sitemap”-funktionen – Det hjælper bots med at crawle din hjemmeside bedre.
Hold den simpel og brug kommentarer – Filen kan hurtigt ende med at blive lang og forvirrende.

Du kan lære mere om robots.txt filen ved at læse om den ved Cloudflare eller Google.

Skrevet af Maibritt Rittermann

Lær at tage kontrollen over din Hjemmeside & Webshop

Hvad er en robots.txt fil og 3 gode tips til opsætning af robots.txt