Om websites te kunnen indexeren, maken zoekmachines gebruik van bots. Een bot is een computerprogramma dat autonoom bepaalde taken uit kan voeren zoals het spelen van een computerspel of het plaatsen van berichten. Een bot kan ook specifiek ontworpen worden voor het analyseren en indexeren van websites. Zo’n bot wordt ook wel een WP robot, crawler of spider genoemd. Normaal gesproken analyseert een WP robot alle delen van je website, maar soms kan het voorkomen dat je bepaalde pagina’s van je website liever niet geïndexeerd wilt hebben. Je kunt dan gebruik maken van het WordPress robots.txt bestand. Omdat je met dit bestand zoekmachines als het ware kunt sturen, is het een belangrijk onderdeel van de zoekmachineoptimalisatie van je website.
De WordPress robots.txt file is een bestand waarin je één, meerdere of alle zoekmachines instructies geeft over welke onderdelen van je website wel en niet geïndexeerd mogen worden. Zo kunnen er pagina’s zijn die je privé wilt houden, of pagina’s die alleen bedoeld zijn voor een select groepje. In het robots.txt bestand van je WordPress website kun je dan aangeven dat crawlers deze pagina niet mogen volgen. Dit is overigens een verzoek en geeft geen garantie dat crawlers deze pagina ook daadwerkelijk overslaan. Zet daarom nooit geheime informatie in een WordPress robots.txt file, maar zet deze op een beveiligde website of maak gebruik van een .htaccess-bestand.
Het robots.txt bestand werkt volgens het ‘robots exclusion protocol’. Dit houdt in dat je als webmaster aan moet geven welke delen van de website niet bekeken mogen worden, in plaats van dat je aangeeft welke delen wel bekeken mogen worden. De WordPress robots.txt file is een normaal tekstbestand dat in de ‘root directory’ geplaatst dient te worden. De root directory van je website bestaat uit een groep bestanden die samen de basisstructuur van je website vormen. De locatie van het robots.txt bestand op je WordPress website zal er als volgt uit komen te zien: http://www.domeinnaam.nl/robots.txt. Zorg er wel voor dat je robots.txt correct schrijft, want als je een spelfout maakt zal het bestand niet werken.
Om een WordPress robots.txt file aan te maken en zo je website voor zoekmachines te optimaliseren, dien je eerst toegang te krijgen tot de root van je domein. Je kunt bij de hostingprovider van je website controleren of je hier toegang toe hebt. Mocht je hier geen toegang toe hebben dan kan er een alternatieve blokkeringsmethode worden gebruikt. Heb je wel toegang, dan kun je een nieuw .txt-bestand openen in de teksteditor van je WordPress website en hier de functies van de WordPress robots.txt invoeren. Het bestand zal er als volgt uit komen te zien:
User-agent: [naam webcrawler]
Disallow: [naam map of pagina]
Allow: [naam map of pagina]
In het robots.txt bestand van je WordPress website zet je bij ‘User-agent’ de naam van de zoekmachinerobot (bijvoorbeeld Google) die je de toegang wilt weigeren tot de pagina. ‘Disallow’ (niet toestaan) is een opdracht voor de user-agent die aangeeft dat een bepaalde map of pagina niet mag worden doorzocht. Het kan voorkomen dat je een zoekmachine toegang wilt verlenen tot een bepaalde pagina, maar dat deze pagina een onderliggende pagina is van een bovenliggend Disallow-bestand. In dit geval kun je het trefwoord ‘Allow’ aan je WordPress robots.txt syntaxis toevoegen en hier aangeven welke pagina je wilt excluderen.
Er kunnen ook meerdere Disallow-regels en meerdere User agents in één bestand gezet worden. Bovendien kan de toegang tot een bepaalde pagina voor alle webcrawlers tegelijk geweigerd worden. Dit doe je door achter Disallow een sterretje (*) te zetten.
Voor vrijwel iedere functie die je wenst toe te voegen aan WordPress is er wel een plugin beschikbaar. Zo zijn er ook WordPress robots plugins. Deze WordPress robots plugins kunnen via de WordPress admin geïnstalleerd worden en helpen je onder andere om gemakkelijk een robots.txt-bestand te creëren of een bestand eenvoudig aan te passen vanuit je WordPress dashboard. Let bij de keuze van een WordPress robots plugin op de waardering van anderen en het aantal keer dat de plugin geïnstalleerd is; dit zegt namelijk veel over de kwaliteit van de plugin. Populaire en gebruiksvriendelijke WordPress robots plugins zijn: Virtual Robots.txt, KB Robots.txt en WP Robots Txt.