Robots.txt
Wat is Robots.txt?
Robots.txt is een bestand dat op een webserver wordt geplaatst en dat bepaalt welke pagina's of delen van een website toegankelijk zijn voor zoekmachine crawlers. Dit bestand wordt gewoonlijk gevonden op de root-directory van een website, bijvoorbeeld www.example.com/robots.txt.
In het robots.txt-bestand kunnen instructies worden opgegeven die aangeven welke pagina's of directories op een website niet mogen worden gecrawld door zoekmachines. Dit kan handig zijn als een website-eigenaar bijvoorbeeld bepaalde pagina's niet gevonden wilt laten worden in zoekresultaten of als er gevoelige informatie op een website staat die niet voor zoekmachines toegankelijk moet zijn.
Het is belangrijk om te weten dat robots.txt een suggestie is voor zoekmachines, en niet een bevel. Sommige zoekmachines kunnen besluiten om een pagina toch te crawlen, ondanks dat deze is uitgesloten in robots.txt. Ook kunnen kwaadwillende personen proberen verborgen pagina's te crawlen met gebruik van robots.txt bestand.
Daarom is het ook belangrijk om gebruik te maken van andere methoden zoals gebruik van de HTTP-header 'X-Robots-Tag' of gebruik van 'meta robots' tags in de HTML-code om te bepalen welke pagina's wel of niet gecrawld moeten worden.