'n Webkruiper (Engels: webcrawler of spider) is 'n sagteware robot wat die wêreldwyde web op 'n metodiese en geoutomatiseerde manier deurblaai. Webkruipers maak gewoonlik 'n lokale kopie van die opgeroepte bladsye om hulle sodoende later te kan verwerk, soos byvoorbeeld om hulle te indekseer vir soekenjins.

Die werkswyse is eenvoudig: die webkruiper begin met 'n lys van URL addresse en besoek hulle een vir een, waarby ál die webskakels wat in die besoekte bladsye voorkom ook aan die lys van addresse toegevoeg word. Op dié wyse kan 'n webkruiper feitlik alle toeganklike bladsye op die internet besoek.

Webkruipers kan bladsye baie vinniger as mense opvra en verwerk, en dit is dus belangrik dat hulle hulself gedra sodat hulle nie die webbedieners wat die webblaaie beskikbaarstel oorlaai nie. Die meeste webkruipers neem die moeite om bladsye van een webbediener nie almal ágter mekaar op te vra maar om hulle oor 'n tydsbestek te versprei om sodoende te verhoed dat die betreffende webbediener oorlaai word.

Robots.txt wysig

Vir eienaars en administrateurs van webwerwe is metodes beskikbaar gestel om die gedrag van webkruipers te beïnvloed. So kan in die wortel (Engels: root) van 'n webwerf 'n tekslêer namens 'robots.txt' geplaas word, wat beperkings vir webkruipers voorskryf. Daar kan aangegee word watter dele van die webwerf deur bepaalde webkruipers nie besoek mag word nie. 'n Goeie webkruiper sal dus voor dit 'n webwerf bekruip, eers hierdie lêer opsoek en kyk of daar enige toepaslike beperkings aangegee word.[1]

Sommige webkruipers ignoreer die robots.txt lêer wat nadelige gevolge vir die besoekte webwerf kan inhou. Om dit teen te werk kan mens op 'n webbediener die IP-adresse van die betreffende webkruipers blokkeer.

Voetnotas wysig

  1. Sien byvoorbeeld die tekslêer robots.txt van Wikipedia.