Søkerobot

En søkerobot (også kjent som crawler eller spider^[1]) er en Internett-bot som systematisk surfer verdensveven, som regel brukt for å indeksere vevsider til søkemotorer. Søkerobotene laster ned lokale kopier av vevsidene den besøker for videre analysering. Søkerobotene har nesten eksistert like lenge som verdensveven og alle søkemotorer er avhengig av en. Store søkemotorer som for eksempel Google bruker avanserte søkeroboter for å indeksere nettsider. Robotene må inneholde en liste over nettsider som skal besøkes, og om nettsiden er besøkt før.^[2]

Søkeroboter er nødvendige ettersom verdensveven ikke finnes på et sentralt administrert oppbevaringssted, men heller på mange millioner av uavhengige web leverandører^[1].

En søkerobot sin prosess kan kort forklares slik:^[3]

Utgangspunktet er et sett av S URL-er
Søkemotoren tar en URL fra S
Besøker den og sletter den fra S
Finner URL-er på siden, tar ut de som ikke finnes i S og legger til i S

Selv om konseptet fremstår som meget enkelt, er den store oppgaven å utvikle en søkerobot med høy ytelse. Det er også en utfordring med størrelsen og antallet av dokumenter, ettersom verdensveven er gigantisk.

[1]

[2]

[3]