Skraping på nettet: nyttige tips fra Semalt

I dag kan data bli den viktigste eiendelen. Som sådan er det aldri en god idé å la den gli i hendene på konkurrentene. Noen ganger kan det imidlertid være utfordrende å forhindre dette på grunn av skraping. Dette er en teknikk som i årevis har blitt brukt til å trekke ut data fra websider.

Denne metoden gir to viktige problemer for et firma. Først av alt, kan dataene brukes til å få en fordel i forhold til en virksomhet, kanskje ved å underprioritere prisene samt få informasjon om produkter. Hvis det gjøres vedvarende, kan teknikken også redusere ytelsen til et nettsted.

Generelt er skjermskraping et konsept som ble laget av tidlige terminalemuleringsprogrammer for et par tiår siden. Det er en programmatisk teknikk som trekker ut informasjon fra skjermbilder som først og fremst er designet for visning av mennesker. Programmet later til å være et menneske og leser dataene, samler verdifull informasjon og behandler det for lagring.

Teknikken har utviklet seg betydelig gjennom årene, spesielt med oppfinnelsen av webcrawlere. Det utviklet seg ytterligere med utviklingen av skjermskraping av e-detaljhandel, for eksempel nettsteder for prissammenligning. Disse nettstedene bruker programmer som med jevne mellomrom besøker populær e-detaljhandel for å få de nyeste prisene, samt tilgjengelighetsinformasjon for et gitt produkt eller tjeneste. Disse dataene blir deretter lagret i en database og brukes til å gi sammenlignende anmeldelser av e-detaljhandelen.

Konkurransedyktig skjermskraping har en rekke negative innvirkninger på IT-systemene til et firma ved at det bare er et annet eksempel på uønsket trafikk. Nyere studier har bevist at minst 61% av all trafikk genereres av roboter. Disse botsene bruker viktige ressurser så vel som båndbredde beregnet på ekte nettbrukere, noe som kan føre til en økt hastighet for virkelige kunder.

Skraping har skjedd i lang tid. Imidlertid er det først på nylig ofrene for denne oppførselen begynner å reagere. Noen har hevdet urettferdig forretningspraksis og brudd på opphavsrett, mens kontrastene til firmaene som gjør skraping, forsvarer seg ved å hevde informasjonsfrihet.

Mange eiere av nettstedet har brukt til å skrive bruksretningslinjer på websidene sine som forbyr aggressiv skraping. Dessverre kan de ikke håndheve disse retningslinjene, og det ser derfor ikke ut til at problemet snart forsvinner.

For mange år siden introduserte eBay et API som lar gode skrapere få tilgang til dataene dine. Det stopper imidlertid ikke den ondsinnede høstingen av informasjon som skal brukes til konkurransefortrinn. Det eneste virkelige forsvaret kan oppnås ved å bruke teknologi som kan blokkere ikke-menneskelige besøkende på nettstedet ditt. Dette gjør at de virkelige brukerne får tilgang til nettstedet ditt mens de blokkerer crawlerne fra å forårsake skade.

Andre effektive måter man kan bekjempe skjermskraping er ved bruk av teknikker som IP-omdømmeintelligens, forfalsket IP-kildedeteksjon, anmodningsanalyseanalyse, vurdering av trusselnivå i sanntid og håndheving av geografisk plassering.