Termes relacionats

QUÈ ÉS ACRELIA NEWS?

Plataforma d'email màrqueting per correu electrònic en català, amb tot el que necessites per dissenyar, enviar i realitzar de forma completa i efectiva el seguiment de les teves campanyes

CREAR COMPTE ARA

Web Scraping

Tècnica per extreure informació d’una web de manera automàtica. Generalment es fa mitjançant un bot, tot i que també pot fer-se manualment. El resultat final és una fulla de dades en la qual s’han agregat les dades de vàries pàgines, per exemple, per comparar els preus de diferents botigues online.

Gestiona els teus enviaments d’email i SMS des d’una sola eina, fàcil d’utilitzar i en català. Prova-la ara.

Per què s’utilitza el web scraping

El motiu pel qual es necessiten les dades, així com la naturalesa de les mateixes, és el què diferencia el bon scraping d’aquell d’ètica dubtosa. Lògicament, és perfectament lícit aplicat el web scraping a una pàgina pròpia amb l’objectiu de fer-ne una auditoria o analitzar l’evolució i el resultat dels diferents continguts. S’utilitzaria doncs, per exemple, per extreure títols de pàgines, imatges i textos de qualsevol tipus, com descripcions de productes, preus, ressenyes...

Quan es fa l’scraping a altres webs, incloent-hi fòrums o portals, es pot recopilar la mateixa informació, però per analitzar la competència, i també és possible recol·lectar dades de contacte de persones, com telèfons, departaments o correus electrònics. Aquesta pràctica, aparentment útil per a àrees comercials, s’utilitza per crear bases de dades amb la finalitat de vendre-les posteriorment, fer que pot entrar en conflicte amb l’RGPD, ja que no es recull el consentiment dels propietaris de les dades per rebre missatges comercials d’empreses.

Com scrapejar una pàgina web

Extreure dades de manera manual és possible, tot i que comporta molt de temps aconseguir un volum que sigui significatiu. Utilitzar un bot, en canvi, simplifica molt el procés d’haver d’entrar individualment a cada pàgina i copiar i enganxar la informació que conté a una taula o base de dades.

Hi ha eines de web scraping que faciliten aquesta feina, com Import o Mozendo. Només és necessari registrar-se a aquests serveis i introduir la URL de la pàgina que es vol “scrapejar” per tal d’obtenir els resultats en pocs minuts, també de manera gràfica per tal de facilitar-se en seu anàlisi comparatiu. És possible trobar limitacions de nombre de visites o freqüència d’actualització, segons la configuració del bot.

Com evitar un atac d’scraping

És habitual que hi hagi bots visitant una pàgina web, però no tots resulten ser d’interès, com passa amb el de Google. És per això que és possible tractar de d’aturar els no desitjats mitjançant un bloqueig de la seva IP, utilitzant un Firewall al servidor o afegint un servei que comprovi l’origen de les visites, com ReCaptcha.

Podria semblar suficient tenir la informació emmagatzemada sota un usuari i una contrasenya per protegir-la. La realitat, però, ens diu que alguns bots poden saltar-se aquesta protecció, de manera que haurien d’implantar-se mesures de seguretat més fortes, com la doble confirmació de registre, per tal d’assegurar-se que qui està utilitzant el servei és, realment, una persona.