Scraping

Che cos’è lo Scraping

Lo Scraping è una tecnica informatica che consiste nell’estrazione di dati in modo automatizzato attraverso strumenti in grado di scandagliare risorse web e collezionare informazioni.

Lo stesso Google attraverso i suoi parser utilizza metodi di scraping per analizzare i siti web ed estrarne i contenuti che utilizzerà poi per la propria catalogazione.

Il metodo di estrazione dei dati tramite sistemi di scraping si basa sull’analisi del codice di un sito per riconoscerne  strutture logiche simili ed essere quindi in grado di selezionare solo i dati di proprio interesse.

Immaginiamo di volere fare una ricerca dei migliori film usciti nel 2017. Andiamo su Google e cerchiamo “migliori film 2017” e scegliamo un sito web.

Il sito in questione ha al suo interno una lista di tutti i film usciti nel 2017 con informazioni su genere, anno di uscita, nazionalità, etc…

Se volessi utilizzare questa lista dovrei fare un copia ed incolla della pagina rischiando però di portarmi dietro informazioni di cui non ho bisogno (es: formattazione, immagini, etc.). Per fare un’estrazione pulita dei dati ci viene in aiuto proprio lo scraping che grazie al riconoscimento dell’architettura del sito ci permette di estrarre solo i dati di nostro interesse.

Grazie allo scraping posso identificare queste informazioni ed estrarle in maniera automatizzata. L’identificazione di queste informazioni può avvenire tramite diverse modalità che sfruttano la selezione di dati html o css (es: selettori jquery, nodi xml, selettori css, etc…).

 

Strumenti di Scraping

Lo Scraping è una tecnica che viene utilizzata ormai da molti anni e nel tempo sono cambiate le tecnologie per effettuare analisi automatizzate anche se la logica alla base dell’estrazione è rimasta sempre la stessa. In questo articolo vi indico 5 strumenti gratuiti (con possibilità di passare a versione premium per alcuni) che possono essere utilizzati per fare scraping.

Scroll to Top