Web Scraping: indagine conoscitiva

Che cos’è il Web Scraping

Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling.

L’attività di crawling si basa su software (il crawler è il bot o spider) che riesce a raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. Il crawler è normalmente utilizzato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati.

Il web scraping serve quindi a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Web scraping indiscriminato: cosa prevede il Garante Privacy

Con Provvedimento del 14 gennaio 2016 e del 10 febbraio 2022 il Garante si è espresso in merito all’illiceità dell’utilizzo di dati raccolti tramite web scraping per finalità incompatibili con quelle iniziali.

Nel 2022 il Garante privacy ha sanzionato Clearview per 20 milioni di euro: la società aveva un database di oltre 10 miliardi di immagini di volti di persone di tutto il mondo, estratte da fonti web pubbliche tramite web scraping. L’azienda risultanze avrebbe trattato illecitamente i dati personali detenuti, inclusi quelli biometrici e di geolocalizzazione senza un’adeguata base giuridica, che non può sicuramente essere il legittimo interesse della società americana ed ha violato altri principi base del GDPR, come quelli relativi agli obblighi di trasparenza, non avendo adeguatamente informato gli utenti, di limitazione delle finalità del trattamento, avendo utilizzato i dati degli utenti per scopi diversi rispetto a quelli per i quali erano stati pubblicati online e di limitazione della conservazione, non avendo stabilito tempi di conservazione dei dati.

Nel Maggio 2023 Il Garante privacy con Provvedimento del 17 maggio 2023 ha vietato al titolare del sito web “www.trovanumeri.com” la costituzione e diffusione on line di un elenco telefonico formato “rastrellando” i dati tramite web scraping (ricerca automatizzata nel web) e gli ha ingiunto il pagamento di una sanzione di 60 mila euro.

Indagine sul web scraping sui siti internet: chi riguarda?

L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale.

Spiega il Garante che diverse piattaforme di IA attraverso il webscraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati.

Il Garante invitava associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico a presentare i propri commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali ai fini di addestramento degli algoritmi.

Intelligenza artificiale: Garante privacy apre un’indagine sulla raccolta di dati personali on line per addestrare gli algoritmi. L’iniziativa è volta a verificare l’adozione di misure di sicurezza da parte di siti pubblici e privati

text/html; charset=UTF-8

Web Scraping: come contrastarlo: arrivano le Linee guida del Garante Privacy sui modelli di Intelligenza artificiale

L’Autorità ha ritenuto necessario fornire accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.

Nel documento l’Autorità suggerisce alcune misure concrete:

la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità;

l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita;

interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).

Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.

Security

14.10.25

Sicurezza 2025 rafforza il suo ruolo in Europa: crescono superficie e internazionalità

Gestione del rischio secondo la norma ISO 31000: un approccio strutturato e riconosciuto

Le difese elettroniche: una sicurezza indispensabile per le organizzazioni

Security Plan: le conoscenze necessarie per realizzarlo

Web Scraping: le Linee guida per l’addestramento dei modelli di Intelligenza Artificiale a tutela dei dati personali

Che cos’è il Web Scraping

Web scraping indiscriminato: cosa prevede il Garante Privacy

Indagine sul web scraping sui siti internet: chi riguarda?

Web Scraping: come contrastarlo: arrivano le Linee guida del Garante Privacy sui modelli di Intelligenza artificiale

Web Scraping: le Linee guida per l’addestramento dei modelli di Intelligenza Artificiale a tutela dei dati personali

Che cos’è il Web Scraping

Web scraping indiscriminato: cosa prevede il Garante Privacy

Indagine sul web scraping sui siti internet: chi riguarda?

Web Scraping: come contrastarlo: arrivano le Linee guida del Garante Privacy sui modelli di Intelligenza artificiale

Condividi l'articolo

Segui la newsletter di InSic per rimanere aggiornato

Sicurezza 2025 rafforza il suo ruolo in Europa: crescono superficie e internazionalità

Gestione del rischio secondo la norma ISO 31000: un approccio strutturato e riconosciuto

Le difese elettroniche: una sicurezza indispensabile per le organizzazioni

Security Plan: le conoscenze necessarie per realizzarlo

Segui la newsletter di InSic
per rimanere aggiornato