Dal Garante privacy arrivano le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento, dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).
Obiettivo: addestrare gli algoritmi di intelligenza artificiale (IA) da parte di soggetti terzi, a contrasto del web scraping indiscriminato.
Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre approvata con Avviso pubblico. Il provvedimento è in corso di pubblicazione nella Gazzetta Ufficiale.
Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling.
L’attività di crawling si basa su software (il crawler è il bot o spider) che riesce a raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. Il crawler è normalmente utilizzato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati.
Il web scraping serve quindi a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.
Con Provvedimento del 14 gennaio 2016 e del 10 febbraio 2022 il Garante si è espresso in merito all’illiceità dell’utilizzo di dati raccolti tramite web scraping per finalità incompatibili con quelle iniziali.
Nel 2022 il Garante privacy ha sanzionato Clearview per 20 milioni di euro: la società aveva un database di oltre 10 miliardi di immagini di volti di persone di tutto il mondo, estratte da fonti web pubbliche tramite web scraping. L’azienda risultanze avrebbe trattato illecitamente i dati personali detenuti, inclusi quelli biometrici e di geolocalizzazione senza un’adeguata base giuridica, che non può sicuramente essere il legittimo interesse della società americana ed ha violato altri principi base del GDPR, come quelli relativi agli obblighi di trasparenza, non avendo adeguatamente informato gli utenti, di limitazione delle finalità del trattamento, avendo utilizzato i dati degli utenti per scopi diversi rispetto a quelli per i quali erano stati pubblicati online e di limitazione della conservazione, non avendo stabilito tempi di conservazione dei dati.
Nel Maggio 2023 Il Garante privacy con Provvedimento del 17 maggio 2023 ha vietato al titolare del sito web “www.trovanumeri.com” la costituzione e diffusione on line di un elenco telefonico formato “rastrellando” i dati tramite web scraping (ricerca automatizzata nel web) e gli ha ingiunto il pagamento di una sanzione di 60 mila euro.
L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale.
Spiega il Garante che diverse piattaforme di IA attraverso il webscraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati.
Il Garante invitava associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico a presentare i propri commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali ai fini di addestramento degli algoritmi.
L’Autorità ha ritenuto necessario fornire accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.
Nel documento l’Autorità suggerisce alcune misure concrete:
Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.