Ecco come i CIO possono proteggere le informazioni di identificazione personale

Il mondo dell’industria è sempre più alle prese con la gestione dei dati e, ormai, non può più fare a meno di affidarsi all’intelligenza artificiale per migliorare i processi e il decision making. Tuttavia, a fronte di questa necessità, si presenta è una sfida significativa per garantire la privacy delle informazioni sensibili di identificazione personale, le cosiddette PII, Personal Identifiable Information [in inglese] presenti nella maggior parte dei set di dati. La salvaguardia delle PII, d’altra parte, non è un problema nuovo, poiché i team IT interrogano i dati contenenti PII, ma solo pochi eletti ne richiedono l’accesso: la limitazione degli accessi, la protezione di questi ultimi basata sui ruoli, e il mascheramento sono stati ampiamente adottati nelle applicazioni di BI tradizionali per gestire l’accesso ai dati sensibili.

La protezione di questi ultimi nelle pipeline AI/ML di ultima generazione può avere diversi requisiti. La categoria emergente – e in continua crescita – di chi utilizza dati è costituita dai data scientist esperti di ML e dalle applicazioni che richiedono set di dati più grandi. In entrambi i casi, i proprietari dei dati devono camminare sul filo del rasoio per garantire che le componenti del loro ciclo di vita AI/ML abbiano l’accesso più appropriato a ciò di cui hanno bisogno, massimizzando, al contempo, la privacy dei dati PII.

Una nuova classe

I data scientist che si occupano di machine learning necessitano di grandi quantità di dati per addestrare i modelli di apprendimento automatico, i quali diventano poi, a loro volta, consumatori di grandi quantità di dati per fornire informazioni utili alle decisioni aziendali.

A differenza degli utenti tradizionali che hanno bisogno di accedere solo a quantità limitate di dati, questa nuova categoria di data scientist, come pure le applicazioni di ML richiedono l’accesso a interi set di dati per garantire che i loro modelli rappresentino gli output con precisione. E, anche quando essi vengono criptati o mascherati, non è detto che un malintenzionato non riesca a ricavare, dalla loro analisi, informazioni sensibili su coloro a cui fanno capo.

Per estrarre informazioni dai dati, gli scienziati dell’informazione utilizzano spesso tecniche avanzate come il deep learning, l’elaborazione del linguaggio naturale e la computer vision. Tuttavia, questi sforzi possono risultare rallentati o bloccati perché si trovano di fronte a dati sensibili PII presenti in alte percentuali nei set di dati: secondo le statistiche, si parla di percentuali di dati notevoli, che possono arrivare anche fino al 44% del totale [in inglese]. È facile comprendere, quindi, la misura in cui tale limitazione blocchi la strada verso la “terra promessa” dell’IA nella creazione di valore, nell’efficienza e nell’esplorazione di nuovi e rivoluzionari casi di utilizzo.

Sebbene, per ovviare al problema, siano state introdotte tecniche avanzate come la differential privacy, l’apprendimento federato, i dati sintetici e la crittografia omomorfa, che mirano a proteggere le PII che consentono ai data scientist e alle applicazioni di ML di accedere e analizzare i dati di cui hanno bisogno, il mercato ha ancora bisogno di soluzioni da implementare lungo tutto il ciclo di vita del ML (prima e dopo l’addestramento del modello) per proteggere le PII e allo stesso tempo accedere a vasti set di dati, senza modificare drasticamente la metodologia e l’hardware utilizzati oggi.

Come garantire la privacy e la sicurezza dei dati nel moderno ciclo di vita del ML

La nuova generazione di consumatori di dati di ML deve implementare misure di privacy in entrambe le fasi del suo ciclo di vita: quella dell’addestramento e quella dell’implementazione (o inferenza).

Nella fase di addestramento, l’obiettivo principale è quello di utilizzare gli esempi esistenti per istruire un modello, il quale dovrà poi effettuare previsioni accurate, come classificare campioni di dati che non ha potuto considerare come parte del dataset di addestramento. Gli insiemi di dati utilizzati in questo processo spesso contengono informazioni sensibili (come le PII) in ogni record che, per essere protette, richiedono tecniche e controlli avanzati che permettano di preservare la privacy.

Nella fase di implementazione del ML, quindi, il modello addestrato effettua previsioni sui nuovi dati che non ha esaminato durante l’addestramento, quelli di implementazione. Se, da un lato, è fondamentale garantire che le informazioni personali utilizzate per addestrare il modello di ML siano protette e che le previsioni del modello non rivelino informazioni sensibili, dall’altro è altrettanto importante proteggere le informazioni sensibili e quelle personali all’interno dei campioni di dati di inferenza. Quest’ultima operazione, tuttavia, quando si effettua su dati criptati è caratterizzata da una grande lentezza, proibitiva per la maggior parte delle applicazioni, anche quando si fa uso hardware personalizzato. Per questo motivo, c’è, oggi, un’esigenza critica di disponibilità soluzioni di privacy praticabili e a basso costo per garantire la riservatezza dei dati durante l’intero ciclo di vita del ML.

Il moderno kit di strumenti per la privacy per il ML e l’IA: vantaggi e svantaggi

Negli ultimi tempi, sono state sviluppati diversi sistemi per risolvere le questioni “calde” della PII, e l’apprendimento federato, il confidential computing, e i dati sintetici rappresentano esempi che la nuova classe di consumatori di dati sta esplorando per gestire la privacy nella ML e nell’AI. Tuttavia, ciascuna di queste metodologie si presenta con diversi livelli di efficacia e di complessità di implementazione per soddisfare i requisiti degli utenti.

Apprendimento federato

L’apprendimento federato è una tecnica di apprendimento automatico che consente l’addestramento su un set di dati decentralizzato e distribuito su più dispositivi. Invece di inviare i dati a un server centrale per l’elaborazione, avviene localmente su ogni macchina e solo gli aggiornamenti del modello vengono trasmessi a un server centrale.

Limitazioni: una ricerca condotta nel 2020 dall’Institute of Electrical and Electronics Engineers ha mostrato che un aggressore potrebbe acquisire informazioni private [in inglese] dai parametri del modello di apprendimento federato. Inoltre, tale metodologia non affronta la fase di inferenza, la quale espone i dati al modello ML durante l’implementazione del cloud o dei dispositivi edge.

Differential privacy

La privacy differenziale delimita i confini di come un singolo record di dati utilizzati per l’addestramento contribuisca alla creazione del modello di apprendimento automatico. Un test di appartenenza sui record di dati di addestramento assicura che, se un singolo record di dati viene rimosso dal set di dati, l’output non cambi oltre una certa soglia.

Limitazioni: sebbene l’addestramento con privacy differenziale presenti dei vantaggi, richiede, comunque, l’accesso del data scientist a grandi volumi di dati in chiaro. Inoltre, non affronta in alcun modo la fase di implementazione del ML.

Crittografia omomorfa

La crittografia omomorfa consente di eseguire calcoli sui dati mentre questi rimangono criptati. Ciò significa che gli algoritmi di apprendimento automatico possono operare sui dati crittografati senza dover essere prima decifrati. Ciò può garantire una maggiore privacy e sicurezza per i dati sensibili, poiché non vi è necessità che essi vengano rivelati in chiaro.

Limitazioni: La crittografia omomorfa può avere costi proibitivi, poiché operando sui dati crittografati anziché su quelli in chiaro, presuppone un’elevata intensità di calcolo. La crittografia omomorfa spesso richiede hardware personalizzato per ottimizzare le prestazioni, che può essere costoso da sviluppare e mantenere. Infine, per effettuare le operazioni crittografiche di questo tipo gli scienziati dei dati utilizzano reti neurali profonde spesso difficili da implementare in questo contesto.

Dati sintetici

I dati sintetici sono dati generati dal computer imitando quelli del mondo reale. Vengono spesso utilizzati per addestrare i modelli di machine learning e per proteggere i dati sensibili nel settore sanitario e finanziario. Possono generare rapidamente grandi quantità di dati e aggirare i rischi per la privacy.

Limitazioni: sebbene i dati sintetici possano aiutare ad addestrare un modello predittivo, coprono adeguatamente solo alcune possibili sotto-aree di dati del mondo reale. Ciò può comportare una perdita di precisione e compromettere le capacità del modello nella fase di inferenza. Inoltre, durante quest’ultima è necessario proteggere i dati reali, un aspetto del quale i dati sintetici non possono occuparsi.

Confidential computing

Il confidential computing è un approccio alla sicurezza che protegge i dati durante il loro utilizzo. Importanti aziende, tra le quali Google, Intel, Meta e Microsoft, si sono unite al Confidential Computing Consortium per promuovere i Trusted Execution Environments (TEEs), ambienti di esecuzione affidabili basati su hardware. La soluzione isola i calcoli in questi TEE per salvaguardare i dati.

Limitazioni: Il confidential computing richiede alle aziende di sostenere costi aggiuntivi per spostare i loro servizi basati sul ML su piattaforme che richiedono hardware specializzato. La soluzione, inoltre, è solo parzialmente esente da rischi. Un attacco del maggio 2021 [in inglese] ha raccolto e corrotto dati da TEEs basati sulla tecnologia Intel SGX [in inglese].

Sebbene queste soluzioni siano utili, i loro limiti diventano evidenti durante l’addestramento e l’implementazione dei modelli di intelligenza artificiale. La prossima fase della privacy delle PII dovrà essere leggera e integrare le misure e i processi di privacy esistenti, fornendo al contempo l’accesso a set di dati contenenti informazioni sensibili.

L’equilibrio tra la riservatezza delle PII e l’IA: una nuova classe di protezione

Quelli che abbiamo esaminato finora sono soltanto alcuni approcci recenti per salvaguardare le PII e per affrontare le sfide della nuova classe di consumatori di dati. Si tratta di un equilibrio in cui le PII non possono essere esposte all’IA, ma i consumatori di dati devono utilizzare quanti più dati possibile per generare nuovi casi d’uso e di generazione di valore. Inoltre, la maggior parte di queste soluzioni si occupa della protezione dei dati durante la fase di addestramento dell’intelligenza artificiale, senza offrire una risposta valida per la salvaguardia dei dati del mondo reale durante l’implementazione dell’IA.

In questo caso, abbiamo bisogno di una soluzione specifica per gestire questo equilibrio. Una di quelle che abbiamo utilizzato è Stained Glass Transform [in inglese], che consente alle aziende di estrarre istruzioni di ML dai dati proteggendoli, al contempo, dalla fuga di informazioni sensibili. La tecnologia sviluppata da Protopia AI è in grado di trasformare qualsiasi tipo di dato identificando ciò che i modelli di AI richiedono, eliminando le informazioni non necessarie e trasformando i dati il più possibile, pur mantenendo una loro quasi perfetta accuratezza. Per salvaguardare i dati degli utenti mentre lavorano sui modelli di IA, le aziende possono scegliere l’applicazione per migliorare l’addestramento e l’implementazione, ottenendo così previsioni e risultati migliori, e preoccupandosi meno dell’esposizione dei dati.

Inoltre, questa tecnologia aggiunge un nuovo livello di protezione per tutto il ciclo di vita del ML, sia per la formazione che per l’implementazione. In questo modo, si risolve una lacuna significativa, in cui la gestione della privacy rimaneva irrisolta durante la fase di inferenza ML per la maggior parte delle soluzioni, anche di ultima generazione.

L’ultima Gartner AI TriSM guide [in inglese] sull’implementazione e sulla gestione del Trust, dei Rischi e della Sicurezza nell’IA ha evidenziato lo stesso problema e la medesima soluzione. TRiSM guida le figure leader nel campo dell’analisi e i data scientist per aiutarli a garantire l’affidabilità, l’attendibilità e la sicurezza dell’IA.

Sebbene esistano diverse procedure per proteggere i dati sensibili, l’obiettivo finale è quello di consentire alle aziende di sfruttare al meglio i propri dati per alimentare l’IA.

Come scegliere la giusta soluzione

La scelta delle giuste soluzioni per la tutela della privacy è essenziale per vincere le sfide che riguardano ML e AI. È necessario, quindi, valutare attentamente ogni alternativa e selezionare quelle che completano, aumentano o si integrano meglio per soddisfare le vostre esigenze specifiche. Per esempio, i dati sintetici possono migliorare quelli del mondo reale, accrescendo le prestazioni dei modelli di IA, e possono essere utilizzati per simulare eventi rari che potrebbero essere difficili da studiare (vedi i disastri naturali), e per aumentare i dati del mondo reale quando sono limitati.

Un’altra soluzione promettente è il confidential computing, che può trasformare i dati prima del loro ingresso in un ambiente di esecuzione affidabile. Questa tecnologia costituisce un’ulteriore barriera, riducendo al minimo la superficie di attacco, e garantendo che i dati in chiaro non vengano compromessi anche qualora il TEE dovesse venire violato. Pertanto, scegliete le soluzioni di tutela della privacy che si adattano meglio alle vostre esigenze e massimizzate le prestazioni della vostra IA senza compromettere la privacy dei dati.

Per concludere

La protezione dei dati sensibili non è soltanto un problema tecnologico: è anche una sfida a livello aziendale. Via via che i nuovi consumatori di dati espandono le loro capacità di AI e ML, la protezione delle informazioni di identificazione personale (PII) [in inglese] diventa ancora più critica. Per creare modelli ad alte prestazioni che forniscano un valore corretto, dobbiamo massimizzare l’accesso ai dati e, contemporaneamente, salvaguardarli. Ogni soluzione per la tutela della privacy deve essere, quindi, valutata attentamente per risolvere le problematiche più urgenti dell’IA e del ML. In definitiva, dobbiamo ricordare che la riservatezza delle PII non riguarda solo la conformità e gli obblighi legali, ma anche il rispetto e la protezione della privacy e del benessere delle persone.

Data Privacy