Il data masking si prefigge il doppio obiettivo di proteggere la privacy e ridurre il rischio di data breach. Motivi sufficienti affinché ogni organizzazione lo prenda in debita considerazione non solo per ottemperare alla compliance ma anche per trasmettere un’immagine seria e solida di sé.
Le tecniche di data masking sono diverse e coprono più contesti, motivo per il quale non possono essere considerate in modo generico ma occorre sapere in quale direzione muoversi, tenendo anche conto delle normative a cui un’organizzazione deve sottostare.
Il primo elemento di forza dell’offuscamento dei dati è quello di obbligare le organizzazioni a categorizzare i dati di cui dispone per comprendere quali tecniche utilizzare e quali dati offuscare. Un esercizio organizzativo che può fare solo del bene.
I tanti tool disponibili facilitano le politiche di data masking che, per loro stessa natura, non sono esenti da limiti e rischi.
È un insieme di tecniche tese a proteggere i dati sensibili mediante un’opportuna trasformazione affinché possano essere usati senza mettere a rischio le informazioni, mantenendone però l’utilità funzionale.
Il data masking può essere reversibile oppure irreversibile e già questa peculiarità fa da spartiacque tra i tool che un’organizzazione può decidere di adottare.
Il principio operativo dell’offuscamento dei dati, nella sua forma più generica, può essere descritto così:
I dati mascherati mantengono la forma e anche la coerenza ma non possono essere in alcun modo ricondotti a quelli originali.
I vantaggi immediatamente spendibili risiedono nella possibilità di usare tali dati in ambienti di formazione, di test e di pre-produzione riducendo molto i rischi. Parole che possono sembrare astratte ma che danno luogo a conseguenze concrete.
Come sfiorato sopra, ci sono tecniche di data masking reversibili e altre irreversibili che si differenziano nella possibilità di recuperare i dati originali dopo l’offuscamento.
Va da sé che la tecnica o le tecniche da adottare dipendono dallo scopo per il quale i dati vengono trattati. Non c’è una ricetta univoca e non è neppure da escludere che la medesima organizzazione, a seconda dei dati, delle tecnologie usate e del processo specifico, possa avvalersi di più tecniche.
Sono utili negli ambienti di produzione dove gli utenti autorizzati devono accedere ai dati reali.
Tra le tecniche più diffuse figura la crittografia grazie alla quale i dati sono cifrati e possono essere decifrati con l’opportuna chiave.
La pseudonimizzazione prevede che i dati reali siano sostituiti da pseudonimi che rendono possibile risalire alla loro identità originale.
Il mascheramento dinamico viene applicato in tempo reale e nasconde il dato originale agli utenti non autorizzati, pur mantenendolo intatto.
Sono per lo più impiegate negli ambienti di test o di analisi laddove la privacy svolge un ruolo inalienabile.
Tra queste tecniche è utile annoverare l’anonimizzazione, che rimuove ogni collegamento con il dato originale. La tokenizzazione senza mappatura sostituisce i dati autentici con token casuali e, a seguire, tecniche come il nulling, lo shuffling e l’aggiunta di rumore alterano i dati in modo permanente.
Ci sono strumenti che consentono anche l’uso di tecniche di sostituzione, le quali cambiano i dati originali con altri finti ma verosimili (un esempio è la sostituzione del nome di una persona).
Il troncamento, tecnica tipicamente usata per nascondere solo una parte dei dati, è tra le più note insieme alla randomizzazione, che consiste nell’alterare le informazioni in modo del tutto casuale.
L’offuscamento dei dati è una buona prassi ma non è esente da criticità. Tuttavia, soprattutto in materia di compliance, i vantaggi sono superiori alle fragilità potenziali.
I vantaggi immediati sono:
I limiti sono per lo più riconducibili alla modalità e alla tecnica usate per il data masking che, giova ribadirlo, deve adattarsi alle necessità dell’organizzazione e quindi a quelle del comparto in cui questa opera. In sintesi:
Si tratta di svantaggi superabili con una pianificazione accorta. Prima di parlare dei tool utili al data masking, è opportuno spendere due parole sull’anonimizzazione dei dati.
Sono due discipline diverse che si pongono obiettivi differenti. Non possono essere intesi come termini interscambiabili. Abbiamo riassunto le principali prerogative nella tabella qui sotto.
Il tema dell’anonimizzazione dei dati è stato approfondito in questo articolo.
Il mercato offre molte soluzioni proprio perché il data masking si declina a seconda del tipo di dati, della tecnologia sottostante, dell’ambiente e del comparto n cui viene utilizzato.
Partiamo dagli strumenti Open source introducendo Faker, libreria per diversi linguaggi – tra i quali Python e PHP – che genera dati fittizi. Facile da usare, si presta tanto agli ambienti di test quanto a quelli di sviluppo e fa dell’alto livello di personalizzazione uno dei suoi maggiori pregi.
A chi può essere sufficiente una soluzione ancora più immediata suggeriamo Mockaroo, generatore di dati online. Predispone dati in file di diverso tipo, tra i quali SQL, Json e Csv. I suoi punti di forza sono la facilità d’uso, l’alta personalizzazione dei dati e la possibilità di automatizzare la generazione di dati anche senza scrivere codice.
L’offerta è molto vasta. Tra gli strumenti più noti citiamo Delphix che può essere considerato il coltellino svizzero dei dati. Più che un tool è una piattaforma che, oltre al data masking, si prodiga anche nell’automatizzare la virtualizzazione di database ed è usato anche per l’addestramento di modelli AI che, oltre a essere esposti ad attacchi cyber, devono avere un occhio aperto sulla compliance.
Il prezzo varia a seconda della licenza (on premise, cloud oppure ibrida), dei moduli utilizzati e dalla quantità di dati gestiti. Si tratta in ogni caso di un investimento che si misura in migliaia di euro.
Una soluzione diffusa negli ambienti enterprise è Informatica Persistent Data Masking, il cui pregio principale è la scalabilità. È in grado di mascherare grandi moli di dati sui database commerciali, su cloud, su Hadoop e anche su mainframe applicando regole condivise tra diversi ambienti e sistemi.
I log consentono audit e controlli minuziosi e, non di meno, si distingue per la stabilità e per la facilità d’uso, limitatamente alle configurazioni considerate standard. Settaggi più articolati, tipici però di ambienti altamente specializzati, possono risultare ostici.
Il prezzo è comunicato a chi ne fa richiesta e va da sé che, essendo una soluzione che guarda alle grandi organizzazioni, rappresenta un investimento che potrebbe essere pesante per le organizzazioni più piccole.
Le organizzazioni che usano database diversi possono prendere in considerazione DataVeil, soluzione che supporta Azure SQL, Oracle, MySQL e SQL Server. Entro la fine del 2025 il supporto verrà esteso anche a PostreSQL.
Pure non essendo adatto agli ambienti di produzione, è uno strumento specializzato nel data masking statico di facile utilizzo e particolarmente flessibile. Apprezzabile il preview interattivo che consente di osservare i dati originali al fianco di quelli mascherati.
I limiti principali sono, a nostro avviso, l’assenza di supporto avanzato ai database NoSQL e la mancanza del mascheramento dinamico.
Le formula di pricing segue i principi dell’abbonamento annuale il cui prezzo varia a seconda della quantità di dati e dalla tecnologia sottostante. A titolo di esempio, l’uso di DataVeil con database SQL Server esige l’esborso di 4.400 dollari annui, a cui aggiungere 1.290 dollari l’anno per ogni TB di dati, per un totale di circa 4.850 euro.
Va annoverato anche DataMasker, strumento nativo per Salesforce che offre il mascheramento dei dati in sandbox ed è scalabile fino a gestire 5 milioni di record ogni ora senza imporre particolari limiti a chi ne fa uso.
L’interfaccia grafica è pensata per essere di comprensione immediata e le API ne facilitano l’integrazione con gli ambienti Salesforce.
Le politiche di prezzo non devono trarre in inganno: viene proposto un abbonamento da 4,99 dollari al mese per utente (4,25 euro), vanno però lette le condizioni contrattuali perché potrebbero includere dei costi supplementari a seconda dell’uso che se ne fa.
Le aziende Tech che mettono a disposizione tecnologie per la conservazione e l’analisi di dati, tra queste Oracle, Microsoft e IBM, offrono anche soluzioni per il data masking.
Non di meno, sui diversi repository, si trovano strumenti utili a costi tenenti allo zero. Va comunque sottolineato che questi tool, per quanto ben fatti e sicuri, vanno valutati con attenzione prima di essere integrati in un’organizzazione.
Farvi ricorso è raccomandato soprattutto a chi, non avendo cognizione precisa del data masking in sé, vuole raggiungere una certa dimestichezza lavorando con dati fittizi ed eseguendo prove in ambienti appositamente creati.
I tanti tool di data masking garantiscono molti aspetti della compliance intesa nel senso più ampio del termine.
Alle nostre latitudini è importante che le imprese si assicurino che lo strumento scelto copra almeno queste normative:
A queste norme se ne aggiunge un numero variabile a seconda dei dati e dell’ambiente in cui un’azienda opera, si pensi in modo particolare alla sanità.
È quindi vitale che il rispetto della compliance diventi caratteristica centrale nella fase di valutazione di un tool per il data masking.