Cos’è il data masking e quali strumenti si possono usare
文章探讨了数据脱敏的目的、技术和工具,强调其在保护隐私和降低数据泄露风险中的作用,并区分了可逆与不可逆技术及开源与商业工具的选择,同时指出合规性如GDPR等法规是关键考量因素。 2025-7-30 07:1:37 Author: www.cybersecurity360.it(查看原文) 阅读量:14 收藏

Il data masking si prefigge il doppio obiettivo di proteggere la privacy e ridurre il rischio di data breach. Motivi sufficienti affinché ogni organizzazione lo prenda in debita considerazione non solo per ottemperare alla compliance ma anche per trasmettere un’immagine seria e solida di sé.

Le tecniche di data masking sono diverse e coprono più contesti, motivo per il quale non possono essere considerate in modo generico ma occorre sapere in quale direzione muoversi, tenendo anche conto delle normative a cui un’organizzazione deve sottostare.

Il primo elemento di forza dell’offuscamento dei dati è quello di obbligare le organizzazioni a categorizzare i dati di cui dispone per comprendere quali tecniche utilizzare e quali dati offuscare. Un esercizio organizzativo che può fare solo del bene.

I tanti tool disponibili facilitano le politiche di data masking che, per loro stessa natura, non sono esenti da limiti e rischi.

Cos’è il data masking

È un insieme di tecniche tese a proteggere i dati sensibili mediante un’opportuna trasformazione affinché possano essere usati senza mettere a rischio le informazioni, mantenendone però l’utilità funzionale.

Il data masking può essere reversibile oppure irreversibile e già questa peculiarità fa da spartiacque tra i tool che un’organizzazione può decidere di adottare.

Il principio operativo dell’offuscamento dei dati, nella sua forma più generica, può essere descritto così:

  • Si parte da un set di dati originale (per esempio, un database anagrafico)
  • Si individuano i dati sensibili, procedendo così a una classificazione
  • Si applica una delle tecniche di offuscamento che può essere variabile a seconda della sensibilità dei dati

I dati mascherati mantengono la forma e anche la coerenza ma non possono essere in alcun modo ricondotti a quelli originali.

I vantaggi immediatamente spendibili risiedono nella possibilità di usare tali dati in ambienti di formazione, di test e di pre-produzione riducendo molto i rischi. Parole che possono sembrare astratte ma che danno luogo a conseguenze concrete.

Come funziona il data masking

Come sfiorato sopra, ci sono tecniche di data masking reversibili e altre irreversibili che si differenziano nella possibilità di recuperare i dati originali dopo l’offuscamento.

Va da sé che la tecnica o le tecniche da adottare dipendono dallo scopo per il quale i dati vengono trattati. Non c’è una ricetta univoca e non è neppure da escludere che la medesima organizzazione, a seconda dei dati, delle tecnologie usate e del processo specifico, possa avvalersi di più tecniche.

Le tecniche reversibili

Sono utili negli ambienti di produzione dove gli utenti autorizzati devono accedere ai dati reali.

Tra le tecniche più diffuse figura la crittografia grazie alla quale i dati sono cifrati e possono essere decifrati con l’opportuna chiave.

La pseudonimizzazione prevede che i dati reali siano sostituiti da pseudonimi che rendono possibile risalire alla loro identità originale.

Il mascheramento dinamico viene applicato in tempo reale e nasconde il dato originale agli utenti non autorizzati, pur mantenendolo intatto.

Le tecniche irreversibili

Sono per lo più impiegate negli ambienti di test o di analisi laddove la privacy svolge un ruolo inalienabile.

Tra queste tecniche è utile annoverare l’anonimizzazione, che rimuove ogni collegamento con il dato originale. La tokenizzazione senza mappatura sostituisce i dati autentici con token casuali e, a seguire, tecniche come il nulling, lo shuffling e l’aggiunta di rumore alterano i dati in modo permanente.

Ci sono strumenti che consentono anche l’uso di tecniche di sostituzione, le quali cambiano i dati originali con altri finti ma verosimili (un esempio è la sostituzione del nome di una persona).

Il troncamento, tecnica tipicamente usata per nascondere solo una parte dei dati, è tra le più note insieme alla randomizzazione, che consiste nell’alterare le informazioni in modo del tutto casuale.

I vantaggi e gli svantaggi del data masking

L’offuscamento dei dati è una buona prassi ma non è esente da criticità. Tuttavia, soprattutto in materia di compliance, i vantaggi sono superiori alle fragilità potenziali.

I vantaggi immediati sono:

  • Il minore rischio di furto di dati (data leakage)
  • Il supporto della compliance (non solo il GDPR, come vedremo più avanti)
  • La facoltà di effettuare test realistici senza esporre i dati originali a rischio
  • La ricaduta positiva sulla reputazione dell’organizzazione.

I limiti sono per lo più riconducibili alla modalità e alla tecnica usate per il data masking che, giova ribadirlo, deve adattarsi alle necessità dell’organizzazione e quindi a quelle del comparto in cui questa opera. In sintesi:

  • Il rischio di rendere i dati facilmente re-identificabili se il masking è debole
  • La perdita di qualità durante le fasi di test se il masking è aggressivo
  • Difficoltà nel fare dialogare i dataset offuscati tra ambienti diversi se vengono usate tecniche di masking differenti tra loro.

Si tratta di svantaggi superabili con una pianificazione accorta. Prima di parlare dei tool utili al data masking, è opportuno spendere due parole sull’anonimizzazione dei dati.

Le differenze tra data masking e data anonymization

Sono due discipline diverse che si pongono obiettivi differenti. Non possono essere intesi come termini interscambiabili. Abbiamo riassunto le principali prerogative nella tabella qui sotto.

Il tema dell’anonimizzazione dei dati è stato approfondito in questo articolo.

I tool per il data masking

Il mercato offre molte soluzioni proprio perché il data masking si declina a seconda del tipo di dati, della tecnologia sottostante, dell’ambiente e del comparto n cui viene utilizzato.

I tool Open source

Partiamo dagli strumenti Open source introducendo Faker, libreria per diversi linguaggi – tra i quali Python e PHP – che genera dati fittizi. Facile da usare, si presta tanto agli ambienti di test quanto a quelli di sviluppo e fa dell’alto livello di personalizzazione uno dei suoi maggiori pregi.

A chi può essere sufficiente una soluzione ancora più immediata suggeriamo Mockaroo, generatore di dati online. Predispone dati in file di diverso tipo, tra i quali SQL, Json e Csv. I suoi punti di forza sono la facilità d’uso, l’alta personalizzazione dei dati e la possibilità di automatizzare la generazione di dati anche senza scrivere codice.

I tool commerciali

L’offerta è molto vasta. Tra gli strumenti più noti citiamo Delphix che può essere considerato il coltellino svizzero dei dati. Più che un tool è una piattaforma che, oltre al data masking, si prodiga anche nell’automatizzare la virtualizzazione di database ed è usato anche per l’addestramento di modelli AI che, oltre a essere esposti ad attacchi cyber, devono avere un occhio aperto sulla compliance.

Il prezzo varia a seconda della licenza (on premise, cloud oppure ibrida), dei moduli utilizzati e dalla quantità di dati gestiti. Si tratta in ogni caso di un investimento che si misura in migliaia di euro.

Una soluzione diffusa negli ambienti enterprise è Informatica Persistent Data Masking, il cui pregio principale è la scalabilità. È in grado di mascherare grandi moli di dati sui database commerciali, su cloud, su Hadoop e anche su mainframe applicando regole condivise tra diversi ambienti e sistemi.

I log consentono audit e controlli minuziosi e, non di meno, si distingue per la stabilità e per la facilità d’uso, limitatamente alle configurazioni considerate standard. Settaggi più articolati, tipici però di ambienti altamente specializzati, possono risultare ostici.

Il prezzo è comunicato a chi ne fa richiesta e va da sé che, essendo una soluzione che guarda alle grandi organizzazioni, rappresenta un investimento che potrebbe essere pesante per le organizzazioni più piccole.

Le organizzazioni che usano database diversi possono prendere in considerazione DataVeil, soluzione che supporta Azure SQL, Oracle, MySQL e SQL Server. Entro la fine del 2025 il supporto verrà esteso anche a PostreSQL.

Pure non essendo adatto agli ambienti di produzione, è uno strumento specializzato nel data masking statico di facile utilizzo e particolarmente flessibile. Apprezzabile il preview interattivo che consente di osservare i dati originali al fianco di quelli mascherati.

I limiti principali sono, a nostro avviso, l’assenza di supporto avanzato ai database NoSQL e la mancanza del mascheramento dinamico.

Le formula di pricing segue i principi dell’abbonamento annuale il cui prezzo varia a seconda della quantità di dati e dalla tecnologia sottostante. A titolo di esempio, l’uso di DataVeil con database SQL Server esige l’esborso di 4.400 dollari annui, a cui aggiungere 1.290 dollari l’anno per ogni TB di dati, per un totale di circa 4.850 euro.

Va annoverato anche DataMasker, strumento nativo per Salesforce che offre il mascheramento dei dati in sandbox ed è scalabile fino a gestire 5 milioni di record ogni ora senza imporre particolari limiti a chi ne fa uso.

L’interfaccia grafica è pensata per essere di comprensione immediata e le API ne facilitano l’integrazione con gli ambienti Salesforce.

Le politiche di prezzo non devono trarre in inganno: viene proposto un abbonamento da 4,99 dollari al mese per utente (4,25 euro), vanno però lette le condizioni contrattuali perché potrebbero includere dei costi supplementari a seconda dell’uso che se ne fa.

Altri tool

Le aziende Tech che mettono a disposizione tecnologie per la conservazione e l’analisi di dati, tra queste Oracle, Microsoft e IBM, offrono anche soluzioni per il data masking.

Non di meno, sui diversi repository, si trovano strumenti utili a costi tenenti allo zero. Va comunque sottolineato che questi tool, per quanto ben fatti e sicuri, vanno valutati con attenzione prima di essere integrati in un’organizzazione.

Farvi ricorso è raccomandato soprattutto a chi, non avendo cognizione precisa del data masking in sé, vuole raggiungere una certa dimestichezza lavorando con dati fittizi ed eseguendo prove in ambienti appositamente creati.

Le norme di riferimento

I tanti tool di data masking garantiscono molti aspetti della compliance intesa nel senso più ampio del termine.

Alle nostre latitudini è importante che le imprese si assicurino che lo strumento scelto copra almeno queste normative:

  • GDPR, con richiamo particolare all’articolo 32 che richiede misure per la protezione dei dati personali
  • ISO/IEC 27001 raccomanda tecniche di mascheramento dei dati
  • PCI DSS che, per chiarezza, non è uno standard obbligatorio per legge ma – laddove un’azienda gestisse direttamente i dati delle carte di credito o debito – il GDPR intende tale standard come altamente raccomandato.

A queste norme se ne aggiunge un numero variabile a seconda dei dati e dell’ambiente in cui un’azienda opera, si pensi in modo particolare alla sanità.

È quindi vitale che il rispetto della compliance diventi caratteristica centrale nella fase di valutazione di un tool per il data masking.


文章来源: https://www.cybersecurity360.it/outlook/cos-e-data-masking-tool-usare/
如有侵权请联系:admin#unsafe.sh