Machine Learning para descubrir datos sensibles de GDPR

LA GDPR está a la vuelta de la esquina y todavía, la gran mayoría de las empresas se están preparando para adoptarla, motivadas principalmente por la grandes sanciones derivadas de su incumplimiento.

La GDPR sustituye a la Directiva 95/46/CE sobre protección de datos, siendo diseñada para armonizar las leyes de privacidad de datos en toda Europa, siendo el mayor cambio en la regulación de la privacidad de datos desde hace 20 años en Europa.

Los elementos principales de la GDPR son un poco difíciles de entender, pero una cosa es clara, el descubrimiento de datos es obligatorio en cualquiera de los casos, pudiendo encontrar información personal o sensible en los repositorios de datos, la gran mayoría en base de datos, pero con la incursión de Big Data, también archivos.

Por ello, el descubrimiento de datos podría empezar por tres áreas principales, intentando obtener el mejor resultado, a un menor esfuerzo :

Descubrimiento de columnas
Descubrimiento de datos
Descubrimiento de archivos

El descubrimiento de columnas es fácil de entender, basado en palabras clave o frases específicas, encontramos nombres de columnas en bases de datos y lo combinamos con posibles datos confidenciales.

Donde empieza la diversión es en el descubrimiento de datos y el descubrimiento de archivos.

Para ello, se puede utilizar una herramienta basada en Apache OpenNLP que es una biblioteca de basada en un kit de herramientas para el procesamiento de texto de lenguaje natural. A partir de todo ello se usa un modelo de aprendizaje machine learning (OpenNLP) preentrenados ( existen ejemplos públicos, en español algunos de ellos, disponibles aquí ) con el uso de técnicas como la tokenización, la segmentación de oraciones, la extracción de entidades con nombre y el análisis para entender si los datos son sensibles o no.

Por ejemplo, si la columna se llama X-DATA pero tiene información personal como una dirección, el descubrimiento de columnas no ayudará. Por ello, debe explorarse una muestra de datos dentro de X-DATA y aplicar modelos preentrenados basados en OpenNLP para entender si esa muestra contiene algún tipo de dirección.

En este ejemplo de modelos preentrenados y el uso de machine learning se han utilizado datos en Portugués e Inglés y la herramient produciendo columnas de probabilidad con dichos datos "sospechoso" ,probables de ser sensibles o lo que es lo mismo, factibles de verse afectados por la GDPR .

Machine Learning GDPR

¿Cómo se aplica la GDPR al Big Data?

En marzo de 2017, la ICO publicó una actualización de su Informe del 2014 sobre grandes datos a la luz de la inminente aplicación de la GDPR. El informe actualizado de la ICO ha añadido un enfoque nuevo sobre la inteligencia artificial y el aprendizaje automático en la gestión de grandes datos proporcionando una guía práctica para el cumplimiento de la GDPR en el Big Data.

El informe de la ICO considera que los tipos de datos personales utilizados para el análisis de grandes datos puede implicar el uso de «nuevos tipos de datos» para el análisis, tales como «datos observados», «datos derivados» y «datos inferidos». Siendo estos datos adicionales a los datos personales proporcionados conscientemente por el individuo. Los nuevos tipos de datos se recopilan a través de diversos sensores, cookies o se producen utilizando algoritmos de machine learning y métodos analíticos.

El informe sugiere que la complejidad de los grandes análisis de datos no debe impedir que las empresas cumplan con las normas de protección de datos. Por ello, si se invoca el consentimiento o los intereses legítimos como fundamento jurídico para el tratamiento de los datos personales en el Big Data, deben cumplirse todas las condiciones pertinentes para dicho procesamiento establecidas en la GDPR. Es por esto que el ICO concluye que es improbable que el contrato sea una base válida para el procesamiento para fines de análisis de datos de gran tamaño, ya que será difícil demostrar que el nivel de procesamiento de los grandes datos analíticos sea "necesario" para el desempeño de un contrato.

Dado que los grandes datos analíticos generalmente reutilizan los datos personales, el ICO sugiere que las empresas necesitarán obtener el consentimiento informado para cualquier uso secundario de los datos personales, cumpliendo este escenario también donde los datos personales se obtienen de otras organizaciones y no directamente de los individuos.

La ICO acepta que los principios de minimización de datos y retención de estos podrían ser difíciles de cumplir, pero a pesar de ello, insiste en que las empresas que realizan Big Data deben definir el objetivo de dicho análisis desde el principio y garantizar que los datos personales que utilizan no son excesivos y son relevantes para el objetivo por el cual se entregaron o cedieron. Es por tal fin que las empresas deben velar por que se cumplan los requisitos sobre la retención de datos, tal y como se establece en el GDPR.

La ICO ofrece seis recomendaciones clave para el cumplimiento de la GDPR en entornos de Big Data:

Anonimizar los datos personales, cuando los datos personales no sean necesarios para el análisis.
Ser transparentes sobre el uso de datos personales en el Big Data , proporcionando avisos de privacidad en las etapas apropiadas a lo largo de proyecto de obtención de datos.
Incorporar un proceso de evaluación del impacto de la privacidad en grandes proyectos de datos para ayudar a identificar los riesgos de privacidad.
Adoptar un enfoque de privacidad por diseño en el desarrollo y la aplicación del Big Data.
Desarrollar los principios éticos que ayuden a reforzar los principios clave de la protección de datos.
Implementar auditorías internas y externas de los algoritmos de machine learning para verificar si hay sesgo, discriminación y errores.

Conclusión

En la actualidad el Big Data es un foco de atención a nivel de la UE. El Parlamento de la UE aprobó el 14 de marzo de 2017 una resolución sobre Big Data que insta a los sectores público y privado a que adapten sus grandes prácticas de datos a las normas en materia de protección de datos, incluida la GDPR: Privacidad, protección de datos, no discriminación, seguridad y aplicación de la ley. La GDPR ya esta a la vuelta de la esquina, pero todavía hay muchas cuestiones por aclarar y poner sobre la mesa. Pero mientras tanto y para que no nos pille el toro, con todo lo que sabemos hasta ahora, empecemos a hacer un levantamiento de la situación, con herramientas como la que hemos visto al inicio del Post. Muchas empresas saben que tienen datos sensibles, pero la gran pregunta es ¿ Donde están los datos sensibles ?