5.1 Un vistazo a los conjuntos de datos – Encontremos a María

Comencemos por mirar una base de datos. Es una base de datos imaginaria, pero supongamos que cubre los datos de un programa de bienestar social.

Nombre Edad Código postal Género Número de hijos/as Grado escolar Ingreso promedio por mes Beneficio social recibido por mes
André Müller 41 67593 Masculino 3 Secundaria 730 400
Eva Nuñez 22 93648 Femenino 1 Primaria 320 300
Rick Geary 49 54930 Masculino 6 Secundaria 1300 639
Philippe Lourence 25 3682 Masculino 2 Primaria 683 280
Maria Sanchez 41 53782 Femenino 3 Primaria 490 500
Mike Naumann 33 74823 Masculino 5 Primaria 1254
Karl Kutter 23 84944 Masculino 3 Universidad 982 320
Nina King 28 84934 Femenino 4 Secundaria 730 520
Brain Right 24 23989 Masculino 2 1200
Nigel Winter 37 74849 Masculino 3 Secndaria 821 426
Ana Luisa Gil 18 74923 Femenino 2 130 800
Catalina Florez 36 16383 Femenino 1 Primaria 647 101

 

Puede ver que para alguien que sabe que un amigo, un vecino, una ex esposa, o un enemigo recibe beneficios sociales del estado, es muy fácil encontrar a esa persona en este conjunto de datos y obtener más información, como la cantidad real que recibe o cuánto gana la persona. Por lo tanto, este conjunto de datos en la forma en que se presenta aquí puede presentar un alto riesgo si es que llegan a las manos equivocadas.

La seudonimización es una forma de cambiar los conjuntos de datos para que ya no sea tan fácil identificar a las personas en el conjunto de datos. Un primer paso para la desidentificación es la seudonimización. La seudonimización significa eliminar identificadores directos e intercambiarlos por datos aleatorios. Como vimos en una sesión anterior, el nombre y las direcciones son información de identificación personal e identificadores directos porque, sin ningún esfuerzo, pueden vincularse de nuevo a la persona.

Así que modifiquemos estos identificadores directos para seudonimizar este conjunto de datos:

Descargue el archivo de Excel y realice las siguientes actividades:

  1. Elimine todo el contenido de la columna de direcciones
  2. Ahora, use esta columna para escribir números de identificación aleatorios de seis dígitos por línea (estos números reemplazarán los nombres más adelante). Es importante no poner solo números como 1, 2, 3, 4 etc., sino poner números con más dígitos que seleccione aleatoriamente. De lo contrario, será muy fácil re-vincular a alguien dentro del conjunto de datos (normalmente, las herramientas estadísticas ayudan a generar estos números aleatorios)
  3. Ahora, puede fácilmente almacenar las dos columnas (nombre, número de identificación) en un lugar seguro, en caso que necesite vincular la información de nuevo.
  4. hora, elimine la columna de “nombre”.

Así debería verse la primera fila de la tabla después del paso 2:

 

Esta es la información que puede almacenar como clave en otro lugar, en caso de que necesite vincular el nombre al conjunto de datos:

 

Así se debe ver su nuevo conjunto de datos:

 

Perfecto, ha seudonimizado exitosamente su conjunto de datos. Ahora, es mucho más difícil identificar a alguien en la lista. La seudonimización es un primer paso fácil para aumentar la protección.

Sin embargo, ¿qué sucede si alguien sabe que María Sánchez está en el conjunto de datos y la persona también sabe que tiene 41 años y que tiene tres hijos? Ordene la tabla por grupo de edad y número de niños, y vea si puede averiguar cuánto recibió María del gobierno.

Resulta que María es la única mujer que cumple con estas características. Entonces, aunque los datos se des-identificaron, aún sería posible identificar a María en el conjunto de datos. Es por eso que la seudonimización es un primer paso, pero está lejos de ser suficiente para proteger a las personas en los conjuntos de datos. Intentemos agregar una capa de protección adicional mediante el uso de una técnica que forma parte de la anonimizaciónn:

Cambie la edad por grupos etarios (16-25, 26-35, 36-45, 46-55, 56-65).

¿Aún puede encontrar a María?

Como puede ver, incluso con esa extensión de modificación de los datos, todavía es posible identificar a una persona. Esto se debe a que incluso los identificadores personales indirectos que no son exclusivos de una persona pueden permitirle identificar a alguien en un conjunto de datos. Y cuantos más identificadores personales indirectos contenga un conjunto de datos, más probable es que, en su combinación, sean únicos para un solo individuo.