5.1 Un vistazo a los conjuntos de datos – Encontremos a María
Comencemos por mirar una base de datos. Es una base de datos imaginaria, pero supongamos que cubre los datos de un programa de bienestar social.
Nombre | Edad | Código postal | Género | Número de hijos/as | Grado escolar | Ingreso promedio por mes | Beneficio social recibido por mes |
André Müller | 41 | 67593 | Masculino | 3 | Secundaria | 730 | 400 |
Eva Nuñez | 22 | 93648 | Femenino | 1 | Primaria | 320 | 300 |
Rick Geary | 49 | 54930 | Masculino | 6 | Secundaria | 1300 | 639 |
Philippe Lourence | 25 | 3682 | Masculino | 2 | Primaria | 683 | 280 |
Maria Sanchez | 41 | 53782 | Femenino | 3 | Primaria | 490 | 500 |
Mike Naumann | 33 | 74823 | Masculino | 5 | Primaria | — | 1254 |
Karl Kutter | 23 | 84944 | Masculino | 3 | Universidad | 982 | 320 |
Nina King | 28 | 84934 | Femenino | 4 | Secundaria | 730 | 520 |
Brain Right | 24 | 23989 | Masculino | 2 | — | — | 1200 |
Nigel Winter | 37 | 74849 | Masculino | 3 | Secndaria | 821 | 426 |
Ana Luisa Gil | 18 | 74923 | Femenino | 2 | — | 130 | 800 |
Catalina Florez | 36 | 16383 | Femenino | 1 | Primaria | 647 | 101 |
Puede ver que para alguien que sabe que un amigo, un vecino, una ex esposa, o un enemigo recibe beneficios sociales del estado, es muy fácil encontrar a esa persona en este conjunto de datos y obtener más información, como la cantidad real que recibe o cuánto gana la persona. Por lo tanto, este conjunto de datos en la forma en que se presenta aquí puede presentar un alto riesgo si es que llegan a las manos equivocadas.
La seudonimización es una forma de cambiar los conjuntos de datos para que ya no sea tan fácil identificar a las personas en el conjunto de datos. Un primer paso para la desidentificación es la seudonimización. La seudonimización significa eliminar identificadores directos e intercambiarlos por datos aleatorios. Como vimos en una sesión anterior, el nombre y las direcciones son información de identificación personal e identificadores directos porque, sin ningún esfuerzo, pueden vincularse de nuevo a la persona.
Así que modifiquemos estos identificadores directos para seudonimizar este conjunto de datos:
Descargue el archivo de Excel y realice las siguientes actividades:
- Elimine todo el contenido de la columna de direcciones
- Ahora, use esta columna para escribir números de identificación aleatorios de seis dígitos por línea (estos números reemplazarán los nombres más adelante). Es importante no poner solo números como 1, 2, 3, 4 etc., sino poner números con más dígitos que seleccione aleatoriamente. De lo contrario, será muy fácil re-vincular a alguien dentro del conjunto de datos (normalmente, las herramientas estadísticas ayudan a generar estos números aleatorios)
- Ahora, puede fácilmente almacenar las dos columnas (nombre, número de identificación) en un lugar seguro, en caso que necesite vincular la información de nuevo.
- hora, elimine la columna de “nombre”.
Así debería verse la primera fila de la tabla después del paso 2:
Nombre | Número de identificación | Edad | Código postal | Género | Número de hijos/as | Grado escolar | Ingreso promedio por mes | Beneficio social recibido por mes |
André Müller | 458563 | 41 | 67593 | Masculino | 3 | Secundaria | 730 | 400 |
Esta es la información que puede almacenar como clave en otro lugar, en caso de que necesite vincular el nombre al conjunto de datos:
Nombre | Número de identificación |
André Müller | 458563 |
Así se debe ver su nuevo conjunto de datos:
Número de identificación | Edad | Código postal | Género | Número de hijos/as | Grado escolar | Ingreso promedio por mes | Beneficio social recibido por mes |
458563 | 41 | 67593 | Masculino | 3 | Secundaria | 730 | 400 |
Perfecto, ha seudonimizado exitosamente su conjunto de datos. Ahora, es mucho más difícil identificar a alguien en la lista. La seudonimización es un primer paso fácil para aumentar la protección.
Sin embargo, ¿qué sucede si alguien sabe que María Sánchez está en el conjunto de datos y la persona también sabe que tiene 41 años y que tiene tres hijos? Ordene la tabla por grupo de edad y número de niños, y vea si puede averiguar cuánto recibió María del gobierno.
Resulta que María es la única mujer que cumple con estas características. Entonces, aunque los datos se des-identificaron, aún sería posible identificar a María en el conjunto de datos. Es por eso que la seudonimización es un primer paso, pero está lejos de ser suficiente para proteger a las personas en los conjuntos de datos. Intentemos agregar una capa de protección adicional mediante el uso de una técnica que forma parte de la anonimizaciónn:
Cambie la edad por grupos etarios (16-25, 26-35, 36-45, 46-55, 56-65).
¿Aún puede encontrar a María?
Como puede ver, incluso con esa extensión de modificación de los datos, todavía es posible identificar a una persona. Esto se debe a que incluso los identificadores personales indirectos que no son exclusivos de una persona pueden permitirle identificar a alguien en un conjunto de datos. Y cuantos más identificadores personales indirectos contenga un conjunto de datos, más probable es que, en su combinación, sean únicos para un solo individuo.