30 Ene Cuatro datos son suficientes para relacionarte con tu tarjeta de crédito
Hoy en día el comportamiento humano, desde las páginas visitadas en internet hasta el historial de compras, queda registrado en enormes bases datos. Pero el anonimato de este big data puede ser más frágil de lo que parece: un equipo de investigadores del Instituto Tecnológico de Massachusetts (MIT) ha logrado reidentificar al 90% de los individuos de un fichero de más de 1 millón de personas, a partir de unos pocos bits de información.
“Una base de datos sin nombres personales o direcciones no garantiza su anonimato, ni asegura que pueda ser compartida al público o a terceras pares sin riesgo”, explican los investigadores en su artículo. Además, recuerdan que la seguridad de estos ficheros ya ha sido comprometida con anterioridad en multitud de ocasiones.
Para su trabajo tomaron una base de datos –de un país no revelado– que recogía los movimientos efectuados por 1,1 millones de personas, a lo largo de tres meses, en más de 10.000 tiendas. Se eligieron estos datos financieros porque contienen gran cantidad de información, pero sobre todo porque son considerados, según los usuarios, como los más sensibles.
Estos ficheros permiten extraer una valiosa información sobre el comportamiento de la población. Pueden aplicarse a investigaciones, y también son de gran utilidad para empresas y gobiernos. Un forma sencilla de anonimizar este big data consiste en eliminar cualquier dato de índole personal como nombres, direcciones o números de teléfono. De esta forma, esta información se transforma en un mero conjunto de páginas web visitadas o de compras efectuadas.
Sin embargo, el estudio publicado hoy en Science demuestra que esta medida no evita el riesgo de identificación. Tan sólo es necesario conocer cuatro pistas espaciotemporales cualesquiera para identificar a prácticamente cualquier individuo y acceder al resto de la información que contiene el fichero.
Imaginemos, por ejemplo, que queremos encontrar a Carlos en una de estas bases de datos supuestamente anónimas. Lo único que sabemos es que pagó con su tarjeta de crédito en un restaurante el 12 de noviembre, y luego compró unas zapatillas en una tienda de marca al día siguiente.
Si buscamos en la base de datos encontraremos que sólo una persona entre ese millón de individuos pagó en esos dos sitios en ese par días: ya hemos cazado a Carlos, y podremos conocer el resto de sus movimientos.
El proceso es comparable al juego de Quién es quién. Si sabemos que el personaje tiene gafas, bigote y es calvo, podremos encontrarlo entre el resto, identificarlo y saber el resto de características que lo definen.
No sólo eso, sino que saber el precio aproximado de una transacción también incrementa el riesgo de reidentificación en un 22% de media. De esta forma una única pista externa –haber comido en un restaurante cierto día– ya se convierte en un triple rastro –gasto, sitio y día– suficiente para llevar a cabo la identificación en casi un 90% de los casos.
Esta cifra concuerda con el estudio que llevó a cabo la investigadora de Harvard Latanya Sweeney a principios del siglo XXI. Sweeney, recién graduada por aquel entonces, demostró que el 87% de los estadounidenses podía ser identificado con tan sólo tres bits de información. Código postal, fecha de nacimiento y sexo, no era necesario nada más.
Más sencillo identificar a las mujeres
El equipo de investigadores del MIT fue un paso más allá para analizar los efectos del sexo y el nivel de ingresos a la hora de la reidentificación. Los resultados mostraron que las mujeres son algo más sencillas de identificar que los hombres, y que a mayor poder adquisitivo la facilidad también aumenta.
“Conocer la causa de este fenómeno no era el objetivo de la investigación”, aseguran los expertos en el artículo. A pesar de eso, sospechan que puede estar relacionado con cómo distribuyen su tiempo por las tiendas a la hora de comprar.
Los autores concluyen que cualquier individuo de una base de datos puede ser reidentificado si se encuentra anonimizada de una forma sencilla. Por ello, consideran necesaria la adopción de medidas más severas, que no se limiten a eliminar nombres, direcciones y demás evidentes.
Fuente: El Confidencial