Qué es la privacidad diferencial y por qué Google y Apple la usan con tus datos

Gonzalo Álvarez Marañón    3 marzo, 2020
Qué es la privacidad diferencial y por qué Google y Apple la usan con tus datos

Para poder personalizar sus productos y servicios y ofrecer cada vez mejores características que los hagan más valiosos y útiles, las empresas necesitan conocer información sobre sus usuarios. Cuanto más sepan sobre ellos, mejor para ellas y mejor, supuestamente, para sus usuarios. Pero claro, mucha de esta información es de carácter sensible o confidencial, lo cual representa una seria amenaza a su privacidad.

Entonces, ¿cómo puede hacer una empresa para saberlo todo sobre sus clientes y a la vez no saber nada sobre ningún cliente en particular? ¿Cómo pueden sus productos proporcionar grandes características y gran privacidad a la vez?

La respuesta a esta paradoja reside en la «privacidad diferencial»: aprender tanto como sea posible sobre un grupo mientras se aprende lo menos posible sobre cualquier individuo en él. La privacidad diferencial permite obtener conocimientos de grandes conjuntos de datos, pero con una prueba matemática de que nadie puede obtener información sobre un solo individuo del conjunto. Gracias a la privacidad diferencial puedes conocer a tus usuarios sin violar su privacidad. Veamos, en primer lugar, la amenaza a la privacidad de los grandes conjuntos de datos.

Ni el anonimato ni las grandes consultas garantizan la privacidad

Imagina que un hospital mantiene registros de sus pacientes y que los cede a una empresa para que pueda hacer un análisis estadístico de ellos. Por supuesto, elimina la información personalmente identificable, como nombre y apellidos, DNI, dirección, etc. y sólo mantiene su fecha de nacimiento, sexo y código postal. ¿Qué podría salir mal?

En 2015, la investigadora Latanya Sweeney armó un ataque de reidentificación sobre un conjunto de datos de registros hospitalarios. Agárrate, porque a partir de historias en los periódicos fue capaz de identificar personalmente (con nombres y apellidos) al 43% de los pacientes de la base de datos anonimizada. De hecho, llegó a afirmar que el 87% de la población de EEUU se identifica de manera única por la fecha de nacimiento, el género y el código postal.

Como ves, las técnicas de anonimización de las bases de datos fracasan miserablemente. Además, cuanto más anonimizada está una base de datos (cuanta más información personalmente identificable se ha eliminado), menos útil resulta.

¿Y si sólo se permiten consultas sobre grandes volúmenes de datos y no sobre individuos concretos? El «ataque diferenciador» se ocupa de este caso: supongamos que se sabe que el sr. X aparece en cierta base de datos médicos. Lanzamos las siguientes dos consultas: «¿cuántas personas padecen anemia drepanocítica?» y «¿cuántas personas sin el nombre de X padecen anemia drepanocítica?» En conjunto, las respuestas a las dos consultas arrojan el estado drepanocítico del sr. X.

Según la Ley Fundamental de Recuperación de Información:

«Las respuestas demasiado exactas a demasiadas preguntas destruirán la privacidad de manera espectacular.«

Y no creas que prohibir estos pares de preguntas evita los ataques diferenciadores, el mero hecho de rechazar una doble consulta ya podría filtrar información. Hace falta algo más para conseguir garantizar la privacidad y, a la vez, poder hacer algo útil con las bases de datos. Existen diferentes propuestas para alcanzar privacidad diferencial. Empecemos por una técnica muy sencilla empleada por los psicólogos desde hace más de 50 años.

Si quieres privacidad, añade ruido

Imagina que quiero obtener respuesta a una pregunta embarazosa: ¿alguna vez te has zampado una lata de comida para perros? Como el tema es delicado, te propongo que respondas de la siguiente manera:

  1. Lanza una moneda (sin trucar) al aire.
  2. Si sale cara, vuelve a lanzarla al aire y, salga lo que salga, tú responde la verdad.
  3. Si sale cruz, entonces lánzala de nuevo y responde «sí» si sale cara y «no» si sale cruz.

Ahora tu confidencialidad queda a salvo porque nadie puede saber si respondiste la verdad o si seleccionaste un resultado aleatorio. Gracias a este mecanismo de aleatorización se ha alcanzado negación plausible: aunque vean tu respuesta, puedes negarla y no podrán demostrar lo contrario. De hecho, si te preguntaste para qué se hace un lanzamiento extra en el primer caso si luego no se tiene en cuenta, es para protegerte en situaciones en las que puedan observarte lanzar la moneda.

¿Y qué pasa con la precisión del estudio? ¿Sirve para algo con tanto dato aleatorio? La verdad es que sí. Como la distribución estadística de los resultados de lanzar al aire una moneda es perfectamente conocida, puede eliminarse sin problema de los datos.

¡Atención, matemáticas! No sigas leyendo si no toleras las ecuaciones. La cuarta parte de respuestas positivas son dadas por personas que no se comen la comida de su perro y por tres cuartas partes de las que sí. Por lo tanto, si p representa la proporción de personas que zampan latas de comida para perros, entonces esperamos obtener (1/4)(1-p) + (3/4)p respuestas positivas. Por lo tanto, sí es posible estimar p. Y cuantas más personas sean consultadas, más se aproximará el valor calculado de p al valor real.

Sin ir más lejos, esta idea (con alguna complicación adicional) fue adoptada por Google en 2014 para su proyecto RAPPOR (Randomized Aggregatable Privacy-Preserving Ordinal Response). Según Google, «RAPPOR proporciona una nueva y moderna manera de aprender estadísticas de software que podemos utilizar para salvaguardar mejor la seguridad de nuestros usuarios, encontrar errores y mejorar la experiencia general del usuario».

Por supuesto, protegiendo la privacidad de los usuarios. O eso dicen. Lo bueno es que puedes examinar el código de RAPPOR por ti mismo para verificarlo.

Privacidad diferencial más allá de las respuestas aleatorizadas

Las respuestas aleatorizadas son una forma simplificada de alcanzar la privacidad diferencial. Los algoritmos más potentes utilizan la distribución de Laplace para extender el ruido por todos los datos y aumentar así el nivel de privacidad. Y existen otros muchos, recogidos en el libro de descarga gratuita The Algorithmic Foundations of Differential Privacy. Lo que todos tienen en común, eso sí, es la necesidad de introducir el azar de una forma u otra, típicamente medida por un parámetro ε, que puede ser tan pequeño como se quiera.

Cuanto más pequeño sea ε, mayor la privacidad del análisis y menor precisión en los resultados, ya que cuanta más información intentes consultar a tu base de datos, más ruido necesitas inyectar para minimizar la fuga de privacidad. Te enfrentas inevitablemente a un compromiso fundamental entre la precisión y la privacidad, lo cual puede ser un gran problema cuando se entrenan modelos complejos de Machine Learning.

Y lo que es aún peor: por pequeño que sea ε, toda consulta fuga información, y con cada nueva consulta, la fuga se incrementa. Una vez traspasado el umbral del nivel de privacidad que has predeterminado, no puedes seguir adelante o empezarás a fugar información personal. En ese punto, la mejor solución puede ser simplemente destruir la base de datos y empezar de nuevo, lo cual parece poco viable. Por tanto, el precio a pagar por la privacidad es que el resultado de un análisis diferencialmente privado nunca será exacto, sino una aproximación con fecha de caducidad. ¡No se puede tener todo!

¿O sí? El cifrado totalmente homomórfico y la computación multiparte segura permiten el análisis 100% privado y 100% preciso. Por desgracia, estas técnicas son hoy por hoy demasiado ineficientes para aplicaciones reales de la magnitud que manejan Google o Apple.

Demasiado bonito para ser verdad, ¿dónde está la trampa?

Desde que en 2016 Apple anunció que iOS 10 incorporaría privacidad diferencial, el concepto ha saltado de las pizarras de los criptógrafos a los bolsillos de los usuarios. A diferencia de Google, Apple no ha liberado su código, por lo que no puede saberse con exactitud qué tipo de algoritmo utiliza ni si lo utiliza con garantías.

En cualquier caso, parece buena señal que gigantes como Google y Apple den pasos, aunque sea tímidos, en la dirección correcta. La criptografía pone a su alcance recursos para conocer a sus usuarios y a la vez salvaguardar su privacidad. Esperemos que el uso de estos algoritmos se popularice y otros gigantes, como Amazon o Facebook, comiencen también a implantarlos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.