II edición del programa TUTORÍA: investigaciones de ciberseguridad orientadas a producto

Área de Innovación y Laboratorio de ElevenPaths    2 marzo, 2021
II edición del programa TUTORÍA. Realiza tu TFG o TFM con nosotros

El interés de los jóvenes estudiantes lo demuestra: los retos tecnológicos vinculados a las tecnologías de la información son interesantes y despiertan en los alumnos una curiosidad y motivación que resulta refrescante. Los retos del programa TUTORIA son actuales y atractivos pero, lo más importante, son un reflejo de las necesidades reales de sectores como la ciberseguridad y la privacidad, o la mejora de la experiencia con Movistar en el Hogar Digital. Proyectos a los que, sin el apoyo y asesoramiento de una empresa colaborando con la universidad, como Telefónica, sería difícil tener acceso.

De momento, y a falta de que varias universidades cierren los plazos de selección de TFMs y TFGs para sus planes docentes, veinte alumnos han sido seleccionados entre todos los candidatos y están realizando ya sus proyectos en el programa TUTORIA. Por ahora, siete universidades han encontrado valor en el programa y están participando a través de sus alumnos y las respectivas cátedras de Telefónica. Y pese a esto, hay aún diez retos disponibles en esta edición donde numerosos tutores se han volcado para ayudar en el programa. Todavía puedes colaborar con nosotros y aprovechar esta oportunidad de aprender conjuntamente con nuestros expertos.

Como los hechos dicen más que las palabras, seguimos mostrando trabajos que han realizado los alumnos. En este caso, presentamos dos retos muy diferentes:

  1. El primero de ellos se desarrolló para ser aprovechado en áreas de producto como Identity & Access Protection o EndPoint Protection.
  2. El segundo trabajo, alineado con las necesidades estipuladas en nuestro área de Vulnerability Risk Management, colaboró estrechamente con los responsables del producto Smart Steps dentro del área especializada en Big Data e Inteligencia Artificial de Telefónica. Cada alumno describe su experiencia y reto a continuación.

Continuous authentication through behavioral biometrics on Android

Este reto ha sido realizado por Anastasio Sánchez Martinez en su Trabajo Fin de Máster del Máster Universitario en Ciberseguridad de la Universidad Carlos III de Madrid, dirigido por el tutor académico Juan Manuel Estévez Tapiador junto a Alexandre Maravilla Girbés como tutor industrial del área de ciberseguridad de Telefónica Tech.

La biometría se ha extendido recientemente a lo que es conocido como biometría del comportamiento, una modalidad que utiliza patrones de conducta en lugar de patrones físicos. Al inicio de la investigación se propuso este tipo de biometría como complemento a un proyecto en desarrollo, PulseID, tecnología desarrollada en Telefónica. El propósito de ésta es la autenticación continua de un usuario basada en la información de los latidos del corazón, y la biometría del comportamiento se plantea para mejorar su eficiencia a través del comportamiento del usuario durante el uso del teléfono.

El proyecto ha estudiado qué parámetros son significativos para autenticar a un usuario con mayor precisión y desarrolla una aplicación de Android desde cero que monitorea las interacciones del usuario con el dispositivo para construir un patrón de comportamiento. La aplicación recopila los parámetros del dispositivo cada minuto y construye un modelo con ellos.

El proceso de identificar al usuario

Los parámetros seleccionados no identifican a un usuario por sí mismos pero sí la combinación de ellos. Por ejemplo, saber qué aplicación utiliza más un usuario es información no identificable, pero lo puede ser cuando se combina con la orientación del teléfono, el brillo de la pantalla, la aplicación que se utilizó antes, los datos transmitidos, la hora, el día, etc.

Algunos de los parámetros más representativos recogidos para identificar al usuario son

  • Parámetros relacionados con las funciones del dispositivo: brillo, orientación…
  • Parámetros relacionados con el uso: RAM, datos recibidos y transmitidos, aplicaciones usadas…
  • Parámetros externos: luminosidad ambiental, fecha…

El objetivo de recopilar esta información es identificar si el comportamiento del usuario es similar al perfil almacenado. Como este trabajo no puede realizarse analizando valor a valor, se utiliza aprendizaje automático para correlacionar estos conjuntos y obtener resultados basados en el algoritmo seleccionado, Isolation Forest.

Análisis de los datos y experimento

Isolation Forest basa su modelo en que las anomalías son pocas y diferentes y por ello son más susceptibles al aislamiento que los valores normales. Este algoritmo construye una estructura de árbol, donde se puede aislar cada muestra. Por su susceptibilidad al aislamiento, las anomalías se aíslan más cerca de la raíz del árbol mientras que los puntos normales se encuentran en el extremo más profundo del árbol. Una representación visual se muestra en la siguiente figura, donde dos núcleos del modelo se pueden distinguir.

Las instancias de entrenamiento del modelo se representan en blanco mientras que las instancias regulares son verdes y las anomalías son rojas. Entonces, este modelo crea árboles a partir de un conjunto de muestras y las anomalías se detectan cuando las longitudes de ruta son más cortas. Este modelo usa solo dos variables: el número de árboles y el tamaño del submuestreo.

El experimento realizado consistió en la evaluación cruzada de ocho perfiles, donde durante 5 días se entrenaron dichos perfiles y durante los últimos 2 se evaluó el nuevo comportamiento recogido en el móvil. A la hora de estudiar los resultados se compararon las muestras de los 2 últimos días frente a los 5 primeros y, por otro lado, todo el conjunto frente a los mismos 7 días. Al comparar ambos casos se observó que los usuarios con mayor interacción con el dispositivo obtenían mayor porcentaje de predicción positiva sobre su propio perfil y menor en otros, donde la diferencia aumentaba en el caso de utilizar los datos de los 7 días.

Conclusiones

La principal conclusión a la que se llegó en este trabajo es que en base a los resultados que se obtuvieron durante el experimento, está claro que el modelo que proporciona mayor confiabilidad es el de detección de anomalías ya que cuantos más datos, mayor confianza. Por tanto la confiabilidad de este sistema dependerá del grado de interacción del usuario con el dispositivo, por lo que lo recomendado es utilizar autenticación multi-modal.

Estudio y parametrización de ruido en términos de la privacidad diferencial

Este reto ha sido realizado por Carmen Gómez Serván en su Trabajo Fin de Máster del Máster Universitario en Big Data Analytics de la Universidad Europea de Madrid, dirigido por el tutor académico Javier Ruiz Cobo y los tutores industriales del área de Big Data e Inteligencia Artificial de Telefónica Tech, Raquel Crespo Crisenti y Jose Miguel Moya Lázaro.

Este proyecto surge en el marco de la era de los datos en que vivimos, impulsado por la necesidad de proteger la identidad de los individuos que cada día ceden (cedemos) dichos datos. Aunque actualmente se emplean diversas técnicas de anonimización, existen también métodos para desanonimizar bases de datos supuestamente anónimas. Surge con esto la necesidad de introducir cierto nivel de inexactitud, de modo que una posible desanonimización no exponga la información real de los individuos, sino una información con ruido.

Esta introducción de ruido se lleva a cabo aplicando un algoritmo a los datos de entrada (limpios), y obteniendo así unos datos de salida con ruido. Dicho algoritmo puede ser determinista o aleatorio pero, aunque hay algoritmos deterministas muy difíciles de revertir (como las conocidas curvas elípticas empleadas en criptografía), no es imposible y, por tanto, es más seguro aplicar un algoritmo aleatorio.

En este punto entra en juego la privacidad diferencial, definida como una propiedad que cumplen los algoritmos aleatorios, y que permite medir la probabilidad con la que se puede conocer información acerca de un individuo concreto dentro de una base de datos.

En otras palabras, la privacidad diferencial compara la probabilidad con que obtendremos la misma respuesta (a una misma consulta) al lanzarla sobre una base de datos si añadimos o eliminamos el registro de un individuo (para evitar que se saquen conclusiones sobre dicho individuo al comparar las respuestas).

Durante este proyecto se implementaron diversos algoritmos de introducción de ruido que ofrecían garantías de privacidad en mayor o menor medida. Pero claro, en tanto que esta privacidad se consigue mediante la introducción de ruido, lleva consigo una pérdida de exactitud, así que hay que buscar el punto medio en el que se garantiza suficiente privacidad a la vez que se mantiene suficiente exactitud, para que los datos no queden inservibles.

Es por esto que se propuso como método más útil aplicar el algoritmo de Laplace, que ofrece una cota de la exactitud que ha sido demostrada matemáticamente, es decir, nos permite saber cuál es la máxima exactitud que perderemos y con qué probabilidad. Dicho algoritmo consiste en sumar a los datos limpios una variable aleatoria, que sigue la distribución de Laplace.

Con esto pudimos implementar un algoritmo de introducción de ruido parametrizable que puede adaptarse a las necesidades de cada compañía o proyecto, permitiendo elegir el valor de los parámetros en función de la privacidad que se quiera garantizar y la exactitud que se quiera preservar. Y que también puede aplicarse sobre los datos ya sometidos a otros procesos, por ejemplo, manteniendo una k-anonimización.

Además, actualmente muchos lenguajes incluyen simuladores de distribuciones probabilísticas, lo que facilita la implementación de este tipo de algoritmos. A continuación se muestra un ejemplo sencillo de dicha implementación en Python, para representar el valor de los datos de ruido respecto a los datos limpios.

Implementación del Algoritmo de Laplace sobre los datos.

Conclusiones

A raíz de este trabajo hemos determinado que la privacidad diferencial nos brinda una herramienta con la que parametrizar la relación entre el anonimato que ofrecemos y la exactitud de los datos que conservamos. Esto convierte a la privacidad diferencial en un método muy potente y útil, puesto que necesitamos preservar la privacidad de los sujetos, pero al mismo tiempo, los datos deben seguir siendo de utilidad, por lo que deben seguir aportando conclusiones válidas, lo más cercanas posible a la realidad.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *