Aprendizaje federado: IA con privacidad

Paloma Recuero de los Santos    17 marzo, 2021
Bandada gansos

¿Podemos beneficiarnos de las ventajas de la IA en nuestros smartphones sin ceder nuestros datos a las grandes tecnológicas mundiales? Porque, efectivamente, gracias a ello recibimos, por ejemplo, recomendaciones personalizadas, si; pero también anuncios. Por otra parte, esos datos pueden ser compartidos por terceros, poniendo en riesgo nuestra privacidad. Veamos cómo el aprendizaje federado propone una forma alternativa de entrenar los modelos de aprendizaje

Según el portal de estadísticas Statista, para 2030 habrá cerca de 50.000 millones de dispositivos conectados. Se dice pronto… 50.000 millones de dispositivos, no sólo móviles inteligentes, sino también, ordenadores, teléfonos, coches, relojes, wearables, neveras, aspiradoras etc generando datos. El dónde, el cómo y el qué se haga con esos datos va a ser muy relevante. Tan relevante como un volumen de 27.800 millones, estimado para negocio mundial de análisis de IoT en 2022 por la consultora Market Reports.

¿Dónde se almacenan, tratan y analizan todos los datos?

El mercado de la IA esta dominado por gigantes tecnológicos como Google, Amazon y Microsoft, que ofrecen soluciones API e IA basadas en la nube. En los métodos tradicionales de IA, los datos confidenciales del usuario se envían a los servidores de estas grandes empresas, y es allí donde se entrenan los modelos.

El aprendizaje federado propone un nuevo enfoque, basado en un modelo de inteligencia artificial descentralizada. Permite que el aprendizaje automático se lleve a cabo en nuestros dispositivos móviles en tiempo real, sin comprometer su funcionalidad y sin tener que compartir nuestros datos. Así, mientras usas tu teléfono móvil, parte de su energía sobrante se puede invertir en tareas de aprendizaje automático.

Definición de Aprendizaje Federado

El Aprendizaje Federado es un paradigma de Machine Learning dirigido al aprendizaje colaborativo de modelos de datos descentralizados, como los datos ubicados en los teléfonos inteligentes de los usuarios, en hospitales, o en bancos, y que asegura la privacidad de los datos.

¿Cómo lo consigue? Muy sencillo. Entrenando el modelo localmente en cada nodo (por ejemplo, en cada teléfono inteligente), compartiendo los parámetros actualizados del modelo (no los datos) y agregando de forma segura estos parámetros para construir un mejor modelo global.

En otras palabras,

El aprendizaje federado es un aprendizaje colaborativo que consiste en crear un modelo global entrenado con actualizaciones calculadas en los dispositivos móviles mientras se mantienen los datos de los usuarios a nivel local.

¿Qué ventajas tiene?

La ventaja más atractiva del aprendizaje federado es la protección de la privacidad. Los modelos locales se agregan y contribuyen a un modelo global, pero al no ser necesario compartir los datos en bruto, se garantiza la confidencialidad.

Por otra parte, al entrenarse de forma local con los datos del usuario, le ofrecen una gran personalización. Al mismo tiempo, se reducen las latencias y el coste de intercambiar datos de forma continua con un servidor.

¿Qué dificultades enfrenta?

El aprendizaje federado está en sus orígenes, y tiene por delante muchos desafíos que afrontar. Aunque en la actualidad, muchos teléfonos inteligentes y dispositivos IoT son capaces de ejecutar algoritmos de aprendizaje automático, este tipo de aprendizaje estará siempre condicionado por las limitaciones de los dispositivos locales en los que se ejecute.

Otras dificultades tienen que ver con la dificultad en disponer de datos etiquetados para el entrenamiento en local, el mayor tiempo de convergencia de estos modelos comparados con el aprendizaje automático tradicional, o los problemas de confiabilidad, cuando no todos los dispositivos participan en el proceso de aprendizaje federados por problemas de conectividad u otros motivos.

Tampoco hay que olvidar las presiones que puedan ejercer en su contra las grandes empresas interesadas en acaparar los grandes silos de datos propios de los modelos de aprendizaje automático centralizado.

¿Cuáles son los frameworks más populares?

Entre los frameworks más populares, podemos destacar:

  • TensorFlow Federated, un entorno de código abierto de Google para aprendizaje automático y otros cálculos con datos descentralizados.
  • PySyft, una biblioteca de codigo abierto construida sobre PyTorch para el aprendizaje profundo cifrado y la privacidad
  • Federated AI Technology Enabler (FATE), un proyecto de codigo abierto iniciado por el grupo de inteligencia artificial de Webank
  • Sherpa.ai Federated Learning and Differential Privacy Framework, framework de código abierto desarrollado para facilitar la investigación y experimentación abierta en el Aprendizaje Federado y la Privacidad Diferencial
  • etc

¿Para qué se utiliza?

Los escenarios de uso están caracterizados principalmente por los aspectos de seguridad y confidencialidad.

Por ejemplo en aplicaciones de recomendaciones personalizadas o de salud, que deben proporcionar mecanismos de privacidad de datos para aprender de un conjunto de usuarios, mientras los datos sensibles permanecen en cada dispositivo del usuario.

En entornos industriales, en aplicaciones para mejorar la gestión y la cadena de suministro. En este tipo de entornos, los datos se encuentran en silos. Sin embargo, un fabricante de recambios de automóvil, por ejemplo puede beneficiarse de modelos que aprenden de los datos de los demás sin tener que revelar los suyos.

Otros entornos sometidos a normativas de protección de la privacidad, como bancos o empresas de telecomunicaciones, pueden beneficiarse de modelos que aprenden de datos distribuidos en varias entidades, sin compartir registros individuales de sus clientes.

El aprendizaje federado también facilita el Edge Computing, mejorando los modelos de Machine Learning en los dispositivos distribuidos al compartir información global entre nodos. Al mismo tiempo, asegura la privacidad de los datos en cada dispositivo.

Conclusión

A pesar de los desafíos que tiene que afrontar este nuevo paradigma de aprendizaje automático, la tendencia actual de intentar devolver al usuario el poder sobre sus datos, y las legislaciones que surgen en pos de la protección de la confidencialidad, suponen un gran impulso para este tipo de modelos.

Para mantenerte al día con LUCA visita nuestra página websuscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *