Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
LUCA Incorporación de Big Data en el sector público: caso de éxito Navantia ¿Cuáles son los ingredientes principales para una transformación digital exitosa? La transformación digital se ha hecho indispensable en casi todos los sectores, también en la administración pública y, como hoy vamos...
Paloma Recuero de los Santos Nuestros favoritos de Junio: 5 post del sector que no puedes perderte En esta tercera edición de nuestro recopilatorio mensual, os contamos los 5 post de nuestros blogs favoritos que más interesantes nos han parecido este mes. Como siempre, hablamos sobre Data Science, Big Data,...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
LUCA Caso de éxito: Departamento de Transporte de UK El Departamento de Transporte es el organismo gubernamental responsable de la mayor parte de la red de transporte del Reino Unido. Nuestro cliente necesitaba entender rápidamente los patrones de...
LUCA Diseñando el mapa de publicidad OOH en Brasil gracias a los datos Es imprescindible que una empresa maximice el alcance de sus clientes, y una manera de conseguirlo es hacer uso del poder y valor que ofrece la publicidad. Hoy en...
LUCA Próposito de este 2017: Cambiar el Mundo By Javier Carro and Pedro de Alarcón PhD, Data Scientists at LUCA. ¿Ya has hecho tu lista de propósitos para el año nuevo? ¿Qué te parece que esta vez uno de ellos sea cambiar el mundo? Fuimos...
Ana Zamora LUCA Talk 3: Big Data y Ciclismo, una carrera de fondo El pasado miércoles tuvo lugar nuestro tercer LUCA Talk acerca de cómo el Big Data puede ser aplicado al ciclismo. Mikel Zabala, entrenador del equipo Movistar Team, empezó la...
LUCA LUCA Talk: Reconocimiento de caracteres a través de OCR En nuestro día a día nos hemos podido ver en la necesidad de escanear un documento o una factura y luego poder procesar la información que contenían. En este...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Video Post #18: Atrévete con Deep Learning. Principios básicos al alcance de todos ¿Sabes qué es el Deep Learning, en qué se basa y qué aplicaciones tiene? En este vídeo te daremos unas sencillas nociones que te ayudarán a comprender esta potente...
Semi-Supervised Learning…el gran desconocidoAlfonso Ibáñez Martín 16 abril, 2019 Durante los últimos años se ha avanzado mucho en la resolución de problemas complejos gracias a los algoritmos de Inteligencia Artificial. Estos algoritmos necesitan de un gran volumen de información para poder descubrir y aprender, de manera continua, los patrones ocultos en los datos. Sin embargo, esta no es la forma en que la mente humana aprende. Una persona no requiere de millones de datos y múltiples iteraciones para solucionar un determinado problema, ya que lo único que necesita son algunos ejemplos para resolverlo. En este contexto, técnicas como el semi-supervised learning o aprendizaje semi-supervisado están jugando un papel importante hoy en día. Dentro de las técnicas de Machine Learning podemos encontrar varios enfoques bien diferenciados (ver Gráfico 1). Los algoritmos supervisados tratan con conjuntos de datos etiquetados y su objetivo es construir modelos predictivos, ya sean de clasificación (estimando una clase) o de regresión (estimando un valor numérico). Dichos modelos se generan a partir de datos etiquetados y, posteriormente, realizan predicciones sobre los datos no etiquetados. Sin embargo, los algoritmos no supervisados utilizan datos no etiquetados y su objetivo, entre otros, es el de agruparlos, en función de la similitud de sus características, en un conjunto de clusters. A diferencia de los dos enfoques más tradicionales (supervised learning y unsupervised learning), los algoritmos semi-supervisados emplean pocos datos etiquetados y muchos datos no etiquetados como parte del conjunto de entrenamiento. Dichos algoritmos tratan de explorar la información estructural que contienen los datos no etiquetados con el objetivo de generar modelos predictivos que funcionen mejor que los que sólo utilizan datos etiquetados. Gráfico 1: Esquema de los distintos enfoques de aprendizaje automático Los modelos de aprendizaje semi-supervisados son cada vez más utilizados en nuestros días. Un ejemplo clásico en el que se observa el valor que aportan dichos modelos es el análisis de las conversaciones grabadas en un call center. Con el objetivo de inferir automáticamente características de los interlocutores (género, edad, geografía,…), sus estados de ánimo (contentos, enfadados, sorprendidos,…), los motivos de la llamada (error en la factura, nivel de servicio, problemas de calidad,…), entre otros, es necesario disponer de un volumen elevado de casos ya etiquetados sobre las cuales aprender los patrones de cada tipología de llamada. El etiquetado de estos casos es una tarea ardua de conseguir, ya que etiquetar archivos de audio, por lo general, es una tarea que requiere tiempo y mucha intervención humana. En estas situaciones en las que etiquetado de los casos es escaso, ya sea porque es costoso, necesita mucho tiempo de recopilación, requiere de mucha intervención humana o simplemente porque es completamente desconocido, los algoritmos de aprendizaje semi-supervisado son de gran utilidad gracias a sus características de funcionamiento. Sin embargo, no todos los problemas pueden abordarse directamente con estas técnicas, ya que existen algunas características esenciales que deben estar presentes en los problemas para poder solucionarlos, de manera efectiva, utilizando esta tipología de algoritmos. Probablemente la primera aproximación sobre el uso de datos no etiquetados para construir un modelo de clasificación es el método Self-Learning, también conocido como self-training, self-labeling, o decision-directed learning. Self-learning es un método wrapper muy simple y uno de los métodos más utilizados en la práctica. La primera fase de dicho algoritmo consiste en aprender un clasificador con los pocos datos etiquetados. Posteriormente, el clasificador es usado para predecir los datos no etiquetados y sus predicciones de mayor fiabilidad son añadidas al conjunto de entrenamiento. Finalmente, el clasificador es reentrenado con el nuevo conjunto de entrenamiento. Este proceso (ver Gráfico 2) se repite hasta que no se puedan añadir nuevos datos al conjunto de entrenamiento. Gráfico 2: Esquema del funcionamiento del algoritmo self-learning En el enfoque semi-supervisado se asume cierta estructura en la distribución subyacente de los datos, es decir, los datos más próximos entre sí se supone que tienen la misma etiqueta. El Gráfico 3 refleja cómo los algoritmos semi supervisados van ajustando, iteración tras iteración, la frontera de decisión entre las etiquetas. Si solo se dispone de datos etiquetados la frontera de decisión es muy distinta a la frontera aprendida al incorporar la información de la estructura subyacente de todos los datos no etiquetados. Gráfico 3: Ajuste iterativo de la frontera de decisión en el aprendizaje semi-supervisado Otra situación en la que los datos semi-etiquetados son de utilidad es en la detección de anomalías, ya que se trata de un problema típico en el que es difícil disponer de una gran cantidad de datos etiquetados. Este tipo de problema puede abordarse con un enfoque no supervisado. El objetivo de dicho enfoque es el de identificar, en base a las características de los datos, aquellos casos que difieren mucho del patrón habitual de comportamiento. En este contexto, el subconjunto de datos etiquetados puede ayudar a evaluar las distintas iteraciones del algoritmo, y así, guiar la búsqueda de los parámetros óptimos del algoritmo analizado. Finalmente, con los ejemplos anteriormente expuestos, queda demostrado que el uso de datos no etiquetados junto con una pequeña cantidad de datos etiquetados puede mejorar considerablemente la precisión tanto de los modelos supervisados como la de los no supervisados. Escrito por Alfonso Ibáñez y Rubén Granados Si quieres experimentar en primera persona con el aprendizaje reforzado, no te pierdas esta serie en nuestro blog. Aprendizaje Reforzado y Deep Learning en videojuegos clásicos: todo lo que hemos aprendido en un año Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. DataOps: Del laboratorio a producción de manera ágil¿Cómo se mueven los trabajadores de Distrito T?
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
Francisco Javier Viñas Plaza El gobierno del almacenamiento como palanca de la innovación La Oficina de Dato es un agente de cambio e innovación en una organización. Convierte el gobierno del almacenamiento en una auténtica palanca de la innovación. Veamos el por...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Enrique Blanco Clustering de series temporales con Python La proliferación y la ubicuidad de los datos con dependencia temporal en un amplio abanico de disciplinas genera un interés sustancial en el análisis y la extracción de series...
LUCA Fleet Optimise en la era Post-COVID La llegada de la COVID-19 ha alterado el mundo tal y como lo conocíamos y está obligando a muchas empresas a evolucionar digitalmente para adaptarse a las nuevas necesidades...