Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (Parte I) ¿Cuántas veces a la hora de repartir algo con los amigos/as hemos dicho: “piensa en un número del 1 al 10”? ¿La respuesta es realmente aleatoria? Si utilizamos una...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
Jesús Montoya Sánchez de Pablo Cómo transformar una compañía(II): conectar la tecnología con el negocio En una entrada anterior, presentamos la priorización de los casos de uso como el primer paso hacia la transformación de las compañías en el marco de un plan de...
Amaia Perez Data Science Awards Spain 2017 Synergic Partners, la empresa consultora especializada en Big Data y Data Science de LUCA, ha abierto una nueva convocatoria de los Data Science Awards 2017, unos galardones que, por...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
LUCA Caso de éxito: Departamento de Transporte de UK El Departamento de Transporte es el organismo gubernamental responsable de la mayor parte de la red de transporte del Reino Unido. Nuestro cliente necesitaba entender rápidamente los patrones de...
LUCA Inteligencia Artificial en el sector industrial: el caso de éxito de Repsol Aunque ha sido el gran olvidado en estos últimos años de avances tecnológicos, el sector industrial presenta muchas oportunidades en el ámbito de los datos y la Inteligencia Artificial,...
LUCA LUCA Fleet, ¿qué datos se esconden tras los vehículos de una flota? Contenido creado por Raquel Crespo Crisenti, Pedro A. Baigorri, María Luisa Rivero y Marta García Moreno, miembros del equipo de producto de LUCA. Son muchos los datos que se generan cada...
LUCA LUCA Talk: Cómo crear una app para tu empresa en Movistar Living Apps Que la Inteligencia Artificial está revolucionando y transformando el sector de las telecomunicaciones, no es algo nuevo. Los usuarios, acostumbrados a tratar con asistentes virtuales y chatbots, confían cada vez más...
Paloma Recuero de los Santos Video Post #3: Hadoop para torpes (II). ¿Cómo funciona? HDFS y MapReduce Continuamos con el segundo vídeo de nuestra miniserie “Hadoop para torpes”. En nuestro primer vídeo sobre Hadoop hablamos de su origen y sus características principales. Ahora vamos a conocer...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Video Post #18: Atrévete con Deep Learning. Principios básicos al alcance de todos ¿Sabes qué es el Deep Learning, en qué se basa y qué aplicaciones tiene? En este vídeo te daremos unas sencillas nociones que te ayudarán a comprender esta potente...
Las 3 CulturasLUCA 31 octubre, 2018 Escrito por Carlos Gil Bellosta. En 2001 se publicó la primera edición del muy influyente The Elements of Statistical Learning. En su prefacio, sus autores, T. Hastie, R. Tibshirani y J. Friedman, daban cuenta de la emergencia de una nueva disciplina, la ciencia de datos (entonces conocida como Data Mining o Machine Learning). The field of Statistics is constantly challenged by the problems that science and industry brings to its door. In the early days, these problems often came from agricultural and industrial experiments and were relatively small in scope. With the advent of computers and the information age, statistical problems have exploded both in size and complexity. Challenges in the areas of data storage, organization and searching have led to the new field of “data mining”; statistical and computational problems in biology and medicine have created “bioinformatics.” Vast amounts of data are being generated in many fields, and the statistician’s job is to make sense of it all: to extract important patterns and trends, and understand “what the data says.” We call this learning from data. El título del libro no es para nada inocente: la expresión aprendizaje estadístico es toda una declaración de intenciones. Que no son otras que tender puentes entre las dos disciplinas, la estadística y la ciencia de datos: This book is our attempt to bring together many of the important new ideas in learning, and explain them in a statistical framework. El mismo año, 2001, vio también la publicación de un artículo tan influyente como controvertido, Statistical Modeling: The Two Cultures, de Leo Breiman. Breiman identifica también esas dos disciplinas (o culturas), hasta cierto punto contrapuestas; sin embargo, en lugar de ensayar una síntesis de ambas, toma partido decididamente por una de ellas. No en vano, su artículo sigue citándose y utilizándose para marcar distancias entre la estadística clásica y la nueva disciplina emergente (sobre todo por quienes quieren dar a entender que la estadística tradicional es innecesaria para ser un científico de datos). Breiman describe los problemas del interés de ambas disciplinas como una función desconocida, una caja negra, la naturaleza, que asocia entradas a salidas: Figura 1: Breiman define la naturaleza como “caja negra”. La estadística tradicional trata de simular esa caja negra con alguno de los modelos clásicos: Figura 2: En Estadística tradicional la “caja negra” se simula con modelos clásicos Como Hastie y sus coautores reconocen, estos modelos no bastan: gran parte de ellos fueron concebidos como soluciones para determinados problemas muy concretos en ingeniería (agrícola, industrial). Pero estos, pese a su importancia, representan un conjunto muy pequeño dentro del universo de los problemas que se plantea la ciencia de datos. La estadística clásica, simplemente, no sabe qué responder cuando se le plantean ese tipo de problemas (o, peor aún, estira esos métodos hasta extremos indefendibles). Breiman encuentra en el Machine Learning el modo de superar esa limitación: Figura 3: Breiman supera la limitación con Machine Learning. La idea no es nueva. Los ingenieros saben desde hace muchos años cómo aproximar funciones arbitrarias (p.e., una onda acústica, una canción) por otra que es una suma de senos y cosenos (mediante la descomposición de Fourier) con una precisión arbitraria. Eso sucede porque, como han probado los matemáticos, los senos y cosenos son densos en el universo de ese tipo de funciones. Los árboles de decisión, los bosques aleatorios, las redes neuronales, los boosted trees (XGBoost, etc.) son igualmente densos en el espacio de funciones que plantea la naturaleza y que interesan a los científicos de datos. Si queremos aproximar cualquier función, podemos usarlos y obtener predicciones razonables. Tal es el programa explícito de Breiman y también, más o menos implícitamente, el de toda una generación de científicos de datos. Sin embargo, este programa se queda igualmente corto en muchas aplicaciones reales. Pensemos, a modo de ejemplo, en el llamado filtro de Kalman, que se usa para mejorar la precisión de la ubicación de un móvil (p.e., un dron) que dispone de un GPS: lo hace corrigiendo estadísticamente la posición que indica el GPS en el momento t con la que se deduciría de su posición en el momento t-1 aplicando las leyes de la dinámica. Si quisiésemos reemplazar el filtro de Kalman por un sistema basado en, p.e., redes neuronales, estas tendrían que aprender por si mismas las leyes de la dinámica. Lo cual es un derroche manifiesto: las leyes de la dinámica son sobradamente conocidas y pueden modelarse explícitamente. La pregunta que uno puede entonces plantearse es: ¿podemos construir una caja alternativa a las dos que propone Breiman que incluya todo lo que ya sabemos del sistema de interés (y, en particular, las leyes de Newton)? La respuesta es positiva y hoy en día podemos modelar este tipo de sistemas (y muchos otros) en los que gran parte de lo que la caja negra hace es conocido y esa información previa puede introducirse explícitamente. Solo en algunos casos particulares esos modelos podrían reducirse a los de la estadística clásica, por lo que esta queda de nuevo superada. Y, habida cuenta de todo lo que sabemos sobre la naturaleza, nuestros modelos superarán también a los propuestos por cajas negras puras (por supuesto, siempre que exista información previa del tipo que se describe más arriba). Esta de la que aquí se da noticia podría considerarse una tercera cultura alternativa a las dos que distingue Breiman y su emergencia en estos años ha venido de la mano de avances teóricos y computaciones muy notables. ¿Has oído hablar de Stan, de Markov Chain Monte Carlo, de expectation propagation, de large scale Bayesian inference, de…? Pues es la tercera cultura que pide paso. No te pierdas ninguno de nuestros post. Suscríbete a LUCA Data Speaks. Para mantenerte al día con LUCA visita nuestra página web, y no olvides seguirnos en Twitter, LinkedIn y YouTube. Lo más destacado del LID2018 (III): Transformando tu negocio con LUCAPrecauciones a la hora de normalizar datos en Data Science
Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (Parte I) ¿Cuántas veces a la hora de repartir algo con los amigos/as hemos dicho: “piensa en un número del 1 al 10”? ¿La respuesta es realmente aleatoria? Si utilizamos una...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
Francisco Javier Viñas Plaza El gobierno del almacenamiento como palanca de la innovación La Oficina de Dato es un agente de cambio e innovación en una organización. Convierte el gobierno del almacenamiento en una auténtica palanca de la innovación. Veamos el por...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Enrique Blanco Clustering de series temporales con Python La proliferación y la ubicuidad de los datos con dependencia temporal en un amplio abanico de disciplinas genera un interés sustancial en el análisis y la extracción de series...