Paloma Recuero de los Santos Video Post #9: Analíticas Big Data, sí, pero ¿Cuáles? Sabemos que las analíticas avanzadas Big Data son imprescindibles para no perder la comba de la innovación digital. Lo que no tenemos tan claro es qué tipo de...
LUCA Talk: La importancia de la seguridad y aspectos legales en el gobierno de los datos. FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 3 de marzo, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite SOBRE QUÉ: Desde la Comisión Europea se está definiendo y escribiendo...
Ismael Rihawi Data Engineer: poniendo orden en el caos de los datos Vivimos en una sociedad digital e hiperconectada, volcada en las redes sociales, acostumbrada a convivir entre sensores inteligentes y una nueva realidad con múltiples facetas (virtual, ampliada, mixta). En...
LUCA Decisiones cotidianas basadas en datos: data-driven life Post escrito por José Luis Orihuela, profesor universitario, conferenciante y escritor. Analiza el impacto de las innovaciones tecnológicas sobre los modos y los medios de comunicación. Autor de Los...
Alicia Martín Domingos Cómo optimizar la gestión de stock y almacenes ¿Alguna vez has visto cómo llega la mercancía a los almacenes de una tienda? Hace años, un operario descargaba la mercancía y con un listado en papel iba revisando...
LUCA Planificando la ubicación de un site de retail con los datos Una de las decisiones de negocio clave para cualquier marca es decidir dónde “establecer su tienda”. Esto implica la necesidad de conocer muy bien a los consumidores y su...
LUCA Deep Learning e imágenes por satélite para estimar el impacto de la COVID19 Motivados por el hecho de que la pandemia de COVID-19 ha causado conmoción mundial en un corto periodo de tiempo desde diciembre de 2019, estimamos el impacto negativo del...
LUCA Diseño de plan de movilidad y transporte para Neuquén gracias al Big Data e Inteligencia Artificial Cada vez son más las ciudades que, gracias a la tecnología y el uso de los datos, buscan mejorar la calidad de vida de los ciudadanos llevando a cabo...
Paloma Recuero de los Santos Video Post #8: Inteligencia Artificial vs Inteligencia Cognitiva ¿Conoces la diferencia? En los últimos años el término “Inteligencia Artificial” parece estar perdiendo terreno a favor de otros como “Inteligencia Cognitiva”, “Tecnologías smart” etc. Pero, ¿tienen realmente el mismo significado?. En...
LUCA Convierte datos complejos de tu empresa en insights accionables con LUCA Comms En un mundo cada vez más digital, son muchos los datos que una empresa genera a raíz del uso de los servicios de comunicaciones que tiene contratados con su...
Paloma Recuero de los Santos Video Post #9: Analíticas Big Data, sí, pero ¿Cuáles? Sabemos que las analíticas avanzadas Big Data son imprescindibles para no perder la comba de la innovación digital. Lo que no tenemos tan claro es qué tipo de...
LUCA Talk: La importancia de la seguridad y aspectos legales en el gobierno de los datos. FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 3 de marzo, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite SOBRE QUÉ: Desde la Comisión Europea se está definiendo y escribiendo...
Precauciones a la hora de normalizar datos en Data ScienceSantiago Morante Cendrero 1 noviembre, 2018 Escrito por Santiago Morante, PhD, Científico de Datos en LUCA Para que funcionen mejor muchos algoritmos de Machine Learning usados en Data Science, hay que normalizar las variables de entrada al algoritmo. Normalizar significa, en este caso, comprimir o extender los valores de la variable para que estén en un rango definido. Sin embargo, una mala aplicación de la normalización, o una elección descuidada del método de normalización puede arruinar tus datos, y con ello tu análisis. Vamos a ver unos ejemplos de los métodos de normalización más usados actualmente. Escalado de variables (Feature Scaling o MinMax Scaler) En este caso, cada entrada se normaliza entre unos límites definidos: Figura 1: Fórmula normalización. El problema de este tipo de normalizacion, es que comprime los datos de entrada entre unos límites empíricos (el máximo y el mínimo de la variable). Esto quiere decir que si existe ruido, éste va a ser ampliado. Pongamos por ejemplo que queremos analizar la calidad de la fibra óptica de 30 Mb/s de un hogar y para ello medimos durante 50 días su velocidad de conexión. Figura 2: Velocidad de conexión a lo largo de 50 días. Parece una conexión bastante estable, ¿verdad?. Vamos a proceder a escalar esta variable en el rango 0-1, usando como maximo y minimo los maximos y minimos de la señal. Figura 4: Velocidad conexión /día en escala 0-1. Después del escalado, nuestros datos se han distorsionado. Lo que era una conexión estable, ahora parece tener muchas variaciones. Esto nos dice que este método de normalización no es adecuado para señales estables. Escalado estándar (Standard Scaler) Una alternativa al escalado de variables es usar otra técnica conocida como escalado estándar (a cada dato se le resta la media de la variable y se le divide por la desviación típica). Figura 5: Fórmula de escalado estándar. Éste método funcionaría para normalizar la señal de la fibra óptica del ejemplo anterior, conservando su forma, pero, ¿qué pasará con otras señales?. Los dos estadísticos que se usan (media y desviación típica) son muy sensibles a valores anómalos (muy grandes o muy pequeños con respecto al resto). Imaginemos otro ejemplo. Vamos a medir cuánto se usa la palabra “resaca” en publicaciones de Facebook (datos reales). La frecuencia de uso de esta palabra tiene picos durante el fin de semana y valles entre semana. Los datos tienen valores anormalmente altos en fiestas como Halloween y Navidad. Figura 6: Número de veces que se usa la palabra “resaca” en Facebook/días. Antes de normalizar, calculamos la media (5.55) y la desviación típica (10.53). Ya podemos ver que la media está en torno a 5, cuando nuestros datos sin anomalias no pasan de valores en torno al 4 (mala señal). Si aplicamos ahora la normalización estándar, tenemos lo siguiente. Figura 7: La normalización estándar para los datos anteriores no es una buena elección. Lo primero que vemos es que no hemos conseguido normalizar entre 0-1 con este método. Además ahora tenemos valores negativos, cuando antes no los teníamos. Por si esto fuera poco, nuestros valores pico y valle han quedado muy atenuados por culpa de las anomalías. Una solución a esto sería eliminar las anomalías antes de normalizar (tema para otro post). Análisis similares se puede hacer para otros métodos de normalización: escalar sobre máximo, normalizer, escalado robusto, etc. Puedes consultar una versión extendida de este análisis en este enlace. Cosas a recordar La normalización puede (posiblemente [peligrosamente]) distorsionar tus datos No existe un método ideal de normalización que funcione para todas las formas de variables. Es trabajo del Data Scientist conocer cómo se distribuyen los datos, saber si existen anomalías, comprobar rangos, etc. Con este conocimiento, se puede seleccionar la mejor técnica para no distorsionar los datos. No te pierdas ninguno de nuestros post. Suscríbete a LUCA Data Speaks. Para mantenerte al día con LUCA visita nuestra página web, y no olvides seguirnos en Twitter, LinkedIn y YouTube. Las 3 CulturasLUCA Talk: Roles profesionales en el mundo del Big Data
Paloma Recuero de los Santos Iot4All: Los desafíos que debe enfrentar la IoT Internet de las cosas, IoT, está presente en numerosos escenarios y casos de uso. No sólo está en la base de la transformación digital de la industria, y otros...
Paloma Recuero de los Santos Video Post #9: Analíticas Big Data, sí, pero ¿Cuáles? Sabemos que las analíticas avanzadas Big Data son imprescindibles para no perder la comba de la innovación digital. Lo que no tenemos tan claro es qué tipo de...
Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (II) En el artículo anterior mencionamos la importancia que tienen en nuestro día a día los números aleatorios, utilizados para realizar cualquier tipo de simulación y fundamentales a la hora...
LUCA Talk: La importancia de la seguridad y aspectos legales en el gobierno de los datos. FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 3 de marzo, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite SOBRE QUÉ: Desde la Comisión Europea se está definiendo y escribiendo...
LUCA La teoría Gestalt en Gobierno del Dato Al igual que un dato por si sólo no vale nada si no se le dota de información, conocimiento y se usa para un propósito, “Gobernar el dato por...
Paloma Recuero de los Santos Drones e IA para detectar síntomas de COVID19 La Universidad de Australia de Sur, UniSA ha diseñado una tecnología pionera en el mundo que combina ingeniería, drones, cámaras e inteligencia artificial para monitorizar a distancia constantes vitales....
Buenas, no logro comprender porque se distorsionan las señales cuando realiza un escalado, tengo entendido que las distancias entre los puntos se mantienen (aplicando un factor de escala por supuesto), por eso no veo como pueden aparecer distintas modulaciones aplicando MIn y Max Responder