Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Dato o Data… ¿Tienen género los datos? Ya conocemos el enorme potencial de aplicar herramientas de Big Data en distintos campos de nuestra vida, siendo, uno de ellos el Desarrollo Sostenible y la Acción Humanitaria. Sin embargo, las...
Almudena Bonet Medina Consumer Insights, contando historias más allá de los números “A menudo los clientes no saben qué quieren hasta que se lo muestras.” Steve Jobs tenía claro desde los albores de su carrera lo que significaba encontrar un buen insight....
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
LUCA Caso de éxito: Departamento de Transporte de UK El Departamento de Transporte es el organismo gubernamental responsable de la mayor parte de la red de transporte del Reino Unido. Nuestro cliente necesitaba entender rápidamente los patrones de...
LUCA Análisis de la DANA que azotó el Levante español en 2019 En Septiembre de 2019 un fenómeno meteorológico extremo, conocido como DANA, causó graves inundaciones en el sureste español, provocando la pérdida de vidas humanas, cuantiosos daños económicos, daños en...
LUCA Deep Learning e imágenes por satélite para estimar el impacto de la COVID19 Motivados por el hecho de que la pandemia de COVID-19 ha causado conmoción mundial en un corto periodo de tiempo desde diciembre de 2019, estimamos el impacto negativo del...
LUCA LUCA Talk: Insights API -Audiencia y perfilado Todo negocio debe conocer a su audiencia para poder diseñar una estrategia atractiva y efectiva. Definir quién es, cómo es y dónde están las personas que necesitan, quieren o les...
Paloma Recuero de los Santos Video Post #16: El enemigo número 1 del Machine Learning No hacemos más que hablar del uso cada día más extendido del Machine Learning y otras tecnologías de Inteligencia artificial que hacen muchos procesos más eficientes y rentables. Sin...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Video Post #18: Atrévete con Deep Learning. Principios básicos al alcance de todos ¿Sabes qué es el Deep Learning, en qué se basa y qué aplicaciones tiene? En este vídeo te daremos unas sencillas nociones que te ayudarán a comprender esta potente...
La calidad del dato como marca personalJavier Blanco Romero 16 septiembre, 2020 Un dato digno de confianza es un dato de calidad. Así pues, si le pregunto por su documento nacional de identidad o su teléfono, espero obtener un dato digno de confianza, un dato de calidad, pero usted no está libre de confundirse o la persona que digitalice la información no está libre de introducir mal el dato. Si hablamos de IoT, un sensor no está libre de dar una señal errónea, recuerde ese indicador de su coche que indicaba alta temperatura pero que fallaba en su diagnóstico, el sensor se había estropeado. Premisas en los datos Los datos existen o no.Los datos pueden ser correctos o no.La calidad del dato se puede dar también en la veracidad de una asociación de datos veraces. Lo que le da la correctitud a la asociación de datos debiéndose cumplir también 1 y 2. En teoría de la computación la correctitud de un algoritmo puede resumirse en: El algoritmo resuelve el problema computacional al que se le planteaPara cada entrada, produce la salida adecuada esperadaTermina en un tiempo finito Podríamos decir entonces que si un dato o datos, pasan por un algoritmo de correctitud podemos validar y certificar su calidad, confirmando, que los datos son ciertos para los casos 1, 2 y 3. Ejemplos en el tratamiento de los datos de calidad Almaraz pertenece a la lista de nombres de centrales nucleares de España, cabría preguntarse, ¿es correcto esto? pues el dato existe y además es correcto cumple 1 y 2. En el caso de que no hubiésemos encontrado nombre alguno en la lista, no se cumpliría el caso 1.Decir María del Carmen pertenece a la lista de nombres de centrales nucleares de España es más confuso, pues, el nombre es un nombre real y correcto que cumple 1, el dato existe. Pero ¿realmente es un nombre de una central nuclear? no, no cumple 2. Lo mismo ocurriría si en vez de encontrar María del Carmen, encontrásemos ASASDFASD sería un nombre que no cumple la premisa 2.Por último, la central de Almaraz “pertenece a” la comunidad de Valencia. En este caso el nombre de la central es correcto y cumple 1 y 2, Valencia es un nombre válido de comunidad y también cumple 1 y 2 pero ¿La asociación es correcta?. Ambos datos son buenos y reales, pero ¿podemos certificar que la asociación del nombre de la central con la comunidad es la verdadera? No, no cumple 3. Y es en este caso, que el algoritmo de correctitud daría un valor erróneo. Este problema podría deberse a un problema de integridad referencial o a un problema de la persona que introdujo el dato se saltó una fila y metió la comunidad que no debía, es decir un problema puede tener muchas causas, ambos datos pueden pertenecer a una misma tabla o a dos tablas diferentes relacionadas. Este ejemplo podría ser real, pero cambie usted las centrales nucleares y comunidades por el nombre de una persona o usted mismo y su DNI, podría darse el caso de que a usted le asocien un DNI correcto pero que no sea el suyo, si no el de otra persona porque la persona que introdujo el dato bailó una fila al digitalizar su información. Ejemplos de este estilo existen millones, por ejemplo, confirme usted que el número de infectados por una enfermedad pandémica en un día son cierto número de personas y no los del día anterior. ¿Podría usted garantizar la verdad?. Y qué me dice de la última noticia política, ¿podría usted garantizar la veracidad de esta noticia, la calidad de la misma? No olvide lo que decía W. Edwards Deming: “Sin datos, no es usted más que otra persona con una opinión”, debe demostrar las cosas.W. Edwards Deming Figura 1: Tríptico Calidad de Datos I (ampliar) La calidad como fuente de verdad Cuando nos enfrentamos a problemas de calidad de datos lo que nos enfrentamos es a la determinación de la verdad. Otro debate sin duda sería si la verdad es necesaria o no. Pero saber si algo está en un sitio determinado, saber si un KPI refleja la verdad, garantizar la confianza y evitar la desconfianza, es a veces un ejercicio de estadística pura donde la exactitud a veces no existe y se encuentra entre 1 y 0 en una escala de confianza-grises compleja. “La calidad de un dato a veces se mece de manera caprichosa en una asimetría informativa, estar más cerca de la verdad le acercará indiscutiblemente a tomar una mejor decisión.” Figura 2: Tríptico Calidad de Datos II (ampliar) Conclusiones Sin duda, los problemas de calidad de datos en las empresas es como enfrentarse a las fake news de manera interna y puede que ante un comité de dirección. Es enfrentarse a un auto sabotaje, la mayoría de las veces no intencionados, y determinar si es verdad o no, puede garantizarle el éxito o el fracaso de su negocio y desde luego pone en tela de juicio su reputación. Realizar una campaña de concienciación es vital para solucionar estos casos. Los procesos de negocio que son traducidos a procesos técnicos o los algoritmos de correctitud, servirán para detectar y generar alarmas de mentiras-verdades. Someter a los datos a una IA, banco de datos fieles, procesos supervisados o no supervisados son buenos métodos para determinar esa calidad. Finalmente, podrá optar por la autocorrección del dato o por una sanación manual de los datos malos, pero sin duda, resolver la calidad del dato le implicará tocar esa cadena de procesos para detectar el fallo y aplicar la solución, esto a veces se traduce en proyectos de calidad donde determinar dónde aplicar la solución y que solución, puede ser un ejercicio arduo, complejo y caro. Sin duda, un problema de calidad de datos se traduce en pérdidas que pueden ser millonarias, legítimas o en perder una cita al médico para una operación por problemas con su DNI mal asignado a su teléfono y dirección. No olvide que: “Los datos son recursos fundamentales” Garantizar, controlar y solventar la calidad de los datos es una de las líneas clave de actuación de Gobierno del Dato la cual va vinculada a un retorno de inversión. Post recomendados: Sesgos cognitivos en los datos (I): SupervivenciaTransformación Digital y Gobierno del dato tras el COVID-19Cómo transformar una compañía(I): Priorizar casos de uso Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. LUCA Talk: Big Data para orientarnos sobre el empleo del futuroVideo Post #21: Gemelos digitales o Digital Twins
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
Francisco Javier Viñas Plaza El gobierno del almacenamiento como palanca de la innovación La Oficina de Dato es un agente de cambio e innovación en una organización. Convierte el gobierno del almacenamiento en una auténtica palanca de la innovación. Veamos el por...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Enrique Blanco Clustering de series temporales con Python La proliferación y la ubicuidad de los datos con dependencia temporal en un amplio abanico de disciplinas genera un interés sustancial en el análisis y la extracción de series...
LUCA Fleet Optimise en la era Post-COVID La llegada de la COVID-19 ha alterado el mundo tal y como lo conocíamos y está obligando a muchas empresas a evolucionar digitalmente para adaptarse a las nuevas necesidades...