La calidad del dato como marca personal

Javier Blanco Romero    16 septiembre, 2020
New York

Un dato digno de confianza es un dato de calidad. Así pues, si le pregunto por su documento nacional de identidad o su teléfono, espero obtener un dato digno de confianza, un dato de calidad, pero usted no está libre de confundirse o la persona que digitalice la información no está libre de introducir mal el dato. Si hablamos de IoT, un sensor no está libre de dar una señal errónea, recuerde ese indicador de su coche que indicaba alta temperatura pero que fallaba en su diagnóstico, el sensor se había estropeado.

Premisas en los datos

  1. Los datos existen o no.
  2. Los datos pueden ser correctos o no.
  3. La calidad del dato se puede dar también en la veracidad de una asociación de datos veraces. Lo que le da la correctitud a la asociación de datos debiéndose cumplir también 1 y 2.

En teoría de la computación la correctitud de un algoritmo puede resumirse en:

  • El algoritmo resuelve el problema computacional al que se le plantea
  • Para cada entrada, produce la salida adecuada esperada
  • Termina en un tiempo finito

Podríamos decir entonces que si un dato o datos, pasan por un algoritmo de correctitud podemos validar y certificar su calidad, confirmando, que los datos son ciertos para los casos 1, 2 y 3.

Ejemplos en el tratamiento de los datos de calidad

  • Almaraz pertenece a la lista de nombres de centrales nucleares de España, cabría preguntarse, ¿es correcto esto? pues el dato existe y además es correcto cumple 1 y 2. En el caso de que no hubiésemos encontrado nombre alguno en la lista, no se cumpliría el caso 1.
  • Decir María del Carmen pertenece a la lista de nombres de centrales nucleares de España es más confuso, pues, el nombre es un nombre real y correcto que cumple 1, el dato existe. Pero ¿realmente es un nombre de una central nuclear? no, no cumple 2. Lo mismo ocurriría si en vez de encontrar María del Carmen, encontrásemos ASASDFASD sería un nombre que no cumple la premisa 2.
  • Por último, la central de Almaraz “pertenece a” la comunidad de Valencia. En este caso el nombre de la central es correcto y cumple 1 y 2, Valencia es un nombre válido de comunidad y también cumple 1 y 2 pero ¿La asociación es correcta?. Ambos datos son buenos y reales, pero ¿podemos certificar que la asociación del nombre de la central con la comunidad es la verdadera? No, no cumple 3. Y es en este caso, que el algoritmo de correctitud daría un valor erróneo. Este problema podría deberse a un problema de integridad referencial o a un problema de la persona que introdujo el dato se saltó una fila y metió la comunidad que no debía, es decir un problema puede tener muchas causas, ambos datos pueden pertenecer a una misma tabla o a dos tablas diferentes relacionadas.

Este ejemplo podría ser real, pero cambie usted las centrales nucleares y comunidades por el nombre de una persona o usted mismo y su DNI, podría darse el caso de que a usted le asocien un DNI correcto pero que no sea el suyo, si no el de otra persona porque la persona que introdujo el dato bailó una fila al digitalizar su información.

Ejemplos de este estilo existen millones, por ejemplo, confirme usted que el número de infectados por una enfermedad pandémica en un día son cierto número de personas y no los del día anterior. ¿Podría usted garantizar la verdad?. Y qué me dice de la última noticia política, ¿podría usted garantizar la veracidad de esta noticia, la calidad de la misma? No olvide lo que decía W. Edwards Deming:

“Sin datos, no es usted más que otra persona con una opinión”, debe demostrar las cosas.

W. Edwards Deming
Figura 1: Tríptico Calidad de Datos I (ampliar)
Figura 1: Tríptico Calidad de Datos I (ampliar)

La calidad como fuente de verdad

Cuando nos enfrentamos a problemas de calidad de datos lo que nos enfrentamos es a la determinación de la verdad. Otro debate sin duda sería si la verdad es necesaria o no. Pero saber si algo está en un sitio determinado, saber si un KPI refleja la verdad, garantizar la confianza y evitar la desconfianza, es a veces un ejercicio de estadística pura donde la exactitud a veces no existe y se encuentra entre 1 y 0 en una escala de confianza-grises compleja.

“La calidad de un dato a veces se mece de manera caprichosa en una asimetría informativa, estar más cerca de la verdad le acercará indiscutiblemente a tomar una mejor decisión.”

Figura 2: Tríptico Calidad de Datos II
Figura 2: Tríptico Calidad de Datos II (ampliar)

Conclusiones

Sin duda, los problemas de calidad de datos en las empresas es como enfrentarse a las fake news de manera interna y puede que ante un comité de dirección. Es enfrentarse a un auto sabotaje, la mayoría de las veces no intencionados, y determinar si es verdad o no, puede garantizarle el éxito o el fracaso de su negocio y desde luego pone en tela de juicio su reputación. Realizar una campaña de concienciación es vital para solucionar estos casos.

Los procesos de negocio que son traducidos a procesos técnicos o los algoritmos de correctitud, servirán para detectar y generar alarmas de mentiras-verdades. Someter a los datos a una IA, banco de datos fieles, procesos supervisados o no supervisados son buenos métodos para determinar esa calidad.

Finalmente, podrá optar por la autocorrección del dato o por una sanación manual de los datos malos, pero sin duda, resolver la calidad del dato le implicará tocar esa cadena de procesos para detectar el fallo y aplicar la solución, esto a veces se traduce en proyectos de calidad donde determinar dónde aplicar la solución y que solución, puede ser un ejercicio arduo, complejo y caro.

Sin duda, un problema de calidad de datos se traduce en pérdidas que pueden ser millonarias, legítimas o en perder una cita al médico para una operación por problemas con su DNI mal asignado a su teléfono y dirección. No olvide que:

“Los datos son recursos fundamentales”

Garantizar, controlar y solventar la calidad de los datos es una de las líneas clave de actuación de Gobierno del Dato la cual va vinculada a un retorno de inversión.

Post recomendados:


Para mantenerte al día con LUCA visita nuestra página web suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *