Cómo transformar una compañía(IX):Conocer el significado de nuestros datos

LUCA    8 octubre, 2020

Cuando una publicación especializada habla sobre los datos de las empresas, es muy habitual que la imagen que acompañe al artículo sea una ilustración en 3D en la que los unos y los ceros discurren frente a un observador de forma similar a como lo hacían en Matrix.

Esta representación de los datos, tan cercana a cómo necesita la máquina procesar la información, no se corresponde en absoluto con las necesidades que como humanos tenemos para entender esos datos.

Para nosotros es indiferente la forma en la que los datos son almacenados por el ordenador; a nosotros lo que nos importa es lo que los datos significan.

Descripciones

Cuentan de un CEO que pedía a sus directores el número de clientes que tenía la empresa. Entonces el Director de Marketing, sin dudarlo, sacaba una preciosa infografía, con una tipografía minimalista y colores pastel en la que aparecía la cifra solicitada. Un momento, dijo el Director de Facturación, creo que esa no es la cifra correcta. Y buscando entre sus papeles sacó un gráfico, mucho más modesto, nuevamente con la cifra, según él, solicitada.

También las Directoras de Contabilidad y de Sistemas aportaron sus cifras de total de clientes de la empresa, pero ninguna coincidía. Y es que mientras Marketing conocía la cifra de clientes “prospect”, Facturación había escrito la cifra de clientes del último ciclo de facturación, Contabilidad tenía la cifra de todos aquellos que hubieran tenido algo contratado en los últimos 5 años y Sistemas el total de clientes existentes en los archivos históricos. ¿Cómo es posible, bramaba el CEO, que no me podáis responder a una pregunta tan básica para la empresa? Y la cuestión es que todos habían respondido una cifra correcta… a su manera.

Al no disponer de una definición clara de lo que es un “Cliente”, cada director había buscado la respuesta de lo que se entiende por cliente dentro de su ámbito, no a nivel global. No habían utilizado una definición común para todos porque no la había.

La definición de un lenguaje común para toda la corporación es un objetivo de la máxima importancia para evitar errores en la comprensión de los datos

Otro aspecto en el que se debe hacer hincapié en la calidad de las descripciones. En muchas instalaciones es fácil que nos encontremos con descripciones que no aportan ninguna información, por ejemplo, “Cliente: es la tabla que tiene los datos del cliente”.

Es lo que los anglosajones llaman descripciones cheeseburger (what is a cheeseburger? A burger with cheese). Si analizamos el ejemplo…

  • … que Cliente es una tabla lo sabíamos porque estamos consultando la descripción de una tabla
  • … que contiene datos lo sabíamos, porque todas las tablas contienen datos
  • … y que son del cliente lo sabíamos, porque estamos en la tabla llamada “Cliente”

Para evitar esto las descripciones deben definir el concepto de negocio que se almacena y no el objeto en donde está almacenado (tabla, columna, entidad, atributo, campo, fichero,…). Es una buena práctica nombrarlos siempre en singular, ya que hace más fácil centrarse en el concepto. Así, una buena descripción para el cliente podría ser “Cliente: Persona física o jurídica que tiene contratados los productos o servicios de la compañía”. Con esta descripción los directores no habrían tenido datos discrepantes; solo el de Facturación habría aportado su cifra.

Nombres

Recientemente, había un nombre de columna que se repetía más de 20 veces en distintas tablas de un único sistema, pero en todos los casos carecía de descripción. Al solicitar que propusieran una definición para esas columnas dijeron, ¡uy, depende! Ese nombre se utiliza unas veces para una cosa y otras veces para otra. Y es que el término “ACEITE”, vinculado a unas máquinas, a veces se refería a la cantidad en litros que se necesitaba, en otras ocasiones era la densidad, en otras un simple indicador de si llevaba o no y, finalmente, podía contener la marca comercial recomendada.

Dado que todos los datos tenían el mismo nombre de columna no sería de extrañar que, para analizar el consumo de aceite de esa planta, alguien hubiera sumado los litros del depósito de una máquina con la densidad otra. Pero ¿habría pasado lo mismo si las columnas se hubieran llamado CAN_LITROS_ACEITE, DES_VISCO_ACEITE o NOM_ACEITE? Unos nombres de columna adecuados ayudan a evitar errores, ya que la utilización de nombres más descriptivos nos permite identificar correctamente el contenido de cada campo. Además, los nombres de columna deben ser coherentes en todo el sistema: un nombre de campo debe significar lo mismo en todos los sitios donde aparezca, y el mismo concepto debe aparecer siempre reflejado con idéntico nombre de campo.

La utilización de estándares de nomenclatura con prefijos significativos y la utilización de nombres de campo coherentes y significativos, son buenas prácticas cuya aplicación debe ser verificada por la compañía.

Disciplinas de Gobierno del Dato

Vista la importancia de poder identificar con precisión el significado de nuestros datos, ¿cómo podemos mejorarlo?

Hay dos disciplinas fundamentales de Gobierno del Dato en las que nos podemos apoyar para conseguirlo: el modelado de datos y la gestión de metadatos.

Modelado de datos

Una instalación de base de datos de una gran corporación puede tener millones de elementos de datos. El modelado de datos nos permite tener visiones con distintos niveles de abstracción, de forma que nos permita descomponer la complejidad total del sistema y buscar las mejores soluciones en cada caso. Es un proceso en el que se toman los requisitos de negocio y se diseñan las mejores estructuras de datos para soportarlos. Además:

  • Contiene descripciones precisas, tipos de dato y valores posibles para cada campo
  • Es una conceptualización de nuestros datos que nos permite identificar de manera rápida qué datos tenemos y cómo se relacionan.
  • Es un mapa en el que se representan las reglas de negocio y nos permite navegar por los datos.
  • Lo forman los conceptos de negocio, campos y relaciones.
  • Permite centralizar la gestión y creación de estructuras de datos

Con un modelo de datos obtenemosinformación sobre nuestras estructuras de datos, difusión de un lenguaje común y un mapa de relaciones. Ayuda a evitar elnacimiento de silos de información, las duplicidades de datos y los errores de integración de aplicaciones. Además, mejoramos la reusabilidad de los datos maestros, la rapidez de los desarrollos y el control sobre los datos sensibles (GDPR)

El modelado de datos es una técnica sobradamente probada para gestores tradicionales de bases de datos (relacionales), pero el mayor reto al que se enfrenta en la actualidad es la aparición de multitud de nuevas tecnologías en las que es complicado aplicar una única fórmula estándar.

Los metadatos

Por su parte, la herramienta corporativa de metadatos es de gran ayuda para el acercamiento entre el lenguaje utilizado por los usuarios técnicos y los usuarios de negocio.

Para ello, permite disponer de:

  • Un glosario de términos de negocio que facilita el lenguaje común en la compañía
  • Un inventario de los objetos de datos de nuestro sistema, diccionario de datos
  • La vinculación entre los términos del glosario y los elementos del sistema con los que se ha implementado
  • La identificación de los responsables de los datos

Conclusión

La utilización de un lenguaje común en toda la empresa y el conocimiento preciso del contenido de nuestros datos son dos premisas necesarias para evitar errores de cálculo, retrabajos y duplicidades (de datos y de procesos).

Esto permite mejorar la integración de nuestras aplicaciones, los tiempos de desarrollo y la evolución hacia el concepto de “Data Driven”. En definitiva, hacer del dato un activo corporativo.

Estas premisas son facilitadoras para multitud de procesos clave en la transformación digital de la empresa, y se usan para análisis de viabilidad técnica de casos de uso, para conectar la tecnología con el negocio,  el desarrollo de los procesos de ingesta (o ETL) de los datos.

En LUCA contamos con los mejores profesionales que atesoran largos años de experiencia tanto en la definición, gestión, normado y control de modelo de datos, como de herramientas de gestión de metadatos.

Escrito por Juan Ignacio Ayala


Todos los post de esta serie:


Para mantenerte al día con LUCA visita nuestra página web suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *