Vivimos en un mundo que devora y genera datos cada segundo, para la muestra, en 2022 existían más de 5.000 millones de usuarios de internet generando datos, usando redes sociales, consumiendo y generando información. En este caos, la data transformation es una herramienta vital para los negocios.
Volviendo a las cifras, en un minuto YouTube emite más de 694.000 horas de vídeo y se comparten más de 695 mil historias en Instagram. Esta información es caótica, sin relación aparente entre sí, no estructurada, algunos incluso podrían decir que es casi inútil, pero la tecnología tiene otra opinión.
La Data Transformation o transformación de datos es la disciplina de convertir los datos de un formato, como un archivo de base de datos o un documento XML, en otro más fácil de utilizar.
Lo esencial es que este proceso permite homogeneizar los datos para su análisis y posterior visualización y generación de informes, es sobre estos datos que funcionan las empresas modernas.
Es más, la Data Transformation no es nueva, sus orígenes se remontan a los ochenta y al origen de las bases de las bases de datos, pero fue a comienzos de este milenio cuando empezaron a democratizarse y dar paso a la analítica como la conocemos. Y es allí cuando se comenzó a hablar de ELT y ETL.
Dando sentido al caos
Históricamente las grandes organizaciones que usan bases de datos on-premise solían usar procesos de ETL (extraer, transformar y cargar) en el cual esta transformación de datos estaba a la mitad del flujo de la información.
Sin embargo, con el crecimiento de la nube se dio paso a un enfoque ELT (extraer, cargar y transformar) donde la transformación de los datos se deja para el final. Y es precisamente esta la más usada para procesos de inteligencia artificial y análisis de Big Data.
La ETL, en cambio, brilla en escenarios en los que lo más importante primero es “limpiar” la información, depurarla de sus diferentes orígenes, para luego ser transformada.
Por supuesto, ambos modelos tienen sus situaciones ideales y ambos reportan beneficios concretos a las empresas como la optimización y ahorro de sus recursos al contar con información confiable (Data Integrity).
Además, son una necesidad del mercado. Actualmente, y gracias a los enormes volúmenes de datos, muchas empresas se quedan a medias en sus procesos de gestión de la información. Para la muestra, Forrester ha encontrado que entre 60% y 73% de los datos de las organizaciones no son tenidos en cuenta en procesos de analítica.
En esta época, ya bien sabemos que la información es dinero (infonomics).
Foto de ThisisEngineering RAEng en Unsplash