Estructurados, semi-estructurados, no estructurados… ¿Cómo son tus datos?Paloma Recuero de los Santos 26 mayo, 2020 Cuando hablamos de tipos de datos, podemos hacerlo desde muchas perspectivas diferentes. Podemos clasificarlos según su origen, su rango, el tipo de lenguaje con el que queremos trabajar sobre ellos etc. Pero la clasificación más práctica y global que permite trabajar de forma efectiva en el mundo digital es la basada en la estructura de los datos. Según esta, hay 3 tipos de datos: estructurados, semiestructurados y no estructurados. Veremos cómo comprender el tipo de datos que se maneja en cada situación, es esencial para definir los recursos más adecuados para ingestarlos, almacenarlos, transformarlos, y entrenar con ellos modelos de los que obtener Insights de negocio, alertas frente a comportamientos anómalos, recomendaciones de mantenimiento predictivo etc Datos estructurados Los datos estructurados son los datos típicos de la mayoría de bases de datos relacionales (RDBMS). Estas bases de datos se caracterizan por tener un esquema determinado que define cómo son las tablas en las que se almacenan los datos, qué tipo de campos tienen y cómo se relacionan entre ellas. Estos datos se gestionan mediante un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language) diseñado precisamente, para administrar y recuperar información de los sistemas de gestión de bases de datos relacionales. Son los datos estructurados son los más sencillos de manejar, ya que tienen todos el mismo formato. Suelen ser archivos de texto que se almacenan en forma de tabla, hojas de cálculo o bases de datos relacionales en las que cada categoría se identifica mediante un título. Un ejemplo de este tipo de datos son los datos financieros, o los datos generados por sensores IoT. Datos semi-estructurados Datos semi-estructurados no tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o «tags» que permiten agruparlos y crear jerarquías. También se les conoce como no relacionales o NoSQL. Este tipo de datos representa alrededor del 5-10% del volumen de datos global. Sin embargo, tiene casos de uso muy relevantes desde el punto de vista comercial, en grandes infraestructurasde datos y aplicaciones web en tiempo real. Algunos servicios muy conocidos basados en este tipo de datos son el sistema de recomendación de Amazon, o los servicios de Linkedin. Muchos de los casos de uso tienen que ver con el transporte de datos, compartir datos de sensores, intercambio electrónico de datos, plataformas de medios sociales, y bases de datos NoSQL. Los ejemplos de datos semi-estructurados más conocidos son: Correos electrónicos, donde los metadatos nativos permiten clasificarlos y realizar búsquedas por palabras claveLenguaje de marcado XML, cuya flexible estructura, basada en etiquetas, permite universalizar la estructura de datos, el almacenamiento y el transporte en la Web.El estándar abierto JSON (JavaScript Object Notation), otro formato de intercambio de datos semi-estructurados que se utiliza mucho en la transmisión de datos entre aplicaciones web y servidores. Las bases de datos NoSQL, que al no separar el esquema de los propios datos, son más flexibles. Permiten almacenar información que no se adapta bien al formato de registro/tabla, como por ejemplo, el texto de longitud variable. También facilitan el intercambio de datos entre distintas bases de datos. Datos no estructurados Los datos no estructurados son prácticamente todo lo demás. Suponen un 80% del volumen de todos los datos generados, y el porcentaje no deja de crecer. Estos datos pueden tener una estructura interna, pero no siguen ningún esquema o modelo de datos predefinido. Pueden ser datos de texto, o no textuales; haber sido generados por una máquina o por una persona; y almacenarse en una base de datos NoSQL, o directamente en un Datalake. Los ejemplos más conocidos son: Ficheros de texto: archivos tipo word, hojas de cálculo, presentaciones, logs…Correo electrónicos, el cuerpo del mensaje, el resto de la información suele ser semi-estruturada, como hemos indicado anteriormenteDatos de redes sociales como Facebook, Twitter, LinkedinDatos de sitios web como Youtube, Instagram etcDatos móviles: mensajes, localización, chats…Imágenes, vídeos, audios etcDatos meteorológicos, imágenes por satélite, datos de sensores etc Trabajar, no sólo con datos no estructurados, sino con enormes volúmenes de ellos supone un auténtico desafío, al que damos respuesta con nuevas herramientas basadas en machine learning, nuevos modelos de almacenamiento y computación basados en sistemas cloud, cambios en las estrategias tradicionales de ingeniería de datos (de modelos ETL a ELT), integración de soluciones nativas y opensource etc. A todo ello se suma la complejidad añadida de dar respuesta en tiempo real a un creciente número de aplicaciones como las basadas en disposivitos IoT, el comercio online etc. Conclusión Es muy importante ser consciente del tipo de datos que se maneja en cada caso, para decidir cuáles son los recursos y herramientas más adecuados para cada situación. Esto nos permitirá definir las arquitecturas más eficientes que cubran las necesidades de una empresa con la mejor relación coste-beneficio. Para conocer más sobre cómo se almacenan los datos, y cómo entrenar con ellos nuestros algoritmos de machine learning, puedes leer estos otros dos post de nuestro blog: Base de Datos vs Data Lake vs Data Warehouse Datos de entrenamiento vs datos de test Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Machine learning para recuperar la inmunidad colectivaLUCA Talk: La transformación del Retail en tiempos de coronavirus: retos y soluciones
Roberto García Esteban ChatGPT y Cloud Computing: un matrimonio bien avenido ChatGPT (quizá no sepas que son las siglas de Chat Generative Pre-Trained Transformer) está en boca de todos por su impresionante habilidad para generar textos que parecen escritos por...
Olivia Brookhouse ¿Puede la Inteligencia Artificial entender las emociones? Cuando John McCarthy y Marvin Minsky iniciaron la Inteligencia Artificial en 1956, se sorprendieron de cómo una máquina podía resolver rompecabezas increíblemente difíciles en menos tiempo que los humanos. Sin...
Javier Martínez Borreguero Automatización, Conectividad e Inteligencia Aumentada al servicio de una reindustrialización competitiva, disruptiva y sostenible Por segundo año consecutivo vuelvo a participar en el Advanced Factories (AF 2023), la mayor exposición y congreso profesional dedicado a la Industria 4.0 del sur de Europa. Un...
Nacho Palou Medidas para reducir la brecha digital de género sin esperar 32 años El informe Sociedad Digital en España 2023, de Fundación Telefónica, dedica un apartado específico para analizar la brecha de género en el ámbito del talento digital. Destaca que, si bien...
Nacho Palou Raspberry Pi para Edge AI: Inteligencia Artificial en el borde para todos Raspberry Pi es un popular ordenador muy utilizado entre desarrolladores, estudiantes y aficionados a la informática, a la robótica y a ‘cacharrear’. Entre sus virtudes están su bajo coste...
Carlos Lorenzo Ya no eres solo una empresa de productos o servicios, eres una empresa de datos Todas las empresas que operan en la actualidad son en realidad empresas de datos. Y lo son porque día a día almacenan y utilizan una gran cantidad de información:...