Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Fran Ramírez Las matemáticas del Machine Learning: Redes Neuronales (II) Continuamos con nuestra serie de Matématicas en Machine Learning, en concreto con la segunda parte de Redes Neuronales. En el anterior capítulo hablamos por encima de la definición de...
Álvaro Capell Osorio La importancia de tener un plan A día de hoy no hay duda de los beneficios que proporciona a las compañías el correcto análisis de la información que generan. Conceptos como el “petróleo del siglo...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
LUCA Caso de éxito: Departamento de Transporte de UK El Departamento de Transporte es el organismo gubernamental responsable de la mayor parte de la red de transporte del Reino Unido. Nuestro cliente necesitaba entender rápidamente los patrones de...
LUCA Diseño de plan de movilidad y transporte para Neuquén gracias al Big Data e Inteligencia Artificial Cada vez son más las ciudades que, gracias a la tecnología y el uso de los datos, buscan mejorar la calidad de vida de los ciudadanos llevando a cabo...
LUCA Analizamos el perfil de turistas en España en colaboración con el INE El turismo es uno de los principales sectores de actividad económica en España. Según el Instituto Nacional de Estadística (INE), organismo autónomo dependiente del Ministerio de Economía, España recibió...
Paloma Recuero de los Santos Video Post #4: Hadoop para torpes (III y fin) Ecosistema y Distribuciones Hadoop Ya estamos llegando al final del camino. En esta miniserie nos planteamos desentrañar la compleja madeja de Hadoop. Explicar de forma clara y legible en qué consiste, para qué...
Paloma Recuero de los Santos Video Post #21: Gemelos digitales o Digital Twins La creación de gemelos digitales o “digital twins” es un recurrente en los informes de tendencias tecnológicas más relevantes de las principales consultoras en los últimos años. En el...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Video Post #18: Atrévete con Deep Learning. Principios básicos al alcance de todos ¿Sabes qué es el Deep Learning, en qué se basa y qué aplicaciones tiene? En este vídeo te daremos unas sencillas nociones que te ayudarán a comprender esta potente...
Base de Datos vs Data Lake vs Data WarehousePaloma Recuero de los Santos 25 julio, 2019 ¿Conoces la diferencia entre una base de datos, un data lake y un data warehouse? Si quieres aprender a distinguirlos, sigue leyendo. Algunas personas piensan que el data lake no es más que “la última versión” del datawarehouse, pero en realidad, se trata de herramientas diferentes, que se usan para distintas cosas. ¿Qué es una base de datos? Para entenderlo mejor, vayamos a los orígenes: las bases de datos. Una base de datos es un conjunto de datos organizados de una determinada manera. Comenzaron a usarse en los años 50, y consistían en simples filas y columnas. Años después se hicieron populares las bases de datos relacionales, que almacenan los datos en forma de tablas, y las bases de datos orientadas a objetos. Estas últimas, almacenan datos complejos y relaciones entre datos directamente, sin asignar filas o columnas. Las bases de datos sirven para monitorizar y actualizar datos estructurados en tiempo real. Normalmente, solo tienen disponibles. los datos más recientes Tipos de Bases de datos Como hemos adelantado hace un momento, hay distintos modelos de bases de datos. Las más sencillas tenían formato de Fichero plano, donde todos los campos de una columna dada tienen valores del mismo tipo, cadena de caracteres, fecha u hora, entero o número de coma flotante. En el ejemplo de la imagen, las columnas son “Ruta”, “millas”, “Actividad”. Además, todos los miembros de la misma fila están relacionados entre ellos. “Registro 1, 2 …”. Fueron las precursoras de las bases de datos relacionales. Éstas últimas surgieron en los años 70 . En este modelo ´la estructura básica es la “relación” o tabla. La información sobre determinada entidad, (por ejemplo, cliente) se almacena en tuplas (filas), cada una de las cuales tiene unos atributos (columnas). Las columnas de cada tabla enumeran los distintos atributos de la entidad (el nombre del “cliente”, dirección y número de teléfono, p. ej.), de modo que cada tupla de la relación “clientes” representa un cliente específico y guardan todos sus datos. Todas las relaciones (es decir, tablas) en una base de datos relacional han de seguir unas mínimas reglas. Como último ejemplo, hablaremos también de las tablas orientada a objetos, que surgieron en la década de 1990. Las bases de datos relacionales trabajan con datos, representándolos en forma de tablas. En las bases de datos orientadas a objetos los datos ya no se almacenan como datos, sino como objetos, de distintos tipos, sobre los que se definen una serie de operaciones. Éstas a su vez se integran con las operaciones de un lenguaje de programación orientado a objetos (POO). Aunque están diseñadas para trabajar con lenguajes orientados a objetos, como Java, Visual Basic o C++ , también manejan información binaria y trabajan con datos complejos de manera rápida y segura ¿Qué es un datawarehouse? Por su parte, un datawarehouse es sistema de almacenamiento de datos diseñado para dar soporte al flujo de datos desde sistemas operativos a sistemas de decisión. Recoge los datos de diversas fuentes, internas o externas y los organiza de forma muy concreta para optimizar su recuperación con fines comerciales (extraer Insights de negocio). Sólo contiene los datos para a los que se quiere dar cierto uso. Éstos suelen ser estructurados (a veces, proceden de bases de datos relacionales), o no. En resumen, es un repositorio unificado para todos los datos recogidos por los diversos sistemas de una empresa. ¿Qué es un datalake? En los años 2000, surgieron los datalakes, como alternativa más rentable para el almacenamiento de datos no estructurados. Aunque ya se podían almacenar este tipo de datos en los formatos anteriores, los procesos de depuración y preparación eran largos y costosos. Los datalakes almacen datos los en bruto, sin ninguna estructura, jerarquía ni organización. Datos de cualquier fuente, en cualquier formato. Texto, datos de redes sociales,todo tipo de logs o registro de datos de sensores de dispositivos IoT. Al no tener estructura, son mucho más flexibles que los datawarehouses. Sin embargo, estos últimos, como tecnología más madura, también tienen mejores sistemas de seguridad. La idea es poder ir volcando todo tipo de datos al datalake, por si se necesitan más adelante, de la forma más económica y escalable. Para explicar qué es un datalake tomamos prestada una imagen de una infografía muy buena de EMC. Figura 1: ¿Cómo funcionan los datalakes? Fuente EMC Conclusión: ¿Y cuál es la mejor solución?. Dependerá de nuestro problema. Conforme aumenta el volumen de datos no estructurados, los datalakes en la nube se hacen más populares, ya que son más rentables y fáciles de mover cuando es necesario. Sin embargo, siempre habrá un lugar para las bases de datos y datawarehouse. Para saber más sobre arquitecturas de datos, no te pierdas esta serie en nuestro blog: Big Data y Hadoop: Episodio (I) Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Las Matemáticas del Machine Learning: Ejemplos Regresión Lineal (IV y último). Implementación en lenguaje R.Los mejores post de LUCA en julio
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
Francisco Javier Viñas Plaza El gobierno del almacenamiento como palanca de la innovación La Oficina de Dato es un agente de cambio e innovación en una organización. Convierte el gobierno del almacenamiento en una auténtica palanca de la innovación. Veamos el por...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Enrique Blanco Clustering de series temporales con Python La proliferación y la ubicuidad de los datos con dependencia temporal en un amplio abanico de disciplinas genera un interés sustancial en el análisis y la extracción de series...
LUCA Fleet Optimise en la era Post-COVID La llegada de la COVID-19 ha alterado el mundo tal y como lo conocíamos y está obligando a muchas empresas a evolucionar digitalmente para adaptarse a las nuevas necesidades...