Tutorial Power BI: ¿De donde vienen los nuevos madrileños?

Paloma Recuero de los Santos    13 noviembre, 2019

Si quieres aprender a visualizar datos con Power BI, la mejor manera es ponerse manos a la obra y trabajar sobre un ejemplo. En un post anterior ya explicamos cómo instalar la herramienta y trabajamos sobre un conjunto de datos publicado en el portal de datos abiertos de Londres.

Primeros pasos: instalamos la herramienta

Descargamos los datos.

En esta ocasión, nos hemos planteado investigar sobre el origen de los “nuevos madrileños”. Para ello, vamos a trabajar sobre un conjunto de datos que recoge los nacimientos producidos en la ciudad de Madrid por nacionalidad/origen de la madre, publicado en el portal de datos abiertos de la Comunidad de Madrid.

Analizando estos datos, vamos a poder dar respuesta a preguntas del tipo:

  • ¿En qué distritos/barrios se producen más nacimientos y cuáles menos?
  • ¿Cuáles son las raíces de estos “nuevos madrileños”?¿de qué región española o país proceden sus madres?

En este ejemplo, hemos descargado directamente el csv (botón rojo), pero también hay disponible una API de datos. El asistente nos ofrece ejemplos sencillos sobre cómo cargar los datos en Python, o ejemplos de consultas SQL y Ajax.

 Figura 1: Dataset de trabajo, descargable desde el portal de datos abiertos de la Comunidad de Madrid
Figura 1: Dataset de trabajo, descargable desde el portal de datos abiertos de la Comunidad de Madrid

Exploramos los datos.

Lo primero, como siempre, es echarle un vistazo preliminar al conjunto de datos. Nos interesa conocer aspectos como el número de registros disponibles, quién creó el dataset, cuándo, bajo qué licencia, con qué frecuencia se actualizan etc. Toda esta información está en la ficha de los datos.

Figura 2: Información adicional de la ficha de datos.
Figura 2: Información adicional de la ficha de datos.

También necesitamos conocer la descripción de los campos o variables del conjunto de datos, en qué formato están, de dónde proceden los datos, Para ello, consultamos el “Dicccionario de datos”.

En este conjunto de datos tenemos información, desagregada por distrito y barrio , sobre niños y niñas nacidos en el Municipio de Madrid . También se indica la nacionalidad u origen de la madre. Las madres nacidas en el extranjero se agrupan en la provincia 66 denominada “Extranjero”. En la categoría “No consta” se incluyen tanto las que no se sabe si han nacido en España o el extranjero, como las que sabiendo que han nacido en España no se sabe en qué provincia lo hicieron. Los datos proceden de la última explotación del Movimiento Natural de la Población.

Cargamos los datos en Power BI.

Cargamos el csv en la herramienta. Si la usas por primera vez, no dejes de leer el post que hemos indicado al principio, donde estos pasos se describen con todo detalle.

Figura 4: Carga de datos en Power BI
Figura 4: Carga de datos en Power BI

¿Cuántos nacimientos hubo en Madrid capital en 2018?

Una de las primeras preguntas que podemos hacerlos es: ¿Cuántos niños nacieron en Madrid en 2018? ¿Nacieron más niños o más niñas?. Para responder a estas preguntas, podemos simplemente visualizar, en una tabla, los campos “Número de nacimientos” y “sexo”.

Figura 5: Visualización del número de nacimientos y sexo del bebé en una tabla
Figura 5: Visualización del número de nacimientos y sexo del bebé en una tabla

Obtenemos:

Figura 6: Número de nacimientos por sexo del bebé.
Figura 6: Número de nacimientos por sexo del bebé.

Para calcular los porcentajes, no tenemos más que cambiar a la visualización de “pie chart” o bien la “gauge”, seleccionar el modo “Focus” para verlo mejor y pasar el ratón por cada sector de la los sectores.

Figura 7: Visualización de la distribución de nacimientos por sexo. (Tamaño real)

Como era de esperar, los porcentajes están muy igualados, aunque, en este caso, nacieron más varones, con un 48,62% de niñas frente a un 51, 38 de niños.

¿En qué distritos nacieron más niños ?

Para saber en qué distritos/barrios han tenido lugar más nacimientos, agregamos el campo “nombre de distrito” a nuestros datos de trabajo.

Figura 8: Agregamos campos distrito-barrio.
Figura 8: Agregamos campos distrito-barrio.

En este caso, por ejemplo, la visualización de “line and clustered column chart” (gráfico de líneas y columnas agrupadas) nos permite apreciar, de un vistazo, la gran diferencia entre distritos. Seleccionamos la opción “Data Labels on” en el menú “Formato” para que indique el valor de referencia.

(Pulsar “tamaño real” , en el pie de imagen para verlas a mayor tamaño)

Figura 9: Visualización del número de nacimientos por distrito. (tamaño real)

Modificamos las visualizaciones según nuestras preferencias.

Podemos, por ejemplo, ordenarlos de mayor a menor, usando el menú “más opciones”, que aparece en la esquina superior derecha:

Figura 10: Menú "mas opciones"
Figura 10: Menú “mas opciones”

O cambiar el color, tipo de letra, tamaño, títulos etc. usando el menú “Formato”:

Figura 11: Menú formato
Figura 11: Menú formato
Figura 10: Visualización del número de nacimientos por distrito, de mayor a menor (tamaño real)
Figura 10: Visualización del número de nacimientos por distrito de mayor a menor (tamaño real)

O bien usar otra visualización diferente, como por ejemplo, el diagrama de árbol (“treemap“):

 Figura 11: Visualización del número de nacimientos por distrito diagrama árbol
Figura 11: Visualización del número de nacimientos por distrito diagrama árbol (tamaño real)

En todas ellas se puede apreciar que el distrito de Fuencarral-El Pardo, con 2521 nacimientos, es aquel donde han nacido más niños, mientras que el de Barajas, con 490, es donde menos.

Saltamos al siguiente nivel (“drill down”)

Pulsando la flecha que aparece en la esquina superior derecha activamos el “Drill down” que nos permite “profundizar” un nivel. Podemos seleccionar un distrito concreto, haciendo click sobre la columna que lo representa y pasamos a ver la distribución de nacimientos por barrios. Por ejemplo, si seleccionamos el distrito de Retiro, vemos la siguiente distribución. Puede ser interesante comparar esta distribución de nacimientos por barrios con la correspondiente a otros distritos de Madrid. En este caso, hemos escogido los distritos de Centro, Fuencarral y Puente de Vallecas. Se aprecia una gran diferencia entre barrios en prácticamente todos los distritos, lo que sugiere que es importante bajar hasta este nivel para asegurarse de que los recursos lleguen a los ciudadanos que los necesitan.

Por ejemplo, es fácil ver que la mayor parte de los nacimientos en el distrito de Retiro corresponden al popular barrio de Pacífico. (Podríamos incluso bajar un nivel más y ver, dentro de cada barrio, el número de nacimientos que corresponden a cada sexo, pero en este caso, no aportaría información relevante).

Esta información es de gran importancia a la hora de valorar qué inversiones son precisas para proveer a estos nuevos madrileños de las instalaciones y servicios necesarios. Hablamos de temas tan importantes como escuelas infantiles, colegios, profesores, pediatras, zonas verdes, bibliotecas, servicios sociales, instalaciones deportivas etc.

Por ello, también nos podría interesar averiguar qué porcentaje de nacimientos corresponde a cada barrio. Una forma muy rápida de verlo es cambiar el tipo de gráfico, y seleccionar el diagrama de sectores o “pie chart”. Al pasar el cursor sobre cada sector, nos indica el número de nacimientos por barrio y el porcentaje que supone respecto del total. También, desde el menú “Formato” /Etiquetas de detalles/Estilo de etiqueta se puede elegir que el porcentaje aparezca de forma explícita.

El barrio de Valverde, en Fuencarral, por ejemplo, supone un 33,68% del total.

Figura 11: Porcentaje de nacimientos por barrio.
Figura 11: Porcentaje de nacimientos por barrio.

¿Cuál es el origen de las madres?

Para contestar a esta pregunta, agregamos un nuevo campo de datos. En particular el campo ” provincia de nacimiento de la madre”. Su valor puede ser cualquier provincia española, “nació en el extranjero“, o “no consta” .

Si queremos ver, “grosso modo” el origen de las madres, nos sirve el mismo diagrama de sectores o “pie chart” una vez agregado el nuevo campo.

Figura 12: Nacimientos según el origen de la madre (tamaño real)

Así, podemos ver que, de un total de 29.032 nacimientos, un 43,76% de las madres eran originarias de Madrid. Del resto, un 21,01% procedían de otras provincias españolas, y un 34,13% del extranjero. Los datos corresponden sólo a los nacimientos producidos en Madrid en 2018 y para ser precisos, habría que considerar un conjunto de datos más amplio que abarcara un intervalo temporal más amplio.

Ya que no tenemos datos de nacionalidades, podemos filtrar por los campos “Origen Madrid, Extrajero y no consta”, podemos ver de qué provincias españolas proceden las madres. Podemos elegir, por ejemplo, un diagrama de barras agrupadas (“clustered bar chart”), en el que resulta muy sencillo ver que Barcelona, Asturias y Toledo son las provincias que más pequeños “nuevos madrileños” han aportado, con 307, 296 y 273 nacimientos respectivamente. Y Ceuta, Teruel y Lérida, las que menos, con 10.

Figura 13: Nacimientos por provincia (tamaño real)

Conclusiones.

Hemos visto lo sencillo que es visualizar información a partir de conjuntos de datos públicos con la herramienta Power BI. A la hora de sacar conclusiones, no hay que olvidar que los datos se refieren a los nacimientos producidos en Madrid en 2018. No podemos extrapolar directamente conclusiones sobre la composición de la población madrileña. Para ello, habría que considerar periodos de varios años, o considerar otras fuentes de datos. Por ejemplo, censales, de la seguridad social, sistema educativo etc.

Lo que es evidente, es que los datos son la mejor herramienta con la que contamos para conocer las necesidades de la población y gestionar los recursos disponibles de la forma más eficiente.

Con este objetivo, el Ayuntamiento de Madrid lanzó un concurso para diseñar un sistema capaz de sistematizar de forma consistente la valoración de las necesidades de los barrios. La herramienta, desarrollada por la Universidad Carlos III, se basa en el análisis jerarquizado de 12 parámetros agrupados en 5 categorías que permiten detectar situaciones de vulnerabilidad en los barrios. De esta forma, los datos se convierten en una poderosa herramienta en pro de la igualdad.

Lo que sí podemos afirmar, tras este pequeño “ejercicio” es el hecho de que Madrid, pese a todos los problemas propios de una gran ciudad, es una ciudad abierta, y acogedora, donde personas de orígenes muy diversos pueden sentirse tan a gusto como los auténticos “gatos”.

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Comentarios

    1. Gracias por tu comentario Daniel. Nos alegra que te haya gustado. Y sí, los datos abiertos y herramientas como ésta, nos ayudan a encontrar respuestas a todo tipo de cuestiones 😉

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *