Análisis de influencia en Juego de Tronos

Carlos Rodríguez Abellán    6 noviembre, 2019

Análisis de co-ocurrencias

En el anterior post hablábamos del análisis de influencia y de como existen diversas técnicas de medir la importancia de un individuo en una red (por ejemplo, un influencer en una red social). Una de las conclusiones a las que llegábamos es que, no necesariamente, más es siempre mejor.

Para ilustrar cómo en función de la métrica utilizada pueden cambiar los influencers de una comunidad se pueden utilizar muchos ejemplos: las conexiones de una red de amigos en Facebook, los emails enviados y recibidos por una persona en una compañía, los movimientos de personas entre ciudades, etc.

Además del análisis del análisis de individuos en estos casos de uso, también es posible estudiar cómo se relacionan los personajes en un libro o serie. Para ello contamos cuantas veces co-ocurren los personajes. Existen diversas maneras de medir la co-ocurrencias. Algunas de ellas son el número de veces que aparecen juntos en un determinado libro o cómic, el número de veces que se encuentran en el mismo lugar o el número de veces que hablan entre ellos.

Si tomamos como ejemplo las coocurrencias de los personajes a lo largo de los cinco libros actualmente disponibles de la serie Canción de Hielo y Fuego [1] podemos analizar qué personajes son más relevantes en función del cálculo de centralidad escogido.

Detección de influencers en Juego de Tronos

Para ello, hemos utilizado Gephi [2], software open-source de análisis de redes. Antes del cálculo de las diferentes métricas de centralidad se han identificado comunidades en el grafo mediante el algoritmo modularity [3] implementado en Gephi. Los nodos (personajes) con el mismo color pertenecen a la misma comunidad. Parece que, en general, las comunidades que el algoritmo ha detectado pertenecen a personajes o bien de la misma casa / familia o bien con los que ha compartido más momentos.

El diámetro de cada nodo (lo grande o pequeño que sea), así como el tamaño de la fuente de cada nombre, representa el score calculado para cada medida de centralidad (degree, betweeness, closeness y eigencentrality). A mayor el diámetro y la fuente, mayor score, y, por tanto, mayor relevancia.

Figura 1: el radio y el tamaño de los nombres representa el Degree
Figura 1: el radio y el tamaño de los nombres representa el Degree (Ampliar)
Figura 2: el radio y el tamaño de los nombres representa el EigenCentrality
Figura 2: el radio y el tamaño de los nombres representa el EigenCentrality (Ampliar)

Si consideramos el degree o el eigencentrality como medida de referencia los resultados son similares. Los influencers son, en general, los personajes principales de la serie (nada muy sorprendente). Personajes que aparecen mucho tienen un score alto.

Figura 3: el radio y el tamaño de los nombres representa el Closeness
Figura 3: el radio y el tamaño de los nombres representa el Closeness (Ampliar)

Si la métrica de centralidad es el closeness, en cambio, todos los personajes parecen ser igual de relevantes. Esto se debe a que al ser una red densa todos se encuentran – aproximadamente – igual de cerca unos de otros.

Figura 4: el radio y el tamaño de los nombres representa el Betweeness (Ampliar)
Figura 4: el radio y el tamaño de los nombres representa el Betweeness (Ampliar)

Si la comparativa la realizamos en base al betweeness encontramos que los resultados se asemejan a los obtenidos con el degree y el eigencentrality pero, a diferencia de ellos, somos capaces de identificar no solo influencers en el total de la red, si no, también, dentro de sus propias comunidades.

En base a este sencillo análisis, de tener que elegir una lista de posibles influencers de entre los resultados de las figuras 1, 2, 3 y 4, ¿qué medida de centralidad elegirías?

Conclusión

Como puede verse en función de la medida de centralidad escogida los personajes más relevantes a lo largo de todos los libros publicados hasta la fecha de la saga cambian.

Si se realiza este mismo análisis pero en lugar de hacerlo con todos los libros lo hacemos con un libro en concreto los resultados cambiarían muy posiblemente. Esto nos indica que la relevancia cambia en función del tiempo y del contexto.

En el análisis de redes sociales esto es exactamente igual. En general la tarea de identificar a personas con influencia en una población es una ardua tarea.

Es decir, la conclusión principal es que no debemos dejarnos llevar por el número total de conexiones de una determinada persona sino por la calidad en las mismas. Y, ante todo, no basar nuestro análisis en solo una métrica (como se ha hecho en este artículo) sino que nuestra decisión ha de tomarse teniendo en cuenta muchas más dimensiones como los gustos, actividad y valores de sus seguidores, su zona geográfica, su posibilidad de inversión en tu producto …

Bonus

Existe un dataset con las coocurrencias de los personajes del Universo Marvel con el que puede realizarse este mismo análisis. Personalmente os recomiendo que si os interesa el tema probéis a jugar con Gephi y este dataset.

Referencias

[1] Coocurrencias en Juego de Tronos, https://github.com/himanshubeniwal/A-Network-analysis-of-Game-of-Thrones/blob/master/datasets/
[2] Gephi, https://gephi.org
[3] Modularity class, https://github.com/gephi/gephi/wiki/Modularity
[4] Marvel Universe, http://syntagmatic.github.io/exposedata/marvel/

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *