Analizando con IA la canción del verano: ¿Cómo hemos cambiado?

Carlos Rodríguez Abellán    12 septiembre, 2019

Ya es septiembre y quedan solo dos semanas para el final del verano por lo que las vacaciones, la playa y los espetos van ya quedando atrás. También va quedando atrás (esto quizá no es tan malo) la canción más repetida durante los últimos dos meses. Y es que si algo es típico en la temporada estival es, justamente, la denominada canción del verano. Si además algo la acompaña es la eterna discusión de si la música de antes era mejor que la de ahora. Más allá de que esto sea cierto – o no – lo que está claro es que ‘Con Calma’ y ‘Mambo No. 5’ no son precisamente iguales…

La música, como manifestación artística, es un producto cultural que le permite al ser humano expresar sentimientos, miedos e inquietudes. Además de los instrumentos utilizados o estilos más populares también hay diferencias en las letras de las canciones. Es por ello que si analizamos las diferencias y similitudes entre las letras de las canciones más populares a lo largo de la historia, podremos conocer en más detalle cómo hemos cambiado.

Dispersión Léxica

En este post vimos como la inteligencia artificial nos permitía analizar la evolución de las palabras y su significado. En el post de hoy veremos cómo podemos detectar cambios en la sociedad a lo largo de la historia atendiendo únicamente al número de veces que se utilizan algunas palabras en el tiempo (dispersión léxica), ya sea en general o, como es el caso de este post, en las letras de las canciones.

El libro Natural Language Processing with Python [1] ilustra de forma muy clara este tipo de análisis. Si colocamos en orden cronológico todos los discursos inaugurales de los últimos 220 años uno tras otro, desde la primera palabra a la última, y buscamos cuándo se han pronunciado un conjunto de palabras (ciudadanos, democracia, libertad, deberes y América, por ejemplo) pueden encontrarse cambios a lo largo de la historia.

La siguiente gráfica. en el eje horizontal (word offset) representa el total de palabras aparecidas en los distintos discursos (a la izquierda estarían los discursos más antiguos y a la derecha los más actuales). Las rallas azules representan que alguna de las palabras ha sido utilizada. Puede verse como la palabra deberes se utilizaba mucho más en el pasado que ahora y, en cambio, libertad, democracia o América se utilizan con mucha mayor frecuencia hoy en día.

Figura 1: Dispersión léxica de las palabras citiziens, democracy, freedom, duties y America en los discursos inaugurales de EEUU.
Figura 1: Dispersión léxica de las palabras citiziens, democracy, freedom, duties y America en los discursos inaugurales de EEUU.

Otro ejemplo que ilustra lo interesante de este análisis puede verse en Google Ngram Viewer. Google Ngram Viewer es una herramienta que permite a los usuarios buscar en la colección de documentos de Google (Google Books) que almacena recursos impresos desde el año 1500 hasta el día de hoy en distintos idiomas. La búsqueda puede realizarse por palabras o n-gramas (secuencias de n palabras).

El hecho de que la palabra war aparezca con mayor frecuencia alrededor de 1918 y 1943 quizá es interesante, pero no sorprendente. En cambio, que las palabras milk, sugar, meat y butter (leche, azúcar, carne y mantequilla en inglés), pese a que a priori no están relacionadas directamente con la guerra, sigan el mismo patrón, puede ser llamativo. Una posibilidad es que tenga que ver con la época de escasez y de racionamiento de alimentos típica de tiempos de guerra. Es decir, analizando únicamente el número de veces que se utiliza una palabra y la evolución a lo largo de la historia puede estudiarse y entenderse mejor el contexto en el cual ha sido utilizada.

Figura 2: Evolución del porcentaje de aparición de las palabra war (arriba) y milk, sugar, meat y butter (abajo) en documentos a lo largo del tiempo.
Figura 2: Evolución del porcentaje de aparición de las palabra war (arriba) y milk, sugar, meat y butter (abajo) en documentos a lo largo del tiempo.

Análisis sobre canciones

Aplicando el mismo análisis descrito anteriormente pero, esta vez, utilizando un histórico de letras de canciones podemos llegar a conclusiones bastante interesantes.

El estudio que se presentado en [3] toma como referencia la lista anual Billboard Hot 100 (top 100 de sencillos en EEUU) siendo bastante claro a la hora de revelar cómo existen patrones en la música utilizando según qué palabras a lo largo de las décadas.

Analizando la evolución en el número de veces que se utilizan palabras como fuck, bitch o ass en las canciones más populares de los últimos 50 años es evidente la tendencia alcista de un lenguaje más «sucio» cuando hace algunos años apenas eran utilizadas.

Figura 3: Número de palabras obscenas o con carga sexual a lo largo de las décadas.
Figura 3: Número de palabras obscenas o con carga sexual a lo largo de las décadas.

Tomando como muestra – también del Billboard 100 – el top 10 de canciones de cada década, analizando las palabras más frecuentes y, en base a ellas, clasificar cada canción en un topic u otro en [4] puede verse como la tendencia parece ser, en términos generales, derivar de un vocabulario más – digamos – romántico y pesimista a uno más materialista. Pese a estos cambios en el vocabulario puede quizá extraerse que los temas centrales, pese al enfoque, siguen siendo los mismos.

Figura 4: Comparación de los topics más comunes en las canciones más populares de la década de 1960 y de 2010.
Figura 4: Comparación de los topics más comunes en las canciones más populares de la década de 1960 y de 2010.

Un último ejemplo que representa de manera bastante clara si una determinada palabra ha sido utilizada en alguna de las canciones más populares de las últimas décadas es el análisis de Nickolay Lamm [5]. Los gráficos son muy similares al primero de este post pero con una dimensión más. El eje horizontal es el tiempo (cada columna un año), el eje vertical representa el top 100 de canciones de dicho año (cada fila una posición en el rankinkg) por lo que cada celda es una canción. Si la celda aparece coloreada significa por tanto que la palabra bajo análisis aparece en dicha canción (un rojo oscuro significa que aparece más veces que el amarillo).

Merece la pena entrar al enlace para comprobar otros gráficos. Aquí, como muestra, la representación del desuso de la palabra sad (triste) y la popularidad de la palabra sex (sexo) desde los años 90.

Figura 5: Canciones del top 100 de Billboard que contienen las palabras sex (izquierda) y sad (derecha) durante los últimos 50 años.
Figura 5: Canciones del top 100 de Billboard que contienen las palabras sex (izquierda) y sad (derecha) durante los últimos 50 años.

Conclusiones

Es indudable que la música refleja las tendencias culturales y las diferencias en las mismas. Es también interesante analizar que dichas tendencias siguen patrones que convierten la música comercial en algo predecible al usar un vocabulario casi invariante evitando fórmulas complejas (llamativo que además un tercio del total de los top 1 en la lista de Billboard de todos los tiempos haya sido escrito por una única persona [6]).

Lo que si es más complicado es determinar si este lirismo deriva de la cultura popular o es, en cambio, el precursor de este argot.

Sea como sea, la música (los éxitos, se entiende), pese a ser altavoz de las tendencias culturales, parece aferrarse a un marco común de temas al que parece estar anclada desde hace 60 años.

Referencias

[1] https://www.nltk.org/book/ch01.html
[2] https://books.google.com/ngrams/
[3] https://medium.com/the-omnivore/the-evolution-of-the-american-pop-lyric-61ef31b24f03
[4] https://contently.com/2015/05/07/this-analysis-of-the-last-50-years-of-pop-music-reveals-just-how-much-america-has-changed/
[5] https://thoughtcatalog.com/nickolay-lamm/2014/02/an-analysis-of-money-love-and-sex-in-music/
[6] https://www.therichest.com/rich-list/most-influential/10-songwriters-you-didnt-know-wrote-pop-musics-biggest-hits/

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *