La Ley de Zipf, o por qué hay – casi – el doble de Garcías que de González

Carlos Rodríguez Abellán    10 julio, 2019
Qué es la Ley de Zipf

El lenguaje es la facultad que tenemos los seres humanos para expresarnos y comunicarnos mediante la voz u otros signos. Comprende de una cantidad de estilos, modos y normas en todas sus formas que lo convierten en, posiblemente, uno de los sistemas más complejos que existan dada la multitud de lenguas y estructuras que lo conforman.

En función del tema que hablemos, del contexto en el que nos encontremos o del interlocutor al que nos dirijamos utilizaremos una lengua, emplearemos unos u otros tecnicismos o, sencillamente, adaptaremos nuestro mensaje en función de todas estas variantes.

Además de todo esto, tal y como vimos en el anterior post, el lenguaje no solo depende del contexto si no que además se encuentra en continua evolución.

Teniendo todo esto en cuenta podríamos pensar que su modelado o realizar determinadas predicciones sobre el mismo puede ser una tarea, si no imposible, ambiciosa y difícil de conseguir, ¿no?

En realidad, esto es cierto. Pero saber que aproximadamente el 50% del contenido de cualquier libro, artículo o conversación no será otra cosa que las mismas 50-100 palabras, mientras que aproximadamente la otra mitad serán palabras que aparezcan solamente una o dos veces puede ser algo sorprendente.

Antes de entender porqué ocurre esto conviene presentar el Principio de Pareto.

Principio de Pareto

El Principio de Pareto, o regla del 80/20, enunciado por Vilfredo Pareto en 1896, dice que, en general, cualquier población se reparte en dos grupos en una proporción 80/20 de modo que el grupo minoritario (20%) se reparte el 80% de algo mientras que el grupo mayoritario se reparte el 20% restante.

Existen multitud de procesos en el mundo real que siguen este principio. Por ejemplo, Pareto mostró como, según sus observaciones, el 80% del terreno era propiedad solo del 20% de la población. Otra observación en la que se cumplía esta regla era en su jardín, donde el 20% de las vainas de guisantes contenían el 80% del total de guisantes.

Con el tiempo este fenómeno se ha observado en otros muchos casos como que el 20% de la población posee el 80% de la riqueza o, también, que el 20% de los pacientes consumen el 80% del total en gasto total de salud.

Pero, ¿todo esto cómo enlaza con el lenguaje y título de este post?

Ley de Zipf

George Zipf, lingüista de la Universidad de Harvard, observó en la década de 1940 que la mayoría de palabras se repetían siempre ya fuera en un idioma, en un libro o en un artículo. De hecho, lo interesante, es que observó que parecía existir un patrón en la frecuencia de uso de cada palabra.

Supongamos que elegimos un libro cualquiera y creamos una lista en la que apuntamos cada palabra y el número de veces que aparece en dicho libro. El patrón que descubrió Zipf es que la segunda palabra más frecuente se repite la mitad de veces que la primera, la tercera se repite, aproximadamente, un tercio de veces, la cuarta un cuarto de las veces, la quinta un quinto… y así sucesivamente.

Es decir, este patrón (o ley de Zipf) determina que la frecuencia de aparición de una palabra es proporcional al inverso de la posición que ocupa dicha palabra según su número de apariciones (siendo esta ley una forma discreta de la distribución de Pareto).

Lo sorprendente es que esto ocurre no solo en inglés como descubrió Zipf. Esto ocurre también para todos los idiomas. Incluso en aquellos idiomas no creados de forma natural como el esperanto o aquellos tan antiguos que no hemos sido capaces de descifrar hoy en día.

Toda lengua sigue esta ley que, hoy por hoy, no se conoce el motivo por el cual ocurre que algo tan complejo y creativo como es el lenguaje siga un patrón tan predecible.

Si representamos en una gráfica, donde el eje vertical sea la frecuencia y el eje horizontal el ranking, con ambos ejes en escala logarítmica, el patrón aparecerá representado como una línea recta descendente.

Si nos centramos en el español, 1 de cada 16 veces (6 %) que decimos o escribimos una palabra se trata de la palabra de. Las diez palabras más comunes (según la RAE [1]) son, ordenadas según su frecuencia, de, la, que, el, en, y, a, los, se y del. En este caso, 1 de cada 4 palabras que utilizamos se corresponderá con una de estas palabras.

En el número de personas que comparten su primer apellido también ocurre esto donde, como ya avanzaba el título del blog, el apellido más común es García seguido de González en segundo lugar y, por tanto, con la mitad de repeticiones.

Pero esta ley no solo permite describir cómo usamos las palabras o como se distribuyen los apellidos. Existen multitud de fenómenos como como el número de habitantes en ciudades [2], el tráfico en Internet o incluso la magnitud de los terremotos que parecen seguir muy de cerca esta ley.

En el primer ejemplo, la segunda ciudad con más habitantes tiene la mitad que la primera, la tercera más grande un tercio…

Otros fenómenos

Además de encontrar este patrón en las palabras de un idioma o en los apellidos de una población, podemos encontrar como otros fenómenos aún más curiosos [3] siguen la ley de Zipf. Por ejemplo, el número de veces que se menciona el nombre de cada mes del año, cada planeta del Sistema Solar o el nombre de cada elemento químico ¡sigue también este patrón!

¡Esto no acaba aquí! Este patrón se encuentra incluso en palabras nuevas como pueden ser aquellas empleadas para crear una historia sobre extraterrestres (como Wug, Plit, Blicket, Flark, Warit, Jupe, Ralex o Timon). Sí, el número de veces que aparece el nombre dados a los en una novela para crear una determinada historia sigue también esta distribución.

¿Y si analizamos las palabras utilizadas en este artículo? Seguro que todos imaginamos la respuesta.

Referencias

[1] http://corpus.rae.es/frec/10000_formas.TXT
[2] https://brenocon.com/blog/2009/05/zipfs-law-and-world-city-populations/
[3] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4176592/
[4] https://www.youtube.com/watch?v=fCn8zs912OE


Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *