Sesgos cognitivos en los datos (I): El sesgo de supervivencia

Paloma Recuero de los Santos    24 junio, 2020

Cuando hablamos de decisiones basadas en datos (data driven decisions), queremos creer que se trata de decisiones objetivas, basadas en datos y precisos modelos matemáticos. Y ciertamente lo son, pero siempre que seamos conscientes de los posibles sesgos, y definamos estrategias para evitarlos.

¿Qué son los sesgos cognitivo?

Un sesgo cognitivo no es más que un atajo que toma nuestro cerebro para ahorrar tiempo o energía en la toma de decisiones. Especialmente cuando se enfrenta a estos cuatro problemas:

  • Demasiada información
  • Falta de sentido
  • Prisas
  • Averiguar lo importante, qué conviene recordar

Cuando la información nos satura, tendemos a fijarnos más en aquello que nos resulta familiar, que podemos “conectar” con algo conocido. También las cosas que llaman la atención por su originalidad o rareza. O simplemente porque han cambiado. En estos casos, también seleccionamos de forma inconsciente la información que refuerza lo que creemos (nuestra teoría, nuestras convicciones).

Nuestro cerebro intenta dar sentido a lo que ve, aunque se trate de datos dispersos. “Convierte” las nubes en objetos u animales, “rellena” los huecos en la información “extrapolando” a partir de estereotipos, generalizaciones o simplificaciones de la realidad que le resultan conocidas. Después, por desgracia, tiende al olvidar, qué era dato, y qué extrapolación.

La urgencia en la toma de decisiones, las prisas, son causantes, en ocasiones, de excesos de confianza. O de priorizar lo urgente, sobre lo importante. También nos lleva a seguir adelante con proyectos en los que llevamos invertido mucho esfuerzo y tiempo, o conformarnos con “lo malo conocido”, aunque no sea realmente la mejor opción.

Por último, nuestro cerebro no puede recordarlo todo: tiene que elegir. Por eso, recuerda según el contexto de los acontecimientos, se queda con lo general frente a lo específico, reduce listas y eventos a unos elementos clave, y edita los recuerdos. ¿No te ha pasado nunca recordar una experiencia común con otra persona y sorprenderte al comprobar cómo cada una lo recordaba de una forma distinta?

Los sesgos cognitivos en los datos

Como cualquier otro humano, el científico de datos es susceptible a los sesgos cognitivos. Estos sesgos le pueden llevan a tomar decisiones basadas en creencias preexistentes, datos limitados o simplemente preferencias irracionales.

En esta “miniserie” sobre sesgos cognitivos en los datos, aprenderemos a identificar los más habituales y cómo trabajar para evitarlos en la medida de lo posible. De esta forma, tomaremos mejores decisiones basadas en los datos.

El sesgo de supervivencia

¿Alguna vez has pensado: qué mala es la música de ahora, con lo buena que era en los 80? Si es así, sin darte cuenta, ha sido “víctima” del sesgo del superviviente.

El “sesgo del superviviente” consiste en el acto de sacar conclusiones de un conjunto incompleto de datos porque esos datos han “sobrevivido” a algunos criterios de selección.

En nuestro ejemplo musical, está claro que, cuando decimos que la música de los 80 era mejor que la de ahora, en realidad no estamos comparando con toda la música de esa época. En realidad lo hacemos con una muestra de esa música en la que ya ha sido filtrada la música mediocre que directamente, no sobrevivió al olvido.

Un poco de historia

Durante la II Guerra Mundial, Abraham Wald, matemático húngaro experto en análisis estadístico y econométrico, geometría y teoría de la decisión, sorprendió con su respuesta al problema que le plantearon los expertos del Centro de Análisis Naval.

Habían llevado a cabo un estudio de los daños sufridos por los aviones que regresaban de misiones bélicas con el objeto de decidir qué partes del fuselaje convenía blindar para reforzar la seguridad de los pilotos.

Figura 2: Las zonas dañadas muestran los lugares donde el impacto de los proyectiles no impide regresar al avión; los que son golpeados en otros lugares no sobreviven. (fuente)
Figura 2: Las zonas dañadas muestran los lugares donde el impacto de los proyectiles no impide regresar al avión; los que son golpeados en otros lugares no sobreviven. (fuente)

Los militares propusieron distintas alternativas de refuerzo en las zonas de acumulación de impactos. Sin embargo, Wald les hizo ver que había que interpretar el gráfico justo al revés. Como la muestra sólo consideraba los aviones que habían podido regresar de las misiones, los agujeros del fuselaje indicaban las zonas en las que el avión podía ser alcanzado sin comprometer su seguridad. Sin embargo, las zonas que aparecían intactas en los aviones de la muestra eran las que había que reforzar. Un impacto en estas zonas críticas resultaba letal.

Desde entonces este problema conoce como “sesgo de supervivencia” o “sesgo del superviviente”. Surge cuando, en un análisis consideramos sólo a las personas o elementos supervivientes, obviando tener en cuenta a los desaparecidos por no ser observables en una muestra (que deja de ser, por tanto, representativa de la población).

Este sesgo está relacionado en el ámbito de la estadística con lo que se conoce como “efecto composición”, que surge cuando, al variar los componentes de una muestra, las medidas centrales y de dispersión se ven alteradas, desvirtuando por tanto el análisis.

Otros ejemplos

Podemos encontrar otro ejemplo muy claro en el sector financiero, en los estudios de resultados sobre fondos de inversión. La mayoría de estos análisis sólo incluyen los fondos que existen en la actualidad, sin tener en cuenta otros que han ido desapareciendo. Como consecuencia, el análisis se está realizando sólo sobre los fondos que han tenido mejor resultado. Por tanto, este sesgo tiende a sobreestimar su rendimiento. Otra consecuencia de este sesgo en la selección, como hemos adelantado antes, es que la muestra no es aleatoria. Por tanto, los resultados obtenidos a partir de su análisis no son representativos.

En marketing, encontramos este sesgo en las encuestas. Las empresas, normalmente, preguntan a sus clientes qué características de su producto valoran más. Sin embargo, sería más práctico averiguar qué características tendría que tener el producto para convencer a los “no clientes”. Se trata de una información de gran valor para la empresa que no se está teniendo en cuenta en ese análisis.

Cómo evitarlo

Una forma de mitigar este sesgo es, en lugar de empezar a trabajar directamente con los datos que tenemos, tratar de analizar de forma rigurosa el problema con el objeto de identificar cualquier tipo de datos que pueda ayudar a resolverlo. Para ello, puede ser muy interesante hacer una lluvia de ideas.

De esta forma, al tener claros qué datos faltan en nuestro análisis, podemos tenerlos en cuenta en en el enfoque de nuestra solución e incluirlos en nuestras conclusiones.


Otro post sobre sesgos en nuestro blog:

Para mantenerte al día con LUCA visita nuestra página web suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *