La falacia de la regresión a la media o por qué las medidas de seguridad pueden no funcionar tan bien como pareceGonzalo Álvarez Marañón 3 septiembre, 2019 «Las mujeres muy inteligentes tienden a casarse con hombres menos inteligentes que ellas». ¿A qué crees que se debe? Aprovechando las vacaciones, te propongo que invites a tus cuñados durante la próxima comida familiar a buscarle una explicación a este hecho. Algunos imaginarán que estas pobres mujeres procuran evitar la competencia con hombres igualmente inteligentes o que se ven obligadas a bajar el listón al elegir a su cónyuge porque los hombres inteligentes no quieren competir con mujeres inteligentes. Seguro que tus cuñados propondrán otras muchas explicaciones rocambolescas. Y apuesto a que todos interpretarán la proposición en términos causales: las mujeres muy inteligentes eligen deliberadamente (o porque no tienen más remedio) hombres menos inteligentes. Es decir, que existe una relación causa-efecto. Consideremos ahora el siguiente enunciado: «La correlación entre los coeficientes de inteligencia de los cónyuges es menos que perfecta». ¿Cuántos cuñados saltarán ahora a dar su opinión? Según explica Kahneman en su libro Pensar rápido, pensar despacio: «Este enunciado es obviamente verdadero y no tiene ningún interés. ¿Quién esperaría que la correlación fuese perfecta? No hay nada que explicar aquí. Pero el enunciado que encontramos interesante y el enunciado que encontramos trivial son algebraicamente equivalentes. Si la correlación entre la inteligencia de los cónyuges es menos que perfecta (y si, considerando los valores medios, hombres y mujeres no difieren en inteligencia), entonces es matemáticamente inevitable que mujeres muy inteligentes se casen con hombres que serán de media menos inteligentes que ellas (y viceversa, naturalmente).» Estamos asistiendo a un fenómeno estadístico conocido como regresión a la media. De padres muy altos, hijos menos altos El polímata Francis Galton fue el primero en observar el fenómeno de regresión a la media, ya en 1869. Mientras rastreaba los árboles genealógicos de personas famosas y eminentes, notó que los descendientes de personas famosas tendían a ser menos famosos. Sus hijos pueden haber heredado los grandes genes musicales o intelectuales que hicieron a sus padres tan famosos, pero rara vez fueron tan eminentes como sus padres. Una investigación posterior reveló el mismo comportamiento para las estaturas: las personas inusualmente altas tenían hijos que eran más promedio; y los padres inusualmente bajos tenían hijos que generalmente eran más altos. Este efecto se aprecia en multitud de situaciones: Las personas extremadamente atractivas tienden a casarse con parejas atractivas, pero no tan atractivas como ellas mismas. Los estudiantes con las peores calificaciones a medio plazo tienden a obtener malos resultados en el examen final, pero no tan malos como al inicio. Cuando un economista diseña un fondo de autor, su elección de acciones más exitosas de los últimos tres años difícilmente serán las acciones más exitosas en los próximos tres años. Los equipos que juegan inusualmente bien un año de la liga tienden a hacerlo peor durante la temporada siguiente. Este fenómeno se observa en cualquier serie de eventos en los que el azar esté involucrado: los resultados muy buenos o malos, las puntuaciones altas o bajas, los eventos extremos, etc. tienden a ser seguidos por un rendimiento más promedio o eventos menos extremos. Si lo hacemos extremadamente bien, es probable que lo hagamos peor la próxima vez, mientras que, si lo hacemos muy mal, es probable que lo hagamos mejor la próxima vez. Se trata de una regularidad estadística conocida como regresión a la media: la tendencia estadística de que, cuando dos variables cualesquiera están imperfectamente correladas, los valores extremos de una de ellas se asocien con valores menos extremos de la otra. ¡Cuidado! No debe pensarse que la regresión a la media es una ley natural. Se trata simplemente de una tendencia estadística. Y puede pasar mucho tiempo antes de que se manifieste. Los comportamientos extremos tienden a ser seguidos por comportamientos menos extremos Para comprender la regresión a la media, primero debemos entender el concepto de correlación. El coeficiente de correlación entre dos medidas, que varía entre -1 y 1, es una medida del peso relativo de los factores que comparten. En otras palabras, dos variables (A y B) están correladas entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. Eso sí, es importante recalcar que la correlación entre dos variables no implica causalidad entre ellas. Por ejemplo, en verano aumenta el consumo de helados y también el número de ahogamientos en el mar. La correlación entre ambas variables es casi perfecta: los días de mayor consumo de helado coinciden con los de mayor número de ahogamientos. ¿Significa esta correlación que comer helado causa muerte por ahogamiento en el mar? ¡No! Solo indica que los días de mucho calor aumenta el consumo de helado y de baños en el mar. Y claro, cuanta más gente se baña, mayor probabilidad de que alguno se ahogue. Consideremos ahora una variable estadística que sigue una distribución normal, por ejemplo, la altura de la población, representada en el siguiente gráfico. Los valores extremos están más alejados de la media, mientras que los valores cercanos a la media son más comunes que los valores más alejados de la media. Este patrón tiene forma de campana: la mayoría de la población tiene una altura media mientras que cuanto más extrema sea la altura, por encima o por debajo de la media, menos individuos veremos con esa altura. Distribución de probabilidad alrededor de la media en una distribución N(μ, σ2) (fuente: Wikipedia.) Si estás sentado en una terraza tomándote una cerveza con unos chopitos y ves pasar a un individuo muy, muy alto, lo más probable es que el siguiente individuo que pase por delante tenga una altura más normal. Es el efecto de regresión a la media en acción. Cuando tienes en cuenta la regresión a la media, a lo mejor tus medidas de seguridad no funcionan tan bien como crees Debemos tener especial cuidado con la regresión a la media al tratar de establecer la causalidad entre dos factores. Cuando la correlación es imperfecta, lo mejor siempre parecerá empeorar y lo peor parecerá mejorar con el tiempo, independientemente de cualquier intervención adicional. A los medios de comunicación generales y, a veces, incluso a los científicos capacitados se les llega a pasar por alto. En un manual sobre Psicología Social, los autores proponen el siguiente incidente en Reino Unido para ilustrar la importancia de la heurística de la representatividad y de la regresión a la media: «Para reducir las prácticas de conducción ilegales (como el exceso de velocidad, saltarse semáforos en rojo y la conducción por el carril bus), las autoridades locales han estado instalando más y más cámaras de seguridad en lugares especialmente peligrosos. Algunas personas sienten que es solo una forma de que los municipios aumenten los ingresos de las multas que cobran por infracciones. Pero otros sostienen apasionadamente que han aumentado la seguridad vial. Un grupo estimó que las cámaras de seguridad en el Reino Unido salvan más de 100 vidas al año y resultan en más de 4.000 colisiones menos. (…) Las cámaras se instalan donde más se necesitan: en puntos negros con un triste historial de accidentes. Dado que la cantidad de accidentes en un período se correlaciona de manera imperfecta con la cantidad de accidentes en otro período posterior, es probable que los puntos negros en los que hubo un número inusualmente grande de accidentes tengan menos accidentes posteriormente, independientemente de la presencia de cámaras de seguridad. Cuando se toma en cuenta el efecto de regresión, la mejor estimación es que las cámaras de seguridad en el Reino Unido salvan 24 vidas al año, en lugar de más de 100. Funcionan, en otras palabras, pero no tan bien como parecen funcionar.» Este caso fue muy controvertido y puedes encontrar más información en estudios posteriores que analizaron los hechos. Por supuesto, la regresión a la media puede estar presente tras cualquier intervención de seguridad: una leve mejora en la tasa de incidentes de seguridad se atribuye a la última actualización de la política; el Comité de Dirección de la empresa puede responsabilizar a su CISO de la disminución del nivel de cumplimiento del servidor web tras una excelente actividad de parches y bastionado hace tres meses, etc. ¿O fue la regresión a la media? A menudo, erróneamente, atribuimos a una política o a una intervención específica la causa de un efecto, cuando el cambio en los grupos extremos hubiera ocurrido de todos modos. Se propondrán explicaciones causales cuando se detecte la regresión, pero estarán equivocadas porque la verdad es que la regresión a la media tiene una explicación, pero no tiene una causa. Esta situación presenta un problema fundamental: ¿cómo podemos saber si los efectos tras una intervención de seguridad son reales o simplemente debido a la variabilidad estadística? La falacia de la regresión a la media La falacia de regresión se define como el hecho de no reconocer la influencia del efecto de regresión y ofrecer una teoría causal de lo que en realidad es una simple regularidad estadística: En primer lugar, no esperamos el efecto de regresión en muchos contextos donde es probable que ocurra. Si nos piden predecir el próximo resultado después de un valor extremo, a menudo ignoramos la regresión a la media y hacemos predicciones no regresivas o solo mínimamente regresivas. Dicho de otra manera: predecimos un valor similar.En segundo lugar, cuando reconocemos la ocurrencia de una regresión, sucumbimos a la falacia narrativa y a menudo inventamos explicaciones causales complicadas y superfluas para justificarlo. Como explica Daniel Kahneman en Pensar rápido, pensar despacio: «Los efectos de regresión son ubicuos y por eso imaginamos historias causales para explicarlos. Un ejemplo bien conocido es la «maldición del Sports Illustrated», la pretensión de que un atleta cuya imagen aparece en la portada de la revista está condenado a tener una mala actuación en la temporada siguiente. A menudo se ofrecen como explicaciones el exceso de confianza y la presión de las grandes expectativas. Pero esta maldición tiene una explicación más simple: un atleta que aparezca en la portada de Sports Illustrated tiene que haberlo hecho excepcionalmente bien en la temporada precedente, tal vez con la ayuda de un golpe de suerte, y la suerte es caprichosa.» Tales instancias de regresión a la media ocurren siempre que haya un elemento de aleatoriedad en un resultado. De hecho, el mismo Kahneman propone el siguiente sistema de ecuaciones: Éxito = talento + suerte. Gran éxito = un poco más de talento + un montón de suerte. Porque la mente hace predicciones basadas en representatividad, a menudo encontramos sorprendente que los resultados retrocedan hacia la media e inventamos explicaciones que no tienen nada que ver con la regresión para dar sentido a esa sorpresa. Kahneman y otros psicólogos explican este sesgo sistemático en el juicio argumentando que las personas generalmente asumen que los resultados futuros (por ejemplo, las ventas de este año) serán directamente predecibles a partir de los resultados pasados (ventas del año pasado). Por lo tanto, tendemos a desarrollar ingenuamente predicciones basadas en el supuesto de una correlación perfecta entre los datos pasados y los datos futuros. Sin embargo, siempre que la correlación entre dos valores sea imperfecta, habrá una regresión a la media. Es imprescindible considerar la regresión a la media cuando se elige una contramedida tras un número inusualmente alto de incidentes de seguridad del tipo que sea; y considerarla de nuevo más adelante para estimar cómo se ha visto afectado el número de colisiones tras aplicar la medida de seguridad. Para este propósito, se requiere estimar la tasa típica de ocurrencia de incidentes sin la medida de seguridad, para compararla posteriormente con la tasa a la que ocurren los incidentes una vez instalada la contramedida. En la práctica, la principal dificultad para aplicar este método es identificar una población de referencia apropiada y observar (o modelar) la distribución de probabilidad asociada. Podemos compararnos con el promedio de la industria, los pares en el grupo de cohorte o las tasas históricas de mejora, aunque ninguna de éstas son medidas perfectas. Las mujeres muy inteligentes tienden a casarse con hombres menos inteligentes que ellas ¡Simplemente porque son más abundantes! ¿Recuerdas la observación del inicio de este artículo? «Las mujeres muy inteligentes tienden a casarse con hombres menos inteligentes que ellas». Asumiendo que la correlación es imperfecta, la probabilidad de que dos cónyuges representen el 1% superior de la población en términos de inteligencia (o de cualquier otra característica) es mucho menor que la de una pareja en la que un cónyuge represente el 1% superior y el otro, el 99% inferior. Si hay algo que aprender de la regresión a la media, es la importancia de consultar los registros históricos (la tasa base) en lugar de confiar en historias de éxito aisladas. Nueva herramienta: Masked Extension Control (MEC), no te fíes de las extensiones en WindowsBlockchain y ciberseguridad: una breve aproximación (I)
Nacho Palou Typosquatting: cómo detectarlo y protegerse El typosquatting es un tipo de ciberataque que consiste en crear un nombre de dominio que sea muy similar al de un sitio web conocido y legítimo con la...
Telefónica Tech El poder de la digitalización sostenible en la lucha contra el cambio climático El cambio climático es considerado el mayor desafío de nuestro tiempo. Sus efectos abarcan desde la desertización y sequías hasta inundaciones y aumento del nivel del mar. Algunas de...
Telefónica Tech Boletín semanal de Ciberseguridad, 27 de mayo – 2 de junio Descubierta puerta trasera en cientos de placas base Gigabyte Investigadores de ciberseguridad de Eclypsium descubrieron una puerta trasera secreta en el firmware de cientos de modelos de placas base Gigabyte,...
Nacho Palou Cómo el lenguaje pone en riesgo la Ciberseguridad de las empresas La Ciberseguridad es un asunto fundamental para las empresas y organizaciones, de cualquier tamaño y sector. Los ciberataques pueden tener consecuencias graves o muy graves —incluso fatales— para los...
Carlos Rebato Criptografía, una herramienta para proteger los datos compartidos en la red Actualmente, la Ciberseguridad representa un aspecto primordial en las empresas. No obstante, cada día surgen nuevos modos de atentar contra ella. Muchos se han preguntado: ¿de qué manera las...
Roberto García Esteban ChatGPT y Cloud Computing: un matrimonio bien avenido ChatGPT (quizá no sepas que son las siglas de Chat Generative Pre-Trained Transformer) está en boca de todos por su impresionante habilidad para generar textos que parecen escritos por...
Excelente artículo, gracias por compartir tus conocimientos. La estadística es un tema siempre apasionante. Responder