Sesgos cognitivos en los datos (I): SupervivenciaPaloma Recuero de los Santos 24 junio, 2020 Cuando hablamos de decisiones basadas en datos (data driven decisions), queremos creer que se trata de decisiones objetivas, basadas en datos y precisos modelos matemáticos. Y ciertamente lo son, pero siempre que seamos conscientes de los posibles sesgos, y definamos estrategias para evitarlos. ¿Qué son los sesgos cognitivo? Un sesgo cognitivo no es más que un atajo que toma nuestro cerebro para ahorrar tiempo o energía en la toma de decisiones. Especialmente cuando se enfrenta a estos cuatro problemas: Demasiada informaciónFalta de sentidoPrisasAveriguar lo importante, qué conviene recordar Cuando la información nos satura, tendemos a fijarnos más en aquello que nos resulta familiar, que podemos «conectar» con algo conocido. También las cosas que llaman la atención por su originalidad o rareza. O simplemente porque han cambiado. En estos casos, también seleccionamos de forma inconsciente la información que refuerza lo que creemos (nuestra teoría, nuestras convicciones). Nuestro cerebro intenta dar sentido a lo que ve, aunque se trate de datos dispersos. «Convierte» las nubes en objetos u animales, «rellena» los huecos en la información «extrapolando» a partir de estereotipos, generalizaciones o simplificaciones de la realidad que le resultan conocidas. Después, por desgracia, tiende al olvidar, qué era dato, y qué extrapolación. La urgencia en la toma de decisiones, las prisas, son causantes, en ocasiones, de excesos de confianza. O de priorizar lo urgente, sobre lo importante. También nos lleva a seguir adelante con proyectos en los que llevamos invertido mucho esfuerzo y tiempo, o conformarnos con «lo malo conocido», aunque no sea realmente la mejor opción. Por último, nuestro cerebro no puede recordarlo todo: tiene que elegir. Por eso, recuerda según el contexto de los acontecimientos, se queda con lo general frente a lo específico, reduce listas y eventos a unos elementos clave, y edita los recuerdos. ¿No te ha pasado nunca recordar una experiencia común con otra persona y sorprenderte al comprobar cómo cada una lo recordaba de una forma distinta? Cognitive Bias Codex Los sesgos cognitivos en los datos Como cualquier otro humano, el científico de datos es susceptible a los sesgos cognitivos. Estos sesgos le pueden llevan a tomar decisiones basadas en creencias preexistentes, datos limitados o simplemente preferencias irracionales. En esta «miniserie» sobre sesgos cognitivos en los datos, aprenderemos a identificar los más habituales y cómo trabajar para evitarlos en la medida de lo posible. De esta forma, tomaremos mejores decisiones basadas en los datos. El sesgo de supervivencia ¿Alguna vez has pensado: qué mala es la música de ahora, con lo buena que era en los 80? Si es así, sin darte cuenta, ha sido «víctima» del sesgo del superviviente. El «sesgo del superviviente» consiste en el acto de sacar conclusiones de un conjunto incompleto de datos porque esos datos han «sobrevivido» a algunos criterios de selección. En nuestro ejemplo musical, está claro que, cuando decimos que la música de los 80 era mejor que la de ahora, en realidad no estamos comparando con toda la música de esa época. En realidad lo hacemos con una muestra de esa música en la que ya ha sido filtrada la música mediocre que directamente, no sobrevivió al olvido. Un poco de historia Durante la II Guerra Mundial, Abraham Wald, matemático húngaro experto en análisis estadístico y econométrico, geometría y teoría de la decisión, sorprendió con su respuesta al problema que le plantearon los expertos del Centro de Análisis Naval. Habían llevado a cabo un estudio de los daños sufridos por los aviones que regresaban de misiones bélicas con el objeto de decidir qué partes del fuselaje convenía blindar para reforzar la seguridad de los pilotos. Figura 2: Las zonas dañadas muestran los lugares donde el impacto de los proyectiles no impide regresar al avión; los que son golpeados en otros lugares no sobreviven. (fuente) Los militares propusieron distintas alternativas de refuerzo en las zonas de acumulación de impactos. Sin embargo, Wald les hizo ver que había que interpretar el gráfico justo al revés. Como la muestra sólo consideraba los aviones que habían podido regresar de las misiones, los agujeros del fuselaje indicaban las zonas en las que el avión podía ser alcanzado sin comprometer su seguridad. Sin embargo, las zonas que aparecían intactas en los aviones de la muestra eran las que había que reforzar. Un impacto en estas zonas críticas resultaba letal. Desde entonces este problema conoce como “sesgo de supervivencia” o “sesgo del superviviente”. Surge cuando, en un análisis consideramos sólo a las personas o elementos supervivientes, obviando tener en cuenta a los desaparecidos por no ser observables en una muestra (que deja de ser, por tanto, representativa de la población). Este sesgo está relacionado en el ámbito de la estadística con lo que se conoce como “efecto composición”, que surge cuando, al variar los componentes de una muestra, las medidas centrales y de dispersión se ven alteradas, desvirtuando por tanto el análisis. Otros ejemplos Podemos encontrar otro ejemplo muy claro en el sector financiero, en los estudios de resultados sobre fondos de inversión. La mayoría de estos análisis sólo incluyen los fondos que existen en la actualidad, sin tener en cuenta otros que han ido desapareciendo. Como consecuencia, el análisis se está realizando sólo sobre los fondos que han tenido mejor resultado. Por tanto, este sesgo tiende a sobreestimar su rendimiento. Otra consecuencia de este sesgo en la selección, como hemos adelantado antes, es que la muestra no es aleatoria. Por tanto, los resultados obtenidos a partir de su análisis no son representativos. En marketing, encontramos este sesgo en las encuestas. Las empresas, normalmente, preguntan a sus clientes qué características de su producto valoran más. Sin embargo, sería más práctico averiguar qué características tendría que tener el producto para convencer a los «no clientes». Se trata de una información de gran valor para la empresa que no se está teniendo en cuenta en ese análisis. Cómo evitarlo Una forma de mitigar este sesgo es, en lugar de empezar a trabajar directamente con los datos que tenemos, tratar de analizar de forma rigurosa el problema con el objeto de identificar cualquier tipo de datos que pueda ayudar a resolverlo. Para ello, puede ser muy interesante hacer una lluvia de ideas. De esta forma, al tener claros qué datos faltan en nuestro análisis, podemos tenerlos en cuenta en en el enfoque de nuestra solución e incluirlos en nuestras conclusiones. Post de la serie «Sesgos cognitivos en los datos» Sesgos cognitivos en los datos (I): El sesgo de supervivenciaSesgos cognitivos en los datos (II): ConfirmaciónSesgos cognitivos en los datos (III): Coste hundidoSesgos cognitivos en los datos (IV): Disponibilidad Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. IA para detectar EPIs y Distancia SocialLas matemáticas del Machine Learning: el mecanismo de Backprogation
Roberto García Esteban ChatGPT y Cloud Computing: un matrimonio bien avenido ChatGPT (quizá no sepas que son las siglas de Chat Generative Pre-Trained Transformer) está en boca de todos por su impresionante habilidad para generar textos que parecen escritos por...
Olivia Brookhouse ¿Puede la Inteligencia Artificial entender las emociones? Cuando John McCarthy y Marvin Minsky iniciaron la Inteligencia Artificial en 1956, se sorprendieron de cómo una máquina podía resolver rompecabezas increíblemente difíciles en menos tiempo que los humanos. Sin...
Javier Martínez Borreguero Automatización, Conectividad e Inteligencia Aumentada al servicio de una reindustrialización competitiva, disruptiva y sostenible Por segundo año consecutivo vuelvo a participar en el Advanced Factories (AF 2023), la mayor exposición y congreso profesional dedicado a la Industria 4.0 del sur de Europa. Un...
Nacho Palou Medidas para reducir la brecha digital de género sin esperar 32 años El informe Sociedad Digital en España 2023, de Fundación Telefónica, dedica un apartado específico para analizar la brecha de género en el ámbito del talento digital. Destaca que, si bien...
Nacho Palou Raspberry Pi para Edge AI: Inteligencia Artificial en el borde para todos Raspberry Pi es un popular ordenador muy utilizado entre desarrolladores, estudiantes y aficionados a la informática, a la robótica y a ‘cacharrear’. Entre sus virtudes están su bajo coste...
Carlos Lorenzo Ya no eres solo una empresa de productos o servicios, eres una empresa de datos Todas las empresas que operan en la actualidad son en realidad empresas de datos. Y lo son porque día a día almacenan y utilizan una gran cantidad de información:...