Cómo el marmitako de bonito te ayudará a interpretar los resultados de pruebas, tests y evaluaciones

Gonzalo Álvarez de Marañón    15 octubre, 2019
Cómo el marmitako de bonito te ayudará a interpretar los resultados de pruebas, tests y evaluaciones

El 15 de agosto se celebra en España la fiesta de la Asunción. Ese día, en la villa costera de Castro Urdiales se convoca un concurso de marmitako de bonito. Más de 160 cuadrillas acuden temprano con sus mesas, cazuelas y fogones y se van desplegando a lo largo del puerto. Pasan la mañana cocinando, entre música, vino, cerveza y pintxos. Al mediodía aparecen los jueces, pasean entre los grupos, charlan con los concursantes y prueban las distintas marmitas. Cuando los veo cuchara en mano, me pregunto: ¿qué cantidad mínima deben probar de cada marmita para hacerse una idea justa del sabor de toda la marmita y no morir de empacho en el intento? ¿Una cucharada? ¿Dos? ¿Todo un plato?

En el ámbito de la ciberseguridad, todos los días nos encontramos con nuevos estudios, encuestas e informes que nos ilustran sobre el coste del cibercrimen, el volumen de ataques, la inversión en ciberseguridad, el número de organizaciones con programas de protección y así una lista inacabable. Los creadores de estos estudios se enfrentan al mismo dilema que los jueces de las marmitas: ¿a cuántas empresas hay que encuestar? ¿Qué empresas son las más representativas? ¿Qué preguntas son las más adecuadas?

En este artículo exploraremos cómo debes leer un estudio (report, survey, study) para discernir si su metodología arroja resultados dignos de confianza.

Antes de empezar: las tres reglas básicas del muestreo

Si quieres conocer una propiedad de una población, lo ideal sería preguntar a toda la población. Por desgracia, no suele ser posible encuestar a todos los individuos. Surge la necesidad de tomar una o varias muestras más pequeñas y manejables y preguntar solo a esos individuos.

El problema de una muestra es que puede estar sesgada. Por ejemplo, si quieres conocer el grado de madurez en ciberseguridad de las empresas de tu país y sólo preguntas a empresas financieras, posiblemente obtendrás un resultado muy diferente que si preguntas solo a empresas de marketing. Del mismo modo, posiblemente encontrarás resultados bien diferentes si encuestas a empresas de menos de 10 trabajadores que a las de más de 10.000.

La mejor manera de superar este tipo de sesgos consiste en seleccionar la muestra completamente al azar de entre toda la población. De esta manera, te aseguras de que en promedio aparecerán en la muestra empresas de todos los sectores, tamaños y demás características imaginables.

Por último, ¿cómo de grande debería ser la muestra para representar al total de la población? Un error muy común consiste en pensar que se requiere una fracción muy grande de la población total. En realidad, a partir de una población de unos 20.000 individuos, da igual. Lo que importa es el número de individuos en la muestra, no qué fracción del total suponen. Los jueces del marmitako prueban la misma cantidad de cada marmita, con independencia del tamaño de la marmita. Piénsalo: te basta con una sola cucharada para probar lo mismo un plato que toda una cazuela.

Veamos cómo calcular el tamaño de una muestra representativa.

El tamaño de la muestra importa

¿Te has topado con datos como los siguientes?

  • Según Accenture, en 2018 las empresas han sufrido un promedio de 145 brechas de seguridad con un impacto medio de 13,0 millones de dólares por empresa.
  • Según EY, en 2018 el 8% de las organizaciones dice que los smartphones son los que más han aumentado su debilidad, mientras que el 4% está más preocupado por la seguridad de IoT.
  • Según PwC, en 2018 han caído los ataques externos (hackers, competidores, outsiders) y aumentado los internos (empleados, proveedores, consultores, contratistas), atribuyéndose a empleados un 30% de los ataques sufridos.

El día a día del profesional de la ciberseguridad rebosa con datos publicados en estos informes y copiados y repetidos hasta la saciedad en blogs, presentaciones y tuits. Estos números suelen aceptarse sin cuestionarlos. Pero ¿cuán exactos son los resultados de la muestra de la encuesta? Los informes típicos de los fabricantes y consultoras suelen omitir elementos extremadamente importantes de información: el nivel (o grado) de confianza y el margen de error (o intervalo de confianza) y, a veces, hasta el tamaño de la muestra. Además de otros asuntos que iremos mencionando.

En las encuestas se busca estimar una proporción determinada de la población. Por ejemplo, qué proporción (o porcentaje) de empresas usan la nube o qué proporción externaliza la seguridad. La proporción real de toda la población se denota con p, mientras que la estimación de p a partir de la proporción de la muestra se denota con p’. Cuando la encuesta sobre una muestra revela que el 48% de las empresas piensa aumentar su presupuesto en ciberseguridad, lo que nos están diciendo es que p’ = 0,48 es la mejor estimación a partir de la muestra empleada para el valor real p de toda la población.

La mejor estimación, sí, pero ¿cómo de buena?

Me fío, no me fío: intervalos de confianza y grado de confianza

Imagina que en tu país hay 1 millón de empresas y quieres conocer cuántas revisan sus logs de seguridad al menos diariamente. Como no puedes preguntar a todas y cada una de ellas, realizas una encuesta a un grupo de 100 empresas seleccionadas al azar, de manera que las hay grandes, pequeñas y medianas; de todos los sectores; recién creadas y longevas; vamos, de todo. 78 de esas 100 empresas dicen revisar los logs al menos una vez al día. En otras palabras, p’ = 0,78. ¿Puedes afirmar entonces que el 78% de las empresas de tu país revisa diariamente sus logs (o, lo que es lo mismo, que p = 0,78)? ¡Ni de lejos!

Supón que tienes un superpoder que te permite saber que el valor real es p = 0,75. Si repites la encuesta con otras 100 empresas distintas seleccionadas igualmente al azar, con toda seguridad obtendrás un resultado distinto, por ejemplo, p’ = 0,72. ¿Y si repites la encuesta con otras 100 nuevas empresas? Sin duda, obtendrás un nuevo valor para la estimación, por ejemplo, p’ = 0,80. Y así sucesivamente.

Si repites numerosas veces la encuesta con grupos de 100 empresas distintas, obtendrás valores distintos, aunque posiblemente todos ellos alrededor del valor real, p = 0,75. De hecho, se asume que la estimación, p’, de la proporción real sigue una distribución normal (en realidad deben cumplirse ciertas condiciones, pero no entraremos en detalle en este artículo) y que la media de esa distribución es el valor buscado de la proporción real, p. Por supuesto, no conoces el valor real de p, sino el valor de una de las encuestas. Al no conocerse el valor de p, no puede calcularse su desviación estándar. Lo máximo que puede hacerse es calcular la desviación estándar de la estimación de la distribución, p’, a la que se conoce como error estándar (SE) y se calcula como

donde q’ = 1 − p’.

Siguiendo con el ejemplo, ¿qué nos dice entonces una encuesta cuando afirma que el 78% de las empresas revisa sus logs diariamente? Si introducimos en la fórmula del error estándar (SE) los siguientes valores, p’ = 0,78, q’ = 1 − p’ = 0,22, y tamaño de la muestra n = 100, se obtiene que el error estándar es SE = 0,0414 = 4,14%.

Como la distribución es normal, lo que nos indica este valor es que existe una probabilidad del 68% de que el valor real de p esté dentro del intervalo [p’ – SE, p’ + SE] = [0,73, 0,82]. Y que hay una probabilidad del 95% de que p esté dentro del intervalo [p’ – 2xSE, p’ + 2xSE] = [0,69, 0,86].

Figura 1. El error sigue una distribución normal

En otras palabras. Si yo soy p’, existe una probabilidad del 95% de que el valor de p esté como mucho a dos errores estándar de mí, a un lado u otro. Eso sí, no tenemos ni idea del valor de p, solo sabemos que probablemente estará en ese intervalo.

Es muy fácil de ver gráficamente. Supón que has repetido la encuesta 20 veces con 100 empresas distintas seleccionadas aleatoriamente cada vez. La siguiente figura muestra cómo en 19 ocasiones los intervalos de confianza contuvieron el valor real de p. Solo en una ocasión el intervalo de confianza no contuvo a p. El valor medio de todos esos intervalos se acerca mucho a p.

Figura 2. Intervalos de confianza de 20 muestras diferentes para un grado de confianza del 95%.

Por lo tanto, si al entrevistar a 100 empresas hemos obtenido como respuesta que el 78% leen sus logs diariamente, podemos afirmar que no sabemos exactamente qué proporción real p de empresas revisan sus logs diariamente, pero que el intervalo del 69% al 86% contiene con un 95% de probabilidad la proporción real. ¡Qué diferente!

Por lo tanto, con humildad estadística, hemos admitido que no estamos seguros de dos cosas:

  1. Necesitamos un intervalo, no sólo un valor, para tratar de capturar la proporción real p.
  2. Ni siquiera estamos seguros de que la verdadera proporción p esté en ese intervalo, pero estamos “bastante seguros” de que lo está. ¿Cómo de seguros? Al 95%. O al grado de confianza que queramos, a sabiendas de que, a mayor confianza, mayor margen de error.

Como recordarás, el error estándar es inversamente proporcional al tamaño de la muestra. Por consiguiente, para estrechar el intervalo de confianza basta con aumentar el tamaño de la muestra. En el ejemplo anterior, si en vez de a 100 se interroga a 200 empresas y se obtiene que 77 leen sus logs diariamente (p’ = 0,77) el valor de SE pasaría a ser 0,03, lo que significa que ahora tenemos una confianza del 95% en que el valor real de p se encuentra en el intervalo entre el 71% y 83%. Lo hemos acotado aún más. Y cuanto mayor sea la muestra, más estrecho será el intervalo donde reside el valor real. Obviamente, en el límite, cuando el tamaño de la muestra es igual al tamaño de la población, llegaremos al valor exacto.

No es oro todo lo que reluce en los informes y estudios

El investigador Josiah Dykstra publicó recientemente el libro Essential Cybersecurity Science: Build, Test, and Evaluate Secure Systems, con el que pretende acercar el método científico a la práctica de la ciberseguridad. Como no podía ser menos, dedica un capítulo a destapar la mala ciencia, las afirmaciones pseudo-científicas y el hype marketiniano. Con más razón que un santo denuncia cómo los vendedores, publicistas e incluso investigadores tratan de convencerte de algo en presentaciones, revistas, convenciones y foros, a menudo sin mucho fundamento. Nos propone tener a mano algunas preguntas aclaratorias para sondear más a fondo al interlocutor (si lo tienes delante) y decidir por uno mismo si el producto o los resultados experimentales son válidos. Duda en especial de los informes patrocinados por un fabricante. Las reproduzco textualmente, marcando en negrita las directamente relacionadas con el tema de este artículo:

  • ¿Quién hizo el trabajo? ¿Existen conflictos de intereses?
  • ¿Quién pagó por el trabajo y por qué se hizo?
  • ¿La experimentación o investigación siguió el método científico? ¿Es repetible?
  • ¿El resultado ha sido confirmado o replicado por múltiples fuentes independientes?
  • ¿Cómo se eligió el conjunto de datos experimentales o de evaluación o a los sujetos de prueba?
  • ¿Qué tan grande era el tamaño de la muestra? ¿Fue realmente representativa?
  • ¿Cuál es la precisión asociada con los resultados? ¿Y el grado de confianza en los mismos?
  • ¿Cuáles son las conclusiones basadas en hechos y cuáles son meras especulaciones?
  • ¿Cuál es el error de muestreo?
  • ¿Qué estaba buscando el desarrollador o investigador cuando se encontró el resultado? ¿Estaba sesgado por las expectativas?
  • ¿Qué otros estudios se han realizado sobre este tema? ¿Dicen lo mismo? Si son diferentes, ¿por qué son diferentes?
  • ¿Ayudan los gráficos y las visualizaciones a transmitir información significativa sin manipular al espectador?
  • ¿Adverbios del tipo «significativamente» y «sustancialmente» usados al describir el producto o investigación están suficientemente apoyados por la evidencia?
  • Si el producto parece estar apoyado principalmente por anécdotas y testimonios, ¿cuál es la evidencia que lo sustenta?
  • ¿Cómo se estableció la causalidad a partir de la correlación entre datos/eventos?
  • ¿Los resultados dependen de datos raros o extremos que podrían atribuirse a anomalías o condiciones no normales?
  • ¿Cuál es el intervalo de confianza del resultado?
  • ¿Las conclusiones se basan en predicciones extrapoladas a partir de datos diferentes de los reales?
  • ¿Los resultados se basan en sucesos raros? ¿Cuál es la probabilidad de que se dé la condición?
  • Incluso si los resultados son estadísticamente significativos, ¿el tamaño del efecto es tan pequeño que los resultados se vuelven irrelevantes?

Por supuesto, no estás obligado a hacerte todas esas preguntas. Pero al menos te harás alguna, ¿verdad? Después de todo, a nadie le gusta encontrarse un pelo flotando en su marmitako.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *