El coronavirus y la importancia de una estrategia nacional de datos

Víctor Deutsch    27 febrero, 2020
estrategia-nacional-datos

Desde que se desarrolló el método científico en la Antigua Grecia, uno de los grandes motores de los descubrimientos humanos ha sido la correlación. Es decir, la capacidad de relacionar dos hechos, aparentemente inconexos, que ocurren generalmente al mismo tiempo o con la misma frecuencia. En este post me voy a referir a la importancia de una estrategia nacional de datos sanitarios.

Fue la correlación lo que llevó a Edward Jenner, en una época tan temprana como el siglo XVIII, a postular que el contacto de las lecheras durante el ordeño con el pus de las ampollas de las vacas infectadas con la viruela bovina las protegía de la viruela. Relacionó, así, la baja incidencia de la viruela humana en las lecheras con el contacto con una enfermedad atenuada en el ganado.

Correlación de hechos e identificación de patrones

Muchas veces utilizamos la correlación como una regla que funciona de una forma exacta mucho antes de que podamos explicar o comprender el fenómeno que la produce. Todavía hoy, dos siglos después de la tesis de Darwin, no sabemos muy bien cómo funciona el mecanismo de la evolución de las especies pero somos capaces de documentar perfectamente sus efectos. La medicina es una de las ciencias que se sirve fundamentalmente de la correlación para aplicar un tratamiento o determinar los efectos adversos de un medicamento.

Big data realmente siempre estuvo ahí

Actualmente, el auge del grupo de tecnologías que agrupamos bajo el término de moda “big data” hace que mucha gente abuse y crea que es una “ciencia nueva”. Realmente siempre estuvo ahí. Por ejemplo, Tycho Brahe en el siglo XVII documentó la posición diaria de cada planeta respecto a la Tierra y Johannes Kepler, tras analizar los datos durante cinco años, formuló la teoría de las órbitas elípticas de los planetas (con el Sol en el centro, por cierto). ¿Era Kepler un data scientist? Yo diría que no.

La correlación estuvo en el origen de la tecnología de la información. Los ordenadores no son muy buenos para reproducir las formas de comportamiento y representación del conocimiento humano (todavía no sabemos bien cómo funciona), pero son excelentes para correlacionar hechos e identificar patrones. El primer ordenador, la máquina Ultra de Alan Turing, no hacía más que detectar un patrón criptográfico (la relación de un símbolo con otro) en la máquina Enigma alemana.

Claves para una correcta estrategia de datos

Por eso, lo que hoy llamamos big data se basa sobre todo en dos cosas: en el registro y conservación de infinidad de “lecturas” de datos y en la capacidad de procesarlos muy rápidamente, gracias a los avances en tecnología de microprocesadores. Las técnicas para correlacionarlos y detectar patrones son muy conocidas y antiguas, y requieren un gran dominio del campo de aplicación.

Quiero enfatizar el tema del dominio en el campo de aplicación puesto que a veces se da a entender que existe una “ciencia de datos” capaz de obtener patrones e interpretar resultados en los más amplios dominios. Eso, definitivamente, no es así. Se requiere un entrenamiento intensivo en el campo o la asistencia de un experto. Y, muchas veces, según el tipo de aplicación, los resultados deberían estar avalados con una “firma responsable”, como se hace con un informe médico, un dictamen pericial, etc. Confiar solo en la correlación nos puede llevar a errores dramáticos como el del Doctor Sandler.

Por tanto, una estrategia de datos en cualquier organización (sea una empresa o una administración pública) se basa en la recolección y conservación de los datos y la disponibilidad de los recursos para procesarlos y entenderlos.

La clave en el caso de la listeriosis

Un buen ejemplo son las Enfermedades de Declaración Obligatoria (EDO) en España. Desde 1969, la Organización Mundial de la Salud (OMS) encomienda a sus miembros su vigilancia. Desde la década de los setenta, la Escuela de Sanidad y luego la Sociedad Española de Epidemiología dieron sustento local a este sistema de control, implementado actualmente por cada Comunidad Autónoma.

El verano pasado una de las noticias más impactantes en España fue el brote de listeriosis originado en Andalucía que se cobró la vida de ocho personas y enfermó a 215 (según datos oficiales hasta el 16/9). Este tipo de intoxicaciones alimentarias en mayor o menor grado son relativamente frecuentes en Europa y EE. UU. De hecho, todos los años se produce una cantidad de casos en eventos aislados.

Los medios de comunicación pusieron mucho énfasis en los posibles errores cometidos por las autoridades, los fallos de coordinación entre diferentes administraciones o la insuficiente inspección para la seguridad alimentaria. Y está bien: la función de la prensa es ventilar estos temas para mantener y mejorar la vigilancia de los poderes públicos.

Métodos de correlación comunes con un gran conocimiento del campo

Sin embargo, se suele pasar por alto un aspecto clave que ayudó a que la crisis en España se resolviera con mucho menor impacto del que cabía esperar: el análisis continuo de la enorme cantidad de datos sanitarios que recoge la Junta de Andalucía.

Basta con acceder a la página del Banco de Datos Estadístico de Andalucía (BADEA) para hacerse una idea. Muchos de ellos son públicos, especialmente aquéllos que capturan los 49 hospitales y más de 1.500 centros de atención primaria del Servicio Andaluz de Salud. Por ejemplo, esta consulta muestra los casos de listeriosis en 2018.

La listeriosis se incorporó en 2015 al listado de EDO, por lo que cada caso identificado debe declararse ante las autoridades sanitarias. Esto hizo que se dispusiera de una “huella” identificable de la enfermedad y su incidencia habitual en la región. En este caso, solo una pequeña variación en el porcentaje de la incidencia de la enfermedad en una región concreta disparó una investigación, la cual, al cruzar otros conjuntos de datos, derivó en el conocimiento del foco infeccioso apenas doce días después del primer indicio.

Para entender la importancia de esto, en EE.UU. en 2011 durante la “listeriosis de los melones”, su prestigioso CDC (Centre of Disease Control), el organismo dotado de mayores recursos y presupuesto de todo el planeta para acometer la vigilancia epidemiológica, apenas tardó dos o tres días menos en lograr el mismo resultado, originado en las malas condiciones de higiene de un depósito de mercancía.

En definitiva, es la recogida sistemática de datos, analizados con métodos de correlación comunes pero con un gran conocimiento del campo, lo que garantiza el resultado.

Actualmente nos enfrentamos a la epidemia del coronavirus que, como todas las variantes de la gripe, tiene una vigilancia especial internacionalmente, dada su potencial peligrosidad. Nadie quiere que se repitan los resultados de la epidemia de 1918/19, que acabó con la vida de unos 20 millones de personas en todo el planeta.

La solución al coronavirus no está en algoritmos de detección de patrones

Las autoridades chinas han puesto todos sus esfuerzos en utilizar técnicas de big data para “rastrear” e identificar a los sujetos enfermos. Para ello el Ministerio de Industria chino envió un mensaje a las empresas e institutos de investigación de inteligencia artificial del país para que ayuden a luchar contra la epidemia.

Las empresas respondieron con rimbombantes anuncios en los que proclaman las virtudes de esa tecnología, Por ejemplo, la empresa Megvii declaró que había desarrollado una nueva forma de encontrar e identificar personas con fiebre. SenseTime asegura haber construido un sistema similar para usar en la entrada de los edificios, que puede identificar incluso a las personas que lleven mascarilla. En tanto, Zhejiang Dahua afirma contar con cámaras infrarrojas capaces de detectar la fiebre en humanos con un rango de exactitud de 0,3°C.

La inteligencia artificial como ayuda auxiliar

De ser así (conocemos poco de lo que sucede en Wuhan), éste sería un buen ejemplo de un enfoque que, por espectacular, no deja de ser equivocado porque confía la solución del problema a simples algoritmos de detección de patrones. El origen del brote podría rastrearse y controlarse mucho mejor mediante el acceso a los registros digitales de los pacientes (si existen) y con la asistencia de médicos expertos en estadística sanitaria, que son los que tienen conocimiento del dominio. En este caso, los expertos en “inteligencia artificial” (en realidad programadores que conozcan algoritmos de regresión estadística), solo deberían cumplir una función auxiliar.

Importancia de una estrategia nacional de datos sanitarios

Quizá ya sea demasiado tarde para mejorar la vigilancia epidemiológica en el norte de China y ahora hay que enfrentar el problema con medidas de contención. Pero es un recordatorio de lo mucho que los países pueden y deben invertir en una estrategia adecuada de registro, conservación y explotación de datos sanitarios, dado que finalmente nos afecta a todos. Se trata de una estrategia que España tiene muy desarrollada  en sanidad y que podría extrapolarse a otros campos y servir de ejemplo a muchas empresas con esta trilogía: registro, capacidad de proceso y conocimiento del dominio.

Es importante no dejarnos llevar por los cantos de sirena de los nombres que ponemos a las tecnologías, que pueden sonar muy bonitos y sofisticados. A la hora de utilizarlas, tenemos que ser muy conscientes de sus posibilidades reales para no  cometer errores fatales.

La designación de Carme Artigas, como Secretaria de Estado de Digitalización e Inteligencia Artificial, una persona con experiencia concreta en la materia, abre una buena oportunidad para definir una política de estado en el registro, explotación y análisis de datos. Incluso España tiene el suficiente know how como para asesorar a otros estados y ayudarlos a alcanzar mejores estándares en el campo.

Imagen: World Bank Photo Collection

Comentarios

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *