Paloma Recuero de los Santos Florence Nightingale, pionera en el uso de datos para la salud Florence Nightingale es conocida por sentar las bases de la profesionalización de la enfermería. Sin embargo, mucha gente desconoce que fue su trabajo visionario en el campo de la...
Bernardo Campillo Soto Artificial Intelligence of Things, o cómo las cosas planean hacernos la vida más sencilla Al igual que en aquel cuento de los hermanos Grimm dos duendecillos se aliaron para ayudar al zapatero a tener una vida mejor, la inteligencia artificial y las tecnologías...
Sergio Sancho Azcoitia IA en el mundo de la mecánica: Delta No es la primera vez que os hablamos de sistemas expertos en este blog. Hoy os presentamos DELTA, un interesante sistema experto que se utilizó durante varios años para...
LUCA Cómo gestionar mejor las flotas de vehículos con herramientas Big Data ¿Has pensado alguna vez en cómo se puede aplicar los datos en una flota de vehículos? En el pasado webinar del martes 20 de febrero, presentaremos una herramienta de...
Alicia Martín Domingos Cómo optimizar la gestión de stock y almacenes ¿Alguna vez has visto cómo llega la mercancía a los almacenes de una tienda? Hace años, un operario descargaba la mercancía y con un listado en papel iba revisando...
LUCA Planificando la ubicación de un site de retail con los datos Una de las decisiones de negocio clave para cualquier marca es decidir dónde “establecer su tienda”. Esto implica la necesidad de conocer muy bien a los consumidores y su...
LUCA LUCA y Sierra Nevada utilizan el Big Data para mejorar la experiencia de los esquiadores Con motivo de la celebración de los Campeonatos del mundo de FreestyleSki y Snowboard en Sierra Nevada (del 8 al 19 de marzo), se ha lanzado una nueva solución...
LUCA Analizamos el perfil de turistas en España en colaboración con el INE El turismo es uno de los principales sectores de actividad económica en España. Según el Instituto Nacional de Estadística (INE), organismo autónomo dependiente del Ministerio de Economía, España recibió...
Paloma Recuero de los Santos Video Post #6: ¿Qué es el Aprendizaje Aprendizaje Supervisado? Tras el primer vídeo de introducción ¿Qué es Machine Learning?, seguimos con algo más concreto. En el vídeo de hoy explicamos los dos tipos de aprendizaje que se dan...
LUCA LUCA Talk: Generación automática de textos mediante Deep Learning Las posibilidades que la aplicación de la Inteligencia Artificial ha traído consigo permiten el avance exponencial que estamos viviendo hoy en día en cuanto a sistemas de voz (asistentes...
Paloma Recuero de los Santos Video Post #9: Analíticas Big Data, sí, pero ¿Cuáles? Sabemos que las analíticas avanzadas Big Data son imprescindibles para no perder la comba de la innovación digital. Lo que no tenemos tan claro es qué tipo de...
LUCA Talk: La importancia de la seguridad y aspectos legales en el gobierno de los datos. FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 3 de marzo, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite SOBRE QUÉ: Desde la Comisión Europea se está definiendo y escribiendo...
PLN para predecir mutaciones del COVID19Paloma Recuero de los Santos 1 febrero, 2021 El PLN (procesamiento de lenguaje natural) es una técnica de aprendizaje automático que se utiliza para todo tipo de aplicaciones relacionadas con texto y lenguaje. Recientemente, se ha empezado a aplicar al campo de la Biología, en particular, a la predicción de mutaciones de virus como el COVID19. En el post de hoy os contamos cómo. Un artículo publicado en la revista Science, Learning the language of viral evolution and escape, abre una interesante vía de investigación para predecir los mecanismos de escape viral del COVID19. Entender y poder predecir los mecanismos que utiliza el virus para evadir la respuesta inmunitaria del huésped es crucial para el diseño de tratamientos antivirales, y la producción de vacunas. Lo novedoso de esta investigación, es la aplicación de técnicas de machine learning para procesamiento de lenguaje natural (PLN) para la detección de mutaciones del virus, basándose en las sorprendentes similitudes entre el código genético y el lenguaje verbal. El lenguaje de la Biología La importancia de las matemáticas como “lenguaje” para explicar el universo es ampliamente conocida. En palabras de Galileo Galilei, «El gran libro de la naturaleza está escrito con símbolos matemáticos» Y la Biología, como ciencia de la naturaleza, también se apoya en las matemáticas para el tratamiento y modelado de todo tipo de procesos biológicos. Ya en 1865, Mendel avanzó el concepto de gen, como unidad de “encapsulación” de rasgos hereditarios y descubrió algunas leyes matemáticas que explicaban la transmisión de rasgos hereditarios. Pero hasta la publicación en 1953 por Watson y Crick del artículo “A structure for deoxyribose nucleic acid”, no se comprendió cómo se organiza la información genética. Como ya vimos en este otro post, el ADN (ácido desoxirribonucleico) es una molécula compleja que se encuentra dentro de cada célula de nuestro cuerpo y contiene todas las instrucciones necesarias para crear y mantener la vida. Los componentes básicos del ADN Los cuatro componentes básicos del ADN son los nucleótidos: adenina (A), timina (T), guanina (G) y citosina (C), y se unen de un modo muy concreto, A con T, y C con G. Para entender qué es el ADN, imaginemos dos cadenas que se unen formando una doble hélice. Muchos, miles, millones de adeninas, timinas, guaninas y citosinas se unen formando una secuencia que sigue un orden determinado como por ejemplo: AAATTCGAGTCAATTGCCTATCCTCGAGTCAACCTATCCA Figura 1: Animación de la doble hélice del ADN (fuente) El poder representar la información genética en forma de largas cadenas de caracteres dio lugar, ya hace décadas, a discusiones filosóficas sobre su posible consideración como “lenguaje” . Sin embargo, es ahora cuando los avances en computación molecular (en los años 90) y en métodos de lectura-edición del código genético, han permitido saltar de la filosofía al laboratorio. Así, las teorías que relacionan la biología con el lenguaje, han dado pie a la aplicación de técnicas de machine learning para procesamiento de lenguaje natural (PLN) a investigaciones de procesos biológicos como la predicción de mutaciones. Cómo “leer” un virus El objetivo de la investigación consiste en detectar las mutaciones de escape, es decir, aquellas que conservan la infectividad viral, pero pasan desapercibidas para el sistema inmunitario. Cuando se aplican técnicas de PLN a grandes corpus de texto de lenguas como el inglés o el español, se trabaja con secuencias de palabras que codifican significados complejos (componente semántico), que se combinan mediante reglas también complejas (gramática). Una mutación es un cambio en el significado del virus (por tanto semántico) que cumple las reglas biológicas (la gramática) por las que conserva la infectividad y la aptitud evolutiva. Por tanto, las mutaciones que permiten al virus engañar al sistema inmunológico son aquellas que cambian el significado del virus sin hacerlo gramaticalmente incorrecto. ¿Cómo funcionan los modelos lingüísticos? Existe un tipo de modelos de PLN, los modelos de Word Embeding, que codifican palabras en un espacio matemático y son capaces de agruparlas según su significado o campo semántico, y de predecir su probabilidad de aparición en un determinado contexto. Word Embeddings: cómo la IA nos muestra la evolución de las palabras En este caso, en lugar de entrenar el modelo lingüístico sobre una secuencia de palabras, por ejemplo, en inglés, se entrena sobre una secuencia de aminoácidos. Así, la capacidad de agrupar tokens según su significado o campo semántico, se traduce en capacidad de agrupar virus en función de la similitud de sus mutaciones. Por otra parte, la capacidad infectiva del virus se basa en el hecho de que cumpla la gramática. El sistema inmunológico no lo detecta porque “entiende la frase”, no “salta ninguna alarma”. El modelo Para la modelización se partió de las siguientes hipótesis: El cambio semántico codificado en el modelo de lenguaje corresponde al cambio antigénico. Es decir, cambio semántico=mutación.La gramaticalidad del modelo de lenguaje captura la aptitud viral. Por tanto, los virus peligrosos respetan las reglas (gramática biológica)Tanto el alto cambio semántico como la gramaticalidad ayudan a predecir el escape viral: el objetivo del modelo. El modelo, una red neuronal biLSTM, fue entrenado para “completar” qué aminoácido faltaba en una secuencia. Durante el proceso, el modelo generó “embeddings” que representan las relaciones entre las secuencias. A continuación, generaron secuencias mutadas, cambiando un aminoácido cada vez. Por último, para clasificar una determinada mutación, se basaron en las hipótesis anteriores. Tomaron una suma ponderada de la probabilidad de que el virus mutado conservara una gramática infecciosa y el grado de diferencia semántica entre las incrustaciones de la secuencia original y la mutada. Entrenamiento y resultados Para el entrenamiento de la red neuronal, los investigadores trabajaron con miles de secuencias genéticas tomadas de tres virus diferentes: 45.000 secuencias únicas para una cepa de la gripe, 60.000 para una cepa de VIH y entre 3.000 y 4.000 para una cepa de Sars-Cov-2, el virus que causa la COVID-19. Los investigadores compararon las mutaciones mejor valoradas de su modelo con las de los virus reales según el área bajo la curva (AUC), donde 0,5 es aleatorio y 1,0 es perfecto. El modelo logró un AUC de 0,85 en la predicción de variantes del SARS-CoV-2 altamente infecciosas y capaces de evadir los anticuerpos. En el caso del VIH, alcanzó un AUC de 0,69, y en el de dos cepas de la gripe, de 0,77 y 0,83 respectivamente. De esta forma, utilizando únicamente datos de secuencia, estos modelos lingüísticos de las proteínas virales de la hemaglutinina de la gripe, la glicoproteína de la envoltura del VIH-1 (HIV Env) y el coronavirus del síndrome respiratorio agudo severo 2 (SARS-CoV-2) permiten predecir con exactitud los patrones estructurales de escape.. Conclusiones La aplicación de conceptos y técnicas de procesamiento de lenguaje natural al campo de la biología abre la puerta a revolucionarios avances sobre evolución viral. Dada la situación actual de pandemia por el COVID19, el impacto que estos trabajos pueden tener sobre nuestra salud y bienestar es más que evidente. Almacenamiento en ADN: todos los datos de internet cabrán en una caja de zapatos Learning the language of viral evolution and escape Código genético y lenguaje verbal, Gemma Bel Enguix – M.a Dolores Jiménez López, Universitat Rovira i Virgili Un algoritmo predice las peores mutaciones del coronavirus con PLN Cómo transformar una compañía (XIII): Metodología Agile de ejecución de proyectosEl futuro de la telelectura de contadores de agua más allá del COVID19.
Paloma Recuero de los Santos Florence Nightingale, pionera en el uso de datos para la salud Florence Nightingale es conocida por sentar las bases de la profesionalización de la enfermería. Sin embargo, mucha gente desconoce que fue su trabajo visionario en el campo de la...
Paloma Recuero de los Santos Iot4All: Los desafíos que debe enfrentar la IoT Internet de las cosas, IoT, está presente en numerosos escenarios y casos de uso. No sólo está en la base de la transformación digital de la industria, y otros...
Paloma Recuero de los Santos Video Post #9: Analíticas Big Data, sí, pero ¿Cuáles? Sabemos que las analíticas avanzadas Big Data son imprescindibles para no perder la comba de la innovación digital. Lo que no tenemos tan claro es qué tipo de...
Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (II) En el artículo anterior mencionamos la importancia que tienen en nuestro día a día los números aleatorios, utilizados para realizar cualquier tipo de simulación y fundamentales a la hora...
LUCA Talk: La importancia de la seguridad y aspectos legales en el gobierno de los datos. FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 3 de marzo, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite SOBRE QUÉ: Desde la Comisión Europea se está definiendo y escribiendo...
LUCA La teoría Gestalt en Gobierno del Dato Al igual que un dato por si sólo no vale nada si no se le dota de información, conocimiento y se usa para un propósito, “Gobernar el dato por...