PLN para predecir mutaciones del COVID19

Paloma Recuero de los Santos    1 febrero, 2021

El PLN (procesamiento de lenguaje natural) es una técnica de aprendizaje automático que se utiliza para todo tipo de aplicaciones relacionadas con texto y lenguaje. Recientemente, se ha empezado a aplicar al campo de la Biología, en particular, a la predicción de mutaciones de virus como el COVID19. En el post de hoy os contamos cómo.

Un artículo publicado en la revista Science, Learning the language of viral evolution and escape, abre una interesante vía de investigación para predecir los mecanismos de escape viral del COVID19. Entender y poder predecir los mecanismos que utiliza el virus para evadir la respuesta inmunitaria del huésped es crucial para el diseño de tratamientos antivirales, y la producción de vacunas.

Lo novedoso de esta investigación, es la aplicación de técnicas de machine learning para procesamiento de lenguaje natural (PLN) para la detección de mutaciones del virus, basándose en las sorprendentes similitudes entre el código genético y el lenguaje verbal.

El lenguaje de la Biología

La importancia de las matemáticas como «lenguaje» para explicar el universo es ampliamente conocida. En palabras de Galileo Galilei,

«El gran libro de la naturaleza está escrito con símbolos matemáticos»

Y la Biología, como ciencia de la naturaleza, también se apoya en las matemáticas para el tratamiento y modelado de todo tipo de procesos biológicos. Ya en 1865, Mendel avanzó el concepto de gen, como unidad de «encapsulación» de rasgos hereditarios y descubrió algunas leyes matemáticas que explicaban la transmisión de rasgos hereditarios.

Pero hasta la publicación en 1953 por Watson y Crick del artículo “A structure for deoxyribose nucleic acid”, no se comprendió cómo se organiza la información genética. Como ya vimos en este otro post, el ADN (ácido desoxirribonucleico) es una molécula compleja que se encuentra dentro de cada célula de nuestro cuerpo y contiene todas las instrucciones necesarias para crear y mantener la vida.

Los componentes básicos del ADN

Los cuatro componentes básicos del ADN son los nucleótidos: adenina (A), timina (T), guanina (G) y citosina (C), y se unen de un modo muy concreto, A con T, y C con G.

Para entender qué es el ADN, imaginemos dos cadenas que se unen formando una doble hélice. Muchos, miles, millones de adeninas, timinas, guaninas y citosinas se unen formando una secuencia que sigue un orden determinado como por ejemplo:

AAATTCGAGTCAATTGCCTATCCTCGAGTCAACCTATCCA

Figura 1: Animación de la doble hélice del ADN (dominio público)
Figura 1: Animación de la doble hélice del ADN (fuente)

El poder representar la información genética en forma de largas cadenas de caracteres dio lugar, ya hace décadas, a discusiones filosóficas sobre su posible consideración como «lenguaje» . Sin embargo, es ahora cuando los avances en computación molecular (en los años 90) y en métodos de lectura-edición del código genético, han permitido saltar de la filosofía al laboratorio.

Así, las teorías que relacionan la biología con el lenguaje, han dado pie a la aplicación de técnicas de machine learning para procesamiento de lenguaje natural (PLN) a investigaciones de procesos biológicos como la predicción de mutaciones.

Cómo «leer» un virus

El objetivo de la investigación consiste en detectar las mutaciones de escape, es decir, aquellas que conservan la infectividad viral, pero pasan desapercibidas para el sistema inmunitario.

Cuando se aplican técnicas de PLN a grandes corpus de texto de lenguas como el inglés o el español, se trabaja con secuencias de palabras que codifican significados complejos (componente semántico), que se combinan mediante reglas también complejas (gramática).

Una mutación es un cambio en el significado del virus (por tanto semántico) que cumple las reglas biológicas (la gramática) por las que conserva la infectividad y la aptitud evolutiva. Por tanto, las mutaciones que permiten al virus engañar al sistema inmunológico son aquellas que cambian el significado del virus sin hacerlo gramaticalmente incorrecto.

¿Cómo funcionan los modelos lingüísticos?

Existe un tipo de modelos de PLN, los modelos de Word Embeding, que codifican palabras en un espacio matemático y son capaces de agruparlas según su significado o campo semántico, y de predecir su probabilidad de aparición en un determinado contexto.

En este caso, en lugar de entrenar el modelo lingüístico sobre una secuencia de palabras, por ejemplo, en inglés, se entrena sobre una secuencia de aminoácidos.

Así, la capacidad de agrupar tokens según su significado o campo semántico, se traduce en capacidad de agrupar virus en función de la similitud de sus mutaciones. Por otra parte, la capacidad infectiva del virus se basa en el hecho de que cumpla la gramática. El sistema inmunológico no lo detecta porque «entiende la frase», no «salta ninguna alarma».

El modelo

Para la modelización se partió de las siguientes hipótesis:

  • El cambio semántico codificado en el modelo de lenguaje corresponde al cambio antigénico. Es decir, cambio semántico=mutación.
  • La gramaticalidad del modelo de lenguaje captura la aptitud viral. Por tanto, los virus peligrosos respetan las reglas (gramática biológica)
  • Tanto el alto cambio semántico como la gramaticalidad ayudan a predecir el escape viral: el objetivo del modelo.

El modelo, una red neuronal biLSTM, fue entrenado para «completar» qué aminoácido faltaba en una secuencia. Durante el proceso, el modelo generó «embeddings» que representan las relaciones entre las secuencias.

A continuación, generaron secuencias mutadas, cambiando un aminoácido cada vez.

Por último, para clasificar una determinada mutación, se basaron en las hipótesis anteriores. Tomaron una suma ponderada de la probabilidad de que el virus mutado conservara una gramática infecciosa y el grado de diferencia semántica entre las incrustaciones de la secuencia original y la mutada.

Entrenamiento y resultados

Para el entrenamiento de la red neuronal, los investigadores trabajaron con miles de secuencias genéticas tomadas de tres virus diferentes: 45.000 secuencias únicas para una cepa de la gripe, 60.000 para una cepa de VIH y entre 3.000 y 4.000 para una cepa de Sars-Cov-2, el virus que causa la COVID-19.

Los investigadores compararon las mutaciones mejor valoradas de su modelo con las de los virus reales según el área bajo la curva (AUC), donde 0,5 es aleatorio y 1,0 es perfecto. El modelo logró un AUC de 0,85 en la predicción de variantes del SARS-CoV-2 altamente infecciosas y capaces de evadir los anticuerpos. En el caso del VIH, alcanzó un AUC de 0,69, y en el de dos cepas de la gripe, de 0,77 y 0,83 respectivamente.

De esta forma, utilizando únicamente datos de secuencia, estos modelos lingüísticos de las proteínas virales de la hemaglutinina de la gripe, la glicoproteína de la envoltura del VIH-1 (HIV Env) y el coronavirus del síndrome respiratorio agudo severo 2 (SARS-CoV-2) permiten predecir con exactitud los patrones estructurales de escape..

Conclusiones

La aplicación de conceptos y técnicas de procesamiento de lenguaje natural al campo de la biología abre la puerta a revolucionarios avances sobre evolución viral. Dada la situación actual de pandemia por el COVID19, el impacto que estos trabajos pueden tener sobre nuestra salud y bienestar es más que evidente.

Learning the language of viral evolution and escape

Código genético y lenguaje verbal, Gemma Bel Enguix – M.a Dolores Jiménez López, Universitat Rovira i Virgili

Un algoritmo predice las peores mutaciones del coronavirus con PLN

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *