Almacenamiento en ADN: todos los datos de internet cabrán en una caja de zapatos

Paloma Recuero de los Santos    24 abril, 2020

Según el informe Top 10 emerging technologies 2019 del World Economic Forum, “se estima que para 2020 se crearán 1,7 megabytes de datos por segundo y persona en todo el mundo”. Para una población mundial de unos 7.800 millones de habitantes, esto se traduce en unos 418 zettabytes en un solo año (418.000 millones de información en un disco duro de un terabyte). En este post veremos cómo el almacenamiento de datos en ADN puede ser la solución del futuro.

Tres problemas: volumen, durabilidad, consumo energético

Es evidente que el crecimiento constante del volumen de datos que manejamos, va a suponer, a corto plazo, un problema. Pero no es el único. A pesar de los grandes avances en tecnologías de almacenamiento de datos, que han permitido la evolución desde los dispositivos magnéticos, a los ópticos, hasta llegar a los chips de memoria flash, todos estos dispositivos tienen fecha de caducidad.

En el caso de los discos magnéticos, la durabilidad está relacionada con el desgaste mecánico. En los discos flash (SSD o de estado sólido), por su parte,  tiene que ver con la degradación de los semiconductores. Aunque los más optimistas estiman esta posible vida útil en unos 100 años, los informes de empresas reales que ofrecen servicios cloud, indican que, en los 4 primeros años de uso, un 20% de los discos falla (aunque los datos son de 2013 y habrán mejorado, sigue siendo un porcentaje relevante).

El otro factor a tener en cuenta es el crecimiento paralelo en el consumo energético de los centros de datos. Por ello, las empresas que ofrecen “servicios cloud” buscan alternativas que les permitan ofrecer sus servicios de forma más respetuosa con el medio ambiente (“centros de datos verdes”).

Líneas de investigación

Como en tantas otras ocasiones, la naturaleza es la mejor inspiración para los avances científicos y tecnológicos. Así, las últimas tendencias en almacenamiento de datos se basan en la forma en que se almacena la información en los seres vivos: el ADN.

El ADN (ácido desoxirribonucleico) es una molécula compleja que se encuentra dentro de cada célula de nuestro cuerpo y contiene todas las instrucciones necesarias para crear y mantener la vida.

Los cuatro componentes básicos del ADN son los nucleótidos: adenina (A), timina (T), guanina (G) y citosina (C), y se unen de un modo muy concreto, A con T, C con G.

Para entender qué es el ADN, imaginemos dos cadenas que se unen formando una doble hélice. Muchos, miles, millones de adeninas, timinas, guaninas y citosinas se unen formando una secuencia que sigue un orden determinado como por ejemplo:

AAATTCGAGTCAATTGCCTATCCTCGAGTCAACCTATCCA.

Figura 1: Animación de la doble hélice del ADN (dominio público)
Figura 1: Animación de la doble hélice del ADN (fuente)

Esa secuencia de sustancias químicas compone nuestro código genético.

¿Cómo almacenar datos en ADN?

La idea principal es representar los datos traduciendo del código binario de las máquinas (0s y 1s) al código genético expresado como combinación de nucleótidos (As, Ts, Cs y Gs). Por ejemplo, 00=A, 01=G, 10=C, 11=T. Este código genético se sintetiza en una molécula real , y el proceso de “codificación” se completa. No es complicado, ya que, gracias a los últimos avances en genética y biotecnología, la secuenciación (lectura), síntesis (escritura) y copia del ADN es una tarea habitual.

La recuperación de datos es un poco más compleja. Deben darse dos pasos: el “procesamiento” y la “decodificación”. El PCR (reacción en cadena de la polimerasa )es un protocolo de laboratorio que se utiliza para duplicar ADN. De forma parecida a como funciona la memoria RAM, el PCR se concentra en una sección específica de la secuencia, que luego se replica, se secuencia, se decodifica y ajusta los errores para recuperar los datos originales. Al trabajar de forma selectiva sobre una secuencia concreta y no sobre todo el conjunto de datos, el proceso puede llevarse a cabo de forma eficiente.

La intensa investigación que se está llevando a cabo en este campo ha permitido mejorar las técnicas de lectura y escritura de ADN, e incrementar la longitud de las hebras de ADN, incrementando de forma paralela la cantidad de datos que se puede almacenar en ADN.

Un ejemplo interesante de cómo se pueden almacenar de forma estable datos en el genoma de células vivas es este estudio publicado en Nature, donde codifican una película digital en el genoma de una población de bacterias vivas.

Figura 2: Proceso de codificación de un GIF en bacterias (con permiso)
Figura 2: Proceso de codificación de un GIF en bacterias (con permiso del autor Jeff Nivala)

¿Es el ADN la solución?

El almacenamiento de datos en ADN es una solución muy interesante porque da respuesta a los tres problemas mencionados. El ADN es hiperdenso, fácil de replicar y estable durante milenios.

Su altísima densidad permite almacenar enormes cantidades de datos en volúmenes muy pequeños. Por ejemplo, una simple bacteria de Escherichia coli, tiene una densidad de almacenamiento de unos 1019 bits por centímetro cúbico.

Por otra parte, se ha podido recuperar ADN en perfectas condiciones de animales extintos hace más de 500.000 años. Por tanto, no habrá que preocuparse en absoluto por la durabilidad del almacenamiento.

Y, en tercer lugar, las técnicas de trabajo con el ADN son procesos conocidos y habituales en la investigación biotecnológica. No sólo no revisten dificultad, sino que también son procesos de bajo consumo energético. ¿Qué más podemos pedir?

Un futuro no tan lejano

En 2019, investigadores de Microsoft y de la Universidad de Washington mostraron elprimer sistema totalmente automatizado para almacenar y recuperar datos en el ADN artificial – un paso clave para trasladar la tecnología del laboratorio de investigación a los centros de datos comerciales.

Figura 2: Demostración de la automatización integral del almacenamiento de datos de ADN (con permiso del autor Luis Ceze)
Figura 3: Demostración de la automatización integral del almacenamiento de datos de ADN (con permiso del autor Luis Ceze)

En palabras de Karin Strauss, investigadora en Microsoft, usando las técnicas de almacenamiento de datos en ADN, sería posible almacenar toda la información accesible en internet, en una “caja de zapatos”.

“Think of compressing all the information on the accessible Internet into a shoebox,” says Karin Strauss, a principal researcher at Microsoft. “With DNA data storage, that’s possible.”

Karin Strauss, trabaja junto con Luis Ceze, profesor de Ingeniería y Ciencias de la Computación de la Universidad de Washington, en el Laboratorio de Sistemas de Información Molecular (MISL) desarrollando métodos para el almacenamiento de datos a largo plazo utilizando ADN sintético.

Usando moléculas de ADN sintético, el equipo ha almacenado con éxito más de un gigabyte de información en distintos formatos como por ejemplo, los 100 mejores libros del Proyecto Gutenberg, vídeos en alta definición, o el proyecto #MemoriesInDNA. En el siguiente video (en inglés) los investigadores responsables del proyecto explican en qué consiste.

Este equipo considera que si esta tecnología sigue avanzando al ritmo actual, el almacenamiento en ADN puede estar al servicio del público en general en tan solo una década.

Reto

Sin embargo, todavía queda un desafío importante que superar. Aunque ya existen empresas como Twist Bioscience, que colabora con el MISL proporcionándole ADN “a medida”, el coste actual ronda los 1000$ por megabyte almacenado. Demasiado caro para poder considerarlo a gran escala. El objetivo de Twist es llegar a los $100 per terabyte. Habrá que estar atentos a los avances en este campo en los próximos años.


Shipman, Seth L et al. “CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria.” Nature vol. 547,7663 (2017): 345-349. doi:10.1038/nature23017


Para mantenerte al día con LUCA visita nuestra página web suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *