Big Data en investigación básica: de las partículas elementales a los agujeros negros

Javier Coronado Blazquez    23 mayo, 2022
Esta imagen muestra la vista polarizada del agujero negro de M87. Las líneas marcan la orientación de la polarización, que está relacionada con el campo magnético que hay alrededor de la sombra del agujero negro. / Imagen: EHT Collaboration

El paradigma Big Data ha tenido una profunda penetración en todos los estratos de nuestra sociedad, cambiando la manera en la que interactuamos entre nosotros y se llevan a cabo proyectos tecnológicos. La investigación básica, concretamente en el campo de la física, no ha sido ajena a este cambio en las últimas dos décadas y ha sabido adaptarse para incorporar este nuevo modelo a la explotación de datos de experimentos punteros. Hablaremos aquí del impacto del Big Data en tres de los mayores hitos de la física moderna.

Large Hadron Collider: el precursor del Big Data

Una de las palabras más de moda en 2012 fue “bosón de Higgs”, esa misteriosa partícula que nos dijeron que era la responsable de la masa del resto de partículas conocidas (más o menos) y que había sido descubierta ese mismo año. Pero en cuanto a atracción mediática, el foco se centró en el instrumento que permitió dicho descubrimiento, el Gran Colisionador de Hadrones, o LHC por sus siglas en inglés, del Consejo Europeo de Investigación Nuclear (CERN).

El LHC es un acelerador de partículas, y es probablemente la máquina más compleja construida por el ser humano, con un coste de unos €7,500 millones. Un anillo de 27 km de longitud enterrado a una profundidad media de 100 metros bajo la frontera entre Suiza y Francia, que emplea electroimanes superconductores para acelerar protones hasta el 99.9999991% de la velocidad de la luz (es decir, en un segundo dan más de 11,000 vueltas al anillo). Colisionando protones a estas delirantes velocidades, podemos crear nuevas partículas y estudiar sus propiedades. Una de estas partículas fue el bosón de Higgs.

Para asegurarse de que los protones, que son partículas elementales, colisionan entre sí, en lugar de emplearlos uno a uno se lanzan grandes paquetes, lo que resulta en unos 1000 millones de choques por segundo. Todas estas colisiones son registradas como eventos únicos. De una sola de ellas se pueden producir miles de partículas individuales, que son caracterizadas en tiempo real (muy inferior al milisegundo) por detectores, recogiendo información como trayectoria, energía, momento, etc.

Una enorme cantidad de datos

Como nos podemos imaginar, esto produce una enorme cantidad de datos. Concretamente, unos 50,000-70,000 TB al año de datos en bruto. Y eso sólo de los detectores principales, ya que existen otros experimentos secundarios en el LHC. Al no operar todos los días del año, genera una media de 200 o 300 TB de datos; un volumen complicado -pero factible- de manejar hoy en día.

El problema es que el LHC entró en operación en 2008, cuando Big Data era un concepto muy novedoso, por lo que hubo mucho desarrollo de tecnología ad hoc. No es la primera vez, ya que Internet mismo nació en el CERN, con la World Wide Web.

En 2003 se estableció la Worldwide LHC Computer Grid (WLCG), una red formada por 170 centros de cálculo en 42 países, con un total de 250,000 núcleos disponibles que permiten más de 1,000 millones de horas de computación anuales.

Según las características técnicas, cada uno de los nodos de esta red pueden estar dedicados al almacenamiento, procesamiento o análisis de los datos. Para asegurar la buena coordinación entre ellos, se optó por un sistema jerarquizado en tres niveles: Tier 0 en el CERN, Tier 1 en varios sitios regionales, y Tier 2 en centros con muy buena conectividad entre ellos.

España acoge varios de estos centros de computación, tanto de Tier 1 como Tier 2, situados en Barcelona, Cantabria, Madrid, Santiago de Compostela y Valencia. Uno de los aspectos que ha fomentado este gran volumen de datos es la aplicación de algoritmos de machine learning e inteligencia artificial para buscar física más allá de lo conocido, pero eso es una historia para otro día…

Centro de control del CERN / Foto: Brice, Maximilien, CERN
Centro de control del CERN / Foto: Brice, Maximilien, CERN

James Webb Space Telescope: el presente y futuro de la astrofísica

El LHC explora los ladrillos básicos que constituyen nuestro Universo: las partículas elementales. Ahora vamos a viajar al extremo opuesto, estudiando estrellas y galaxias enteras. Exceptuando los espectaculares avances en astronomía de neutrinos y ondas gravitacionales de los últimos años, si queremos observar el Universo lo haremos con un telescopio.

Debido a la rotación de la Tierra, un telescopio “tradicional” sólo podrá observar de noche. Además, el efecto atmosférico reducirá la calidad de las imágenes cuando busquemos nitidez en señales muy pequeñas o débiles. ¿No sería maravilloso poder tener un telescopio en el espacio, donde desaparecen estos factores?

Eso mismo pensó la NASA a finales de los años 80, lanzando en 1995 el telescopio espacial Hubble, que ha producido (y sigue produciendo) las imágenes más espectaculares del cosmos. La NASA se planteó hace un par de décadas cuál era el siguiente paso, y comenzó a diseñar su sucesor, el James Webb (JWST), lanzado el 25 de diciembre de 2021 y actualmente en fase de calibración.

Con un gran número de innovaciones y patentes técnicas, se decidió situar al JWST en el punto de Lagrange L2, 4 veces más lejos de nosotros que la Luna. A tal distancia, es completamente inviable enviar una misión tripulada a efectuar reparaciones, como sucedió con el Hubble, que orbita a “sólo” 559 km de la superficie terrestre.

Espejo principal de telescopio James Webb /  Image Credit: NASA/MSFC/David Higginbotham
Espejo principal de telescopio James Webb / Image Credit: NASA/MSFC/David Higginbotham

Uno de los mayores retos de diseño era la transmisión de los datos. Aunque el JWST lleva unos escudos para aislar térmicamente al telescopio, al estar tan alejado de la magnetosfera terrestre el disco duro que registra los datos debe ser un SSD (para asegurar la velocidad de transmisión) con gran protección contra la radiación solar y rayos cósmicos, puesto que debe ser capaz de operar continuamente durante al menos 10 años.

Esto compromete la capacidad de dicho disco duro, que tiene unos modestos 60 GB. Con el gran volumen de datos recogidos en observaciones, tras unas 3 horas de mediciones se puede llegar al límite de dicha capacidad.

Está previsto que el JWST realice dos descargas de datos al día, aparte de recibir instrucciones sobre el apuntado y lecturas de sensores de los distintos componentes, con una velocidad de transmisión de unos 30 Mbit/s.

Comparado con las cifras del LHC puede parecer insignificante, pero no debemos olvidar que el JWST orbita a 1,5 millones de kilómetros de la Tierra, en un entorno tremendamente hostil, con temperaturas de unos 30°C en el lado que mira al Sol y -220°C en lado en sombra. Un prodigio técnico sin parangón produciendo más de 20 TB de datos brutos al año, que tendrán ocupados durante años a la comunidad astrofísica, que ya tiene preparados robustos y sofisticados algoritmos de machine learning para explotar todos estos datos.

Event Horizon Telescope: Big Data “de toda la vida”

Tanto el LHC como el JWST se caracterizan por transmitir de forma rápida y eficiente sus datos para ser procesados. Sin embargo, a veces no es tan fácil conseguir las “5 rayitas de WiFi”. ¿Cuántas veces nos hemos frustrado cuando un vídeo de Youtube se quedaba congelado y cargando por nuestra mala conexión? Imaginemos que en vez de un simple vídeo necesitamos descargar unos 5 PB de datos.

Con este problema se topó el Event Horizon Telescope (EHT), que en 2019 publicó la primera foto de un agujero negro. Este instrumento es en realidad una red de siete radiotelescopios en todo el mundo (uno de ellos en España), que unieron fuerzas para realizar una observación simultánea del agujero negro supermasivo en el centro de la galaxia M87 durante 4 días en 2017. A lo largo de las observaciones, cada telescopio generó unos 700 TB de datos, lo que resultó en un total de 5 PB de datos dispersos por tres continentes. El reto era combinar toda esta información en un solo lugar para su análisis, que se decidió centralizar en Alemania.

Al contrario que en el LHC, no existía la infraestructura necesaria para transferencia de datos a ese nivel, ni merecía la pena desarrollarla al ser un caso de uso puntual. Por tanto, lo que se decidió fue transportar físicamente los discos duros por vía aérea, marítima y terrestre. De hecho, uno de los radiotelescopios estaba situado en la Antártida, y hubo que esperar al verano para que el deshielo parcial permitiera tener acceso físico a sus discos duros.

La investigadora Katie Bouman (MIT), que dirigió el desarrolló del algoritmo para obtener la foto del agujero negro con el EHT, posa orgullosa con los discos duros del proyecto
La investigadora Katie Bouman (MIT), que dirigió el desarrolló del algoritmo para obtener la foto del agujero negro con el EHT, posa orgullosa con los discos duros del proyecto

En total, se transportó media tonelada de soportes de almacenamiento, que fueron procesados y analizados hasta generar la conocida imagen de menos de 1 MB. Explicar la técnica necesaria para llegar a eso nos ocuparía varios posts individuales.

Lo importante en este caso es que, en ocasiones, es más importante ser pragmático que hipertecnológico. Aunque nuestro mundo haya cambiado radicalmente en tantos aspectos gracias al Big Data, a veces merece la pena dar un toque vintage a nuestro proyecto e imitar a esos observatorios de hace un siglo que transportaban enormes placas fotográficas desde los telescopios a universidades, para ser debidamente estudiadas y analizadas.

Imagen de apertura: vista polarizada del agujero negro de M87. Las líneas marcan la orientación de la polarización, que está relacionada con el campo magnético que hay alrededor de la sombra del agujero negro. / Imagen: EHT Collaboration

Deja una respuesta

Tu dirección de correo electrónico no será publicada.