IBM crea la unidad de datos más grande de la historia

Los investigadores del laboratorio de investigación de IBM en Almaden, California, están construyendo un depósito de datos casi 10 veces más grande que cualquier otro creado antes. La unidad de 120 petabytes, es decir, 120 millones de gigabytes, se compone de 200.000 unidades de disco duro convencionales que funcionan juntas. Se espera que el contenedor de datos gigante almacene alrededor de un billón de archivos y debería proporcionar el espacio necesario para permitir simulaciones más potentes de sistemas complejos, como los que se utilizan para modelar el tiempo y el clima.

Una unidad de 120 petabytes podría contener 24 mil millones de archivos MP3 típicos de cinco megabytes o engullir cómodamente 60 copias de la mayor copia de seguridad de la Web, las 150 mil millones de páginas que componen el archivo de Internet. WayBack Machine .

El grupo de almacenamiento de datos en IBM Almaden está desarrollando el sistema de almacenamiento sin precedentes para un cliente sin nombre que necesita una nueva supercomputadora para simulaciones detalladas de fenómenos del mundo real. Sin embargo, las nuevas tecnologías desarrolladas para construir un repositorio tan grande podrían permitir sistemas similares para la informática comercial más convencional, dice Bruce Hillsberg , director de investigación de almacenamiento en IBM y líder del proyecto.



Este sistema de 120 petabytes está ahora al margen de los locos, pero en unos años puede ser que todos los sistemas de computación en la nube sean como él, dice Hillsberg. El simple hecho de realizar un seguimiento de los nombres, tipos y otros atributos de los archivos almacenados en el sistema consumirá alrededor de dos petabytes de su capacidad.

Steve Conway, vicepresidente de investigación de la firma de analistas IDC que se especializa en computación de alto rendimiento (HPC), dice que el repositorio de IBM es significativamente más grande que los sistemas de almacenamiento anteriores. Una matriz de almacenamiento de 120 petabye sería fácilmente la más grande que he encontrado, dice. Las matrices más grandes disponibles en la actualidad tienen un tamaño de aproximadamente 15 petabytes. Los problemas de supercomputación que podrían beneficiarse de un mayor almacenamiento de datos incluyen pronósticos meteorológicos, procesamiento sísmico en la industria del petróleo y estudios moleculares de genomas o proteínas, dice Conway.

Los ingenieros de IBM desarrollaron una serie de nuevas técnicas de hardware y software para permitir un aumento tan grande en la capacidad de almacenamiento de datos. Encontrar una manera de combinar de manera eficiente los miles de discos duros con los que se construyó el sistema fue un desafío. Como en la mayoría de los centros de datos, las unidades se colocan en cajones horizontales apilados dentro de racks altos. Sin embargo, los investigadores de IBM tuvieron que hacerlos significativamente más anchos de lo habitual para que quepan más discos en un área más pequeña. Los discos deben enfriarse con agua en circulación en lugar de ventiladores estándar.

Las fallas inevitables que ocurren regularmente en una colección tan grande de discos presentan otro desafío importante, dice Hillsberg. IBM usa la táctica estándar de almacenar múltiples copias de datos en diferentes discos, pero emplea nuevos refinamientos que permiten que una supercomputadora siga funcionando casi a toda velocidad incluso cuando una unidad se descompone.

Cuando un solo disco muere, el sistema extrae datos de otras unidades y los escribe en el reemplazo del disco lentamente, por lo que la supercomputadora puede seguir funcionando. Si ocurren más fallas entre las unidades cercanas, el proceso de reconstrucción se acelera para evitar la posibilidad de que ocurra otra falla y borre algunos datos de forma permanente. Hillsberg dice que el resultado es un sistema que no debería perder ningún dato durante un millón de años sin comprometer el rendimiento.

El nuevo sistema también se beneficia de un sistema de archivos conocido como GPFS que fue desarrollado en IBM Almaden para permitir a las supercomputadoras un acceso más rápido a los datos. Distribuye archivos individuales en varios discos para que muchas partes de un archivo se puedan leer o escribir al mismo tiempo. GPFS también permite que un sistema grande realice un seguimiento de sus muchos archivos sin tener que escanear cada uno de ellos. El mes pasado, un equipo de IBM utilizó GPFS para indexar 10 mil millones de archivos en 43 minutos, rompiendo sin esfuerzo el récord anterior de mil millones de archivos escaneados en tres horas.

Las mejoras de software como las que se están desarrollando para GPFS y la recuperación de disco son cruciales para habilitar unidades de datos tan gigantescas, dice Hillsberg, porque para ser prácticas, deben volverse no solo más grandes, sino también más rápidas. Los discos duros no se están volviendo más rápidos ni más confiables en proporción a las demandas de más almacenamiento, por lo que el software debe compensar la diferencia.

Conway de IDC está de acuerdo en que el acceso más rápido a sistemas de almacenamiento de datos más grandes se está volviendo crucial para la supercomputación, aunque las supercomputadoras se comparan públicamente con mayor frecuencia en sus velocidades de procesador, como es el caso de la lista global TOP500 utilizada para determinar los derechos de fanfarronear internacionales. Las grandes unidades se están volviendo importantes porque las simulaciones son cada vez más grandes y muchos problemas se abordan utilizando los llamados métodos iterativos, donde una simulación se ejecuta miles de veces y los resultados se comparan, dice Conway. Checkpointing, una técnica en la que una supercomputadora guarda instantáneas de su trabajo en caso de que el trabajo no se complete correctamente, también es común. Estas tendencias han producido una explosión de datos en la comunidad HPC, dice Conway.

esconder