Google Cloud y Seagate han ofrecido un vistazo a sus esfuerzos por utilizar el aprendizaje automático, un tipo de Inteligencia Artificial, para predecir cuándo las unidades de disco duro de sus centros de datos (responsables de almacenar muchos terabytes de datos) podrían comenzar a fallar, de manera que podrían planificar de antemano el cambiar esos discos duros que van a fallar antes de que provoquen interrupciones en el servicio a causa de sus fallos.
En este momento, no hay forma de evitar el hecho de que los discos duros fallen. Son menos confiables que los SSD, asumiendo que esas unidades no se estén llevando al límite en tareas como el minado de Chia, pero también ofrecen capacidades más altas a precios más bajos y por este motivo se utilizan tanto en centros de datos. Este es un factor importante para empresas como Google Cloud, que necesitan poder manejar cantidades masivas de datos, así que el contar con un sistema de Inteligencia Artificial que les ayude a predecir los fallos para reaccionar con antelación es un hito muy importante.
Inteligencia Artificial para predecir fallos en los discos duros
«En Google Cloud sabemos de primera mano lo crítico que es administrar los discos duros en las operaciones e identificar de manera preventiva posibles fallos».– dijo la compañía en una reciente publicación en su blog.- «Somos responsables de ejecutar algunos de los centros de datos más grandes del mundo; cualquier error en la identificación de estos fallos en el momento adecuado puede causar interrupciones graves en nuestros numerosos productos y servicios».
El problema es que identificar manualmente una unidad defectuosa (que Google definió como unidad «que falla o ha experimentado más de 3 fallos en 30 días») es un proceso que requiere mucho tiempo y además necesita que un técnico tenga acceso físico al dispositivo. Google Cloud y Seagate querían utilizar el aprendizaje automático para reducir la cantidad de tiempo que los ingenieros tendrán que dedicar a probar las unidades para determinar el riesgo de fallo.
Google Cloud dijo que tiene «millones de discos implementados en sistemas de producción que generan terabytes (TB) de datos de telemetría sin procesar», incluyendo «miles de millones de filas de datos S.M.A.R.T. por hora y metadatos de host, como registros de reparación, registro de diagnóstico de proveedores en línea (OVD) o métricas de confiabilidad accesibles en el campo (FARM), así como datos de fabricación de los discos duros».
Eso significa que la empresa tiene una increíble cantidad de discos duros en funcionamiento en máquinas de producción que generan cientos de parámetros y factores que deben ser rastreados y monitorizados por los ingenieros. Sin embargo, estos datos también pueden ser tratados por un sistema de Inteligencia Artificial que, mediante aprendizaje automático, pueda aprender qué síntomas son los que provocan los fallos en los discos duros para poder realizar una predicción y avisar de antemano qué discos duros van a fallar para que sean sustituidos antes de que lo hagan, evitando así cortes en el servicio.
Por ahora las compañías han probado dos modelos: uno basado en tablas AutoML y otro desarrollado a medida para este proyecto. El primero por ahora se ha mostrado más fiable con un 98% de precisión y una recuperación del 35% en comparación con una precisión del 70-80% y una recuperación del 20-25% del segundo, lo que también significa que el experimentó sirvió doblemente para demostrar los beneficios de utilizar Auto Machine Learning en lugar de una solución personalizada.
Google Cloud ha dicho que planea expandir el sistema para admitir todas las unidades de disco duro de Seagate, y pretenden extenderlo a todas las marcas de discos duros que utilizan en sus centros de datos.