Ya en 2019, IBM presentó su procesador Z15, con un total de 12 núcleos a 5,2 GHz y una enorme cantidad de memoria caché L3. Paradójicamente, ahora la compañía ha presentado la nueva generación de procesadores de la serie Z con el IBM Z Telum, que tiene una menor cantidad de núcleos físicos (ocho en este caso) pero que debería ser mucho más versátil, flexible y potente que la generación anterior. Os contamos todo lo que han presentado a continuación.
Parece ser que, al menos para IBM, el futuro de la computación no pasa por incrementar más y más el número de núcleos de los procesadores, sino más bien todo lo contrario; con esta nueva generación de CPU, el fabricante ha reducido el número de núcleos, pero a cambio ha mejorado sustancialmente otros aspectos como por ejemplo duplicando la cantidad de memoria caché L3 (256 MB frente a los 128 MB de su predecesor), o introduciendo núcleos aparte dedicados exclusivamente para Inteligencia Artificial.
Así es IBM Telum Z, el futuro de la computación según IBM
La parte derecha de la diapositiva que hemos colocado encima de estas líneas deja bastante claro que la composición interna del die cuenta con un total de 8 núcleos físicos, los cuales en este caso son capaces de generar 2 hilos de proceso por núcleo gracias a la tecnología SMT2 de IBM (como HyperThreading de Intel o SMT de AMD) para un total de 16 hilos de proceso.
Una particularidad de este procesador es que todos sus núcleos son fuera de orden (out of order), y por lo tanto están diseñados para ejecutar las instrucciones evitando las paradas en la ejecución y ampliando así la cantidad media de instrucciones que es capaz de resolver por cada ciclo de reloj. El diseño de este procesador está pensado, por lo tanto, para aplicaciones a tiempo real que necesitan una respuesta instantánea del procesador, y por este motivo IBM se ha centrado en maximizar el rendimiento de un solo subproceso.
Para este propósito, IBM ha integrado 32 MB de caché L2 que inicialmente está disponible de forma exclusiva para cada núcleo de la CPU (4 MB por núcleo) y, como dijimos antes, 256 MB de caché L3. Comparativamente, un procesador Intel Core i7-10700K tiene apenas 20 MB de lo que Intel llama Smart Cache (L2 + L3), así que como podéis observar estamos ante una cantidad de memoria caché ingente. Además, IBM ha dispuesto cuatro pipelines que se comunican con los núcleos en solo 19 ciclos de reloj (3,8 ns), por lo que el trabajo con la memoria caché debería ser increíblemente rápido.
Finalmente, cabe mencionar que este procesador de IBM se fabrica por Samsung con su nodo de proceso a 7 nm; tiene 22.500 millones de transistores en un área de 530 mm² y, ojo al dato, está construido en 17 capas. IBM no ha proporcionado más detalles al respecto de esto, pero estaremos atentos porque es bastante interesante.
Núcleos exclusivos para aplicaciones de Inteligencia Artificial
Una de las particularidades que hace a este procesador Z Telum de IBM muy interesante es el hecho de que han integrado núcleos específicos para Inteligencia Artificial (es decir, que con respecto a la generación anterior se ha reducido el número de núcleos de 12 a 8 pero, además de las mejoras de las que ya os hemos hablado, en realidad tiene más núcleos al contar con estos de desempeño específico).
Según IBM, estos núcleos logran un rendimiento de 6 TFLOPS en cálculos FP16, y cabe mencionar que los trata literalmente como aceleradores de IA. Estos núcleos tienen acceso directo a la caché L2 de los núcleos, por lo que los datos se pueden leer a unas velocidades de 120 GB/s y escribir a 80 GB/s; según dice el fabricante, estos datos se pueden pre procesar antes de estar disponibles en el propio acelerador para IA, aumentando el ancho de banda a 600 GB/s, una auténtica barbaridad para poder procesar los datos casi al instante.
Eso sí, aunque antes os hemos comparado la caché de este procesador de IBM con uno de Intel de consumo, no está diseñado para aplicaciones de consumo ni mucho menos sino para aplicaciones en tiempo real como finanzas, bolsa, seguros, medicina, infraestructura, etc. Se supone además que estos procesadores están diseñados para integrarse en sistemas con varios chips, y según IBM pueden funcionar incluso en una matriz dual con racks de 8 a 32 procesadores.