La memoria con cerebro: así es la HBM2 de Samsung, con 1,2 TFLOPs

Rodrigo Alonso Publicado el 17 de febrero, 2021 • 12:00

Hoy Samsung ha anunciado que su nueva memoria basada en HBM2 (HBM-PIM) tiene un procesador de IA integrado que puede proporcionar hasta 1,2 TFLOPs de potencia de cómputo, lo que permite que el propio chip de memoria realice algunas operaciones que generalmente están reservadas para la CPU, GPU, ASIC o FPGA. Es, literalmente, una memoria que es capaz de «pensar» o procesar por sí misma.

Los nuevos chips HBM-PIM (PIM viene de procesamiento en memoria) inyectan un motor de IA dentro de cada banco de memoria, descargando así las operaciones de procesamiento al propio HBM. La nueva clase de memoria está diseñada para aliviar la carga de mover datos entre la memoria y los procesadores, que a menudo es más costosa en términos de consumo de energía y tiempo que las operaciones de cómputo convencionales.

El doble de rendimiento con menor consumo

Samsung dice que, cuando se aplica a su memoria HBM2 Aquabolt existente, la tecnología es capaz de duplicar el rendimiento del sistema al tiempo que reduce el consumo de energía en un 70%. La compañía también afirma que la nueva memoria no requiere introducir ningún cambio de software o hardware (incluyendo los controladores de memoria), lo que permite un tiempo de comercialización sustancialmente más rápido, es decir, que llegará al mercado mucho antes que otras nuevas tecnologías ya que no requiere cambios en lo que hay ahora.

Samsung HBM PIM

Samsung dice que esta memoria ya se está probando en aceleradores de IA con proveedores líderes en la industria, y esperan que todas las validaciones se completen en el primer semestre de este año, marcando un rápido camino hacia su adopción en el mercado.

La memoria HBM-PIM de Samsung por dentro

Samsung ha presentado también algunos detalles técnicos sobre esta nueva arquitectura de memoria durante la Conferencia Virtual Internacional de Circuitos de Estado Sólido (ISSCC) que tuvo lugar esta semana.

Como se puede ver, cada banco de memoria tiene una PCU (Unidad de Computación Programable) integrada que funciona a 300 MHz. Esta unidad se controla a través de comandos de memoria convencionales desde el host para habilitar el procesamiento en DRAM y es capaz de ejecutar cálculos FP16 (precisión simple). La memoria también puede funcionar en modo estándar, lo que significa que puede funcionar como HBM2 normal o en modo FIM para el procesamiento de datos en memoria.

Naturalmente, hacer espacio para las unidades PCU reduce la capacidad de memoria: cada matriz de memoria equipada con PCU tiene la mitad de la capacidad (4 Gb) por matriz en comparación con una matriz HBM2 estándar (8 Gb). Para ayudar a solventar este problema, Samsung emplea pilas de 6 GB al combinar cuatro matrices de 4 Gb con PCU con otras cuatro matrices de 8 Gb sin ella.

En particular, el documento y las diapositivas anteriores se refieren a la tecnología como Function-In Memory DRAM (FIMDRAM), pero ese era un nombre en clave interno para la tecnología que ahora lleva el nombre de marca HBM-PIM. Los ejemplos de Samsung se basan en un prototipo de chip a 20 nanómetros que alcanza 2,4 Gbps de rendimiento por pin sin aumentar el consumo de energía.

El documento describe la tecnología subyacente como FIMRAM que integra un motor de datos múltiples de instrucción única de 16 de ancho dentro de los bancos de memoria y que explota el paralelismo a nivel de banco para proporcionar un ancho de banda de procesamiento 4 veces mayor que una solución que no estuviera integrada en el chip. En segundo lugar, muestran técnicas que no requieren ninguna modificación de los controladores de memoria convencionales y sus protocolos de comando, lo que hace que FIMDRAM sea más práctico para una rápida adopción industrial.

Desafortunadamente, no veremos estas memorias en las últimas GPUs para juegos, al menos por ahora. Samsung señala que esta nueva memoria está diseñada para satisfacer los requisitos de procesamiento a gran escala en centros de datos, sistemas HPC y aplicaciones móviles habilitadas para IA.

Como ocurre en la mayoría de las técnicas de procesamiento en memoria, esperamos que esta tecnología supere los límites de las limitaciones de enfriamiento de los chips de memoria, especialmente dado que HBM generalmente se implementa en pilas que no conducen precisamente a un enfriamiento fácil. La presentación de Samsung no especificó cómo HBM-PIM cubrirá esos desafíos.