Nvidia anuncia una variante para PCIe de su acelerador Tesla P100 HPC
Nvidia acaba de anunciar el lanzamiento de una nueva versión basada en PCIe de su acelerador gráfico Tesla P100, el cual está diseñado para el computo hiper escalar. El Tesla P100, que utiliza el núcleo gráfico GP100, se anunció inicialmente durante la celebración del GTC 2016 como la primera tarjeta gráfica de Nvidia que utiliza HBM2 y NVLINK como interconexión.
Diseñada sobre la base del núcleo gráfico GP100, la Tesla P100 es la tarjeta gráfica más avanzada y más potente de Nvidia que se haya diseñado para plataformas HPC (High Performance Computing) y centros de datos. Estas gráficas están diseñadas para impulsar el potencial de las aplicaciones de HPC hasta 30 veces más en comparación con las soluciones de la generación actual. Las nuevas soluciones PCIe están diseñadas para el mercado de centros de datos y HPC para que sean compatibles con los servidores acelerados por tarjetas gráficas actuales, a diferencia de las anteriores Tesla P100 que utilizan un conector especial que requiere el empleo de nuevos servidores. Ambas tarjetas están optimizadas para alimentar las aplicaciones más exigentes de los centros de datos de AI y HPC.
El Nvidia Tesla P100 es el chip de supercomputación más rápido del mundo. Se basa en una nueva generación de la arquitectura CUDA, con nombre en código Pascal. El núcleo gráfico GP100 que utiliza la arquitectura Pascal está en el corazón del acelerador Tesla P100. Nvidia ha pasado los últimos años desarrollando este nuevo núcleo gráfico que finalmente saldrá a la venta en junio de 2016 para los superordenadores.
El Tesla P100 viene con especificaciones bastante potentes. Para empezar, tenemos un chip de 16 nm Pascal que cuenta con unas dimensiones de 610 mm2, incorporando en su interior 15,3 millones de transistores y con 3584 núcleos CUDA. Como comparación, el núcleo Pascal GP100 completo cuenta con hasta 3.840 núcleos CUDA. Nvidia ha rediseñado sus unidades de SMs (Streaming Multiprocessors) y los ha reorganizado para dar soporte a 64 núcleos CUDA por bloque de SM. El Tesla P100 tiene 56 de estos bloques habilitados mientras que el GP100 completo tiene 60 bloques en total. El chip viene con conjunto dedicado de núcleos CUDA FP64. Hay 32 núcleos FP64 por bloque y toda la GPU tiene 1792 FP64 núcleos dedicados.
Las variantes desarrolladas para emplear PCIe están optimizadas para emplear velocidades de reloj en los núcleos más bajas. En ellas se ha establecido un TDP máximo de 250 W por lo que estamos mirando a modelos con velocidades de reloj ligeramente inferiores a la variante optimizada para NVLINK. Ambas tarjetas ofrecen 4.7 TFLOPs de doble precisión, 9.3 TFLOPs de precisión simple y 18,7 TFLOPs de precisión mezclada. Los modelos que incorporan 16 GB de memoria HBM2 vienen con un ancho de banda total de 720 GB/s, mientras que la variante de 12 GB de HBM2 viene con 540 GB/s de ancho de banda. Las tarjetas utilizarán la interconexión a través del bus PCIe (32 GB/s) para la conexión simultánea entre múltiples GPUs.