Jaque a NVIDIA: AMD quiere un superordenador para IA con 1.2 millones de GPU

Los superordenadores más potentes del mundo tienen menos de 50.000 GPUs, ¿cómo piensa AMD entonces construir un superordenador para IA con 1.2 millones de tarjetas gráficas dedicadas? No lo sabemos, pero es lo que ha sugerido Forrest Norrod, uno de los responsables del segmento de centro de datos de AMD.
La demanda de más potencia de cálculo en centros de datos, y muy especialmente para IA, está creciendo a un ritmo inusitado, hasta el punto de que tanto es así que NVIDIA se ha convertido en la compañía más valorada del mundo. Sin embargo, AMD ha lanzado un jaque afirmando que han tenido serias conversaciones con proveedores y fabricantes con la intención de construir un clúster para IA con la friolera de 1.200.000 tarjetas gráficas dedicadas. Poca broma.
¿Un superordenador de AMD con 1.2 millones de gráficas?
La revelación de AMD procede, como decíamos, de una conversación que el medio The Next Platform mantuvo con Forrest Norrod, director general de la división Datacenter Solutions Group de AMD, acerca del futuro de AMD en el ámbito de los centros de datos. Una de las respuestas más reveladoras es precisamente esta de la que os hablamos, que AMD está considerando construir el clúster de datos para entrenamiento de IA más grande que nadie jamás hubiera imaginado.
Es curioso porque el interlocutor de Norrod le preguntó directamente si la compañía había recibido consultas sobre clústeres de hasta 1.2 millones de GPUs, y este respondió que «la respuesta es prácticamente exacta».
1.2 millones de GPU es una cifra tan abrumadora que resulta prácticamente absurda (y de hecho Norrod bromea luego sobre ello en la entrevista). Los clústeres de entrenamiento para IA suelen construirse con unos pocos miles de GPUs conectadas a través de interconexiones de alta velocidad en varios bastidores de servidores. En cambio, crear un superordenador para IA con 1.2 millones de tarjetas gráficas parece algo imposible ya simplemente por el tamaño que tendría que tener, no hablemos del consumo (prácticamente necesitaría una planta de energía solo para ello).
Además, las cargas de trabajo de IA son extremadamente sensibles a la latencia, y por mucho que se utilicen interconexiones de alta velocidad al final se producirán colas y cuellos de botella de forma casi inevitable. Además, los superordenadores actuales tienen que enfrentarse a diversos fallos de hardware, sea en las GPU, en las unidades de almacenamiento o en los sistemas de refrigeración, así que imaginar un clúster con 1.2 millones de gráficas nos lleva a pensar que, estadísticamente, se producirían fallos prácticamente todos los días.
Desde luego el objetivo nos parece francamente demasiado ambicioso. Como hemos mencionado más arriba, los superordenadores en la actualidad tienen como mucho unos pocos miles de GPU; por ejemplo, el superordenador operativo más rápido del mundo ahora mismo es Frontier, y «solo» tiene 37.888 tarjetas gráficas.
En cualquier caso, este objetivo (que parece broma pero no lo es) de crear un superordenador AMD con 1.2 millones de gráficas pone de manifiesto que AMD ha empezado a tomarse las cosas en serio en esto de la IA. Dudamos seriamente que al final se lleve a cabo por todo lo que os hemos comentado en el artículo, pero oye, si AMD empieza a plantarle cara seriamente a NVIDIA e incluso a superarla, aunque sea a base de fuerza bruta como este sería el caso, mejor que mejor. La competencia entre fabricantes siempre es buena.