NVIDIA Lovelace vs AMD RDNA 3, lo que no se ha contado de sus GPU

Falta casi un año para el lanzamiento de las GPU basadas en las RDNA 3 y Lovelace de AMD y NVIDIA, de las cuales se han comentado varios rumores y han aparecido de tanto en cuanto en las noticias. Es por ello que os hemos preparado un artículo sobre ciertas cosas que se comentan detrás de los bastidores sobre la siguiente generación de tarjetas gráficas para gaming.

Con las RTX 30 y las RX 6000 agotadas en todos lados resulta sorprendente que se esté hablando de la siguiente generación de tarjetas gráficas. Bueno, realmente no es así y de manera oficial ni AMD ni NVIDIA han dicho nada sobre sus arquitecturas. Pero, hay una serie de rumores que ordenados de manera lógica y con conocimiento sobre arquitecturas de hardware gráfico dibujan un escenario muy interesante de cara al futuro.

Un campo de batalla con un nodo en común

Procesadores fabricación oblea

Ambas arquitecturas van a enfrentarse haciendo uso del nodo de 5 nm de TSMC, el cual en el caso de AMD será utilizado también para la fabricación de sus APU y CPU Zen 4. En cuanto a NVIDIA se trata de un retorno a la fundición taiwanesa después de que las RTX 30 se hayan estado fabricando en Samsung.

TSMC que es conocedora de este hecho hará que sus obleas las pague el mejor postor, esto se va a traducir en una subida de los precios y es que el espacio en las fábricas de TSMC se han de reservar. ¿La situación actual? AMD no parece estar dispuesta a continuar siendo la marca barata en comparación con NVIDIA. Lo que era parte del motivo por el cual AMD no podía conseguir una cuota de mercado tan grande como NVIDIA. No solo por el peor rendimiento, sino por el hecho que a menos dinero ganado, menos obleas para pagar y a menos obleas menos tarjetas gráficas se acaban produciendo.

Los altos precios en comparación con el pasado en el caso de AMD ya los estamos viendo con las RX 6000 y es una tendencia en la que la empresa de Lisa Su seguirá la escalada de precios hasta igualarse al nivel de NVIDIA. Al fin y al cabo el mercado ha aceptado los altos precios de las últimas generaciones de las tarjetas de NVIDIA y AMD no deja de ser una multinacional con el afán de ganar dinero.

¿Qué nos tiene preparado NVIDIA con Lovelace?

Ada Lovelace

Lovelace es ahora mismo una enorme incógnita, los únicos datos que conocemos no vienen de NVIDIA sino de Kopite7Kimi, un insider que acertó con más de un año de antelación las especificaciones de las actuales RTX 30. ¿La cifra más destacada? Los 18432 núcleos CUDA o ALUs en FP32 que tendrá supuestamente la nueva arquitectura gráfica de NVIDIA, un aumento considerable que casi aumenta en número la cantidad de núcleos CUDA de la GA102 más potente.

En las RTX 30 hemos visto como la media de ALUs en FP32 por unidad shader o SM ha pasado de 64 a 128, cifra que se traduce en 144 SM en total, una cifra incluso superior a la que tiene una NVIDIA A100 y resulta en el salto más impresionante, si eso se cumple, en cualquier generación de NVIDIA. Tal salto hace que seamos parcialmente escépticos con dicha información.

Es muy posible que los 18432 núcleos CUDA sean una cifra que corresponden a NVIDIA Hopper y no a Lovelace. Al fin y al cabo Hopper será a Lovelace lo que Volta fue a Turing. El motivo por el cual pensamos esto es por los rumores de la nueva organización que se rumorea para Hopper y que lo más seguro acabe siendo utilizada en Lovelace

Una nueva organización para Hopper y Lovelace

Nuevo GPC NVIDIA

Hay otro rumor que habla del cambio en la organización de sus GPU en la siguiente generación por parte de NVIDIA, donde la unidad mínima será el SM y desaparecerán los subcores, por lo que la unidad SM tendrá un planificador general en vez de tener uno en cada subcore, en ese aspecto se parecerá mucho más a la arquitectura de AMD donde la caché de más bajo nivel se comparte para todo el SM por igual.

El siguiente punto es el TPC, este no sufre cambios, excepto que agrupará esta vez 3 SM en vez de 2 SM, pero es en la aparición del Cluster Processor Core donde viene lo interesante. Cada CPC tendrá en su interior 3 TPC y por tanto hablamos de 18 SM por GPC o 6 por CPC. ¿La particularidad de los CPC? Por lo visto cada uno tiene asignado a una nueva caché L1 de datos e instrucciones. ¿La cantidad de CPC por GPC? Pues según los rumores serían tres en total, pero la cantidad de CPC por GPC podría ser variable como lo son actualmente el número de TPC, pero este último detalle lo desconocemos.

Se podría estar confundiendo Lovelace con Hopper

Poisible Diagrama Lovelace GL102

Lo que nos hace dudar sobre la cantidad de unidades SM en relación con esta rumoreada nueva organización es que se necesitan 8 GPC para conseguirlo y la cantidad de GPC en las GPU de NVIDIA ha ido casi siempre de acorde con el ancho de banda de la memoria. Donde normalmente 6 GPC equivalen a un bus de 384 bits y no se suele utilizar un bus más ancho en las GPU comerciales.

Existe la posibilidad de que se haya confundido Lovelace con Hopper de cara a su posible configuración. Una vez que vemos más posible y realista. Y que conste que esto es una especulación por nuestra parte basada en cosas que hemos oído. Y es que NVIDIA Lovelace en su GPU más potente podría tener una configuración de 6 GPC de próxima generación, lo que le permitiría llegar a los 108 SM. Una cifra que si bien sería inferior a los rumoreados 144 SM son un salto importante respecto a los 82 SM de la actual RTX 3090.

La diferencia entre RDNA 3 y Lovelace es que la GPU de AMD podrá alcanzar las 160 Unidades Shader con un doble chip, pensar que NVIDIA alcanzará los 144 con un solo chip es cuanto menos ser bastante irrealista y más cuando hablamos del mismo nodo. De ahí a que pensamos que la configuración de 144 Unidades Shader podría corresponder a Hopper y no a Lovelace, dado que se comenta que Lovelace será una GPU multichip.

Infinity Cache no solo en RDNA 3, sino también en Lovelace

Infinity Cache Consumo

Uno de los puntos que nos hacen dudar sobre la enorme cantidad de unidades SM que se rumorean es la posibilidad de que NVIDIA le copia a AMD la idea de Infinity Cache a AMD, la cual sirve para que los datos descartados desde la L2 no tengan que ser recuperados en la RAM, el motivo es que el consumo energético de hacerlo es mucho más alto cuanto más lejana está cualquier memoria de cualquier procesador como ya os hemos comentado varias veces.

Por lo que la gran novedad de NVIDIA para Lovelace estaría en el añadido de un nivel adicional de caché, la cual haría la misma función que la Infinity Cache y pasaría a ser un punto en común entre RDNA 3 y Lovelace. Las pistas sobre el añadido de una gran caché L3 vienen de un paper reciente de NVIDIA y tendría todo el sentido del mundo, ya que es una forma de no requerir grandes anchos de bandas externos. Tenemos el caso de la AMD RX 6000 donde sus modelos más potentes utilizan un bus de 256 bits.

El añadido de la caché L3 en Lovelace y el aumento de la misma en RDNA 3 es lo que nos hace pensar que la configuración de 144 SM para Lovelace podría ser una exageración por malinterpretación de la información que ha dejado caer NVIDIA, pero, repetimos, puede que nos equivoquemos. En todo caso, no nos podemos olvidar que uno de los puntos fuertes del nodo de 5 nm de TSMC

¿Para qué quiere NVIDIA una caché L3 en Lovelace?

¿Pero qué sentido tiene para NVIDIA hacer lo mismo que AMD? Aquí viene una de las claves al rendimiento, las GPU actuales de NVIDIA desde Maxwell hasta el día de hoy utilizan lo que se llama el Tiled Caching, el cual consiste en rasterizar la escena en la caché L2 de manera directa. Por lo que es muy parecido al Tile Rendering, pero con dos diferencias muy importantes:

  • El Tile Rendering procesa los tiles dentro de una memoria embebida que es controlada por el hardware, por lo que los datos no abandonan de manera aleatoria hasta que el tile ha sido terminado.
  • El Tile Rendering ordena la geometría de la escena y genera una lista de pantalla nueva por cada tile de la misma antes del rasterizado de los triángulos. El Tiled Caching no lo hace.

Dicho de otra manera, el Tiled Caching es un híbrido que en la primera mitad del pipeline actúa con una GPU convencional y la otra mitad como un Tile Renderer pero limitado al depender de una caché, por lo que muchas veces los datos van para abajo, lo que supone en muchos sistemas que van a la DRAM. ¿La solución? Añades una caché muy grande que haga de colchón. Todo sigue operando sobre la caché L2, pero dicha caché L3 está para asegurarse que podamos recuperar los datos más rápido y sin un consumo energético por las nubes.

Lo que AMD le copiará a Lovelace en RDNA 3

AMD RDNA 3 GPU

En cuanto a RDNA 3 veremos como van adoptar varias ideas de las actuales NVIDIA RTX 30.

  • El ratio de ALUs en FP32 por unidad shader se duplicará, pasando de ser de 64 a 128, igualando a AMD con NVIDIA en esta cifra.
  • Nueva Ray Accelerator Unit, la cual puede atravesar el árbol BVH sin depender de la unidad shader, esto será una mejora enorme en el rendimiento del Ray Tracing.
  • La Matrix Core Unit de los CDNA será integrada en RDNA 3, esto permitirá algoritmos basados en redes neuronales convolucionales similares al DLSS de NVIDIA como el que está desarrollando Microsoft.

Por otro lado van a haber ciertos cambios internos, por ejemplo el modo Wave64 que daba compatibilidad con GCN y ha sido clave para la retrocompatibilidad hacia atrás de las Xbox Series X y S, así como de PlayStation 5 pues desaparecerá en RDNA 3 dirá definitivamente adiós.

¡Sé el primero en comentar!