La RTX 4090 sería una locura: ¿bus de 512 bits y caché de 128 MB?

Si hace unas horas os adelantábamos las diferentes configuraciones de las RTX 40 de NVIDIA y os dejábamos caer que la RTX 4090 podría tener un bus de 512 bits con su memoria de vídeo. Ahora os lo podemos casi confirmar, así como nuevos detalles sobre la caché L2 en la arquitectura de NVIDIA y la potencial configuración que tendrá la que será sin duda la gráfica más potente en 2022.

Hablar de un bus de 512 bits para la RTX 4090 son palabras mayores, no obstante, con su configuración de 144 SM distribuidos en 12 GPC un bus de 384 bits se nos hace corto, incluso haciendo de los tipos de VRAM más rápidos que hay en el mercado. No olvidemos que la RTX 3090 y su versión Ti con su consumo de hasta 450 W sacado del conector de 12 pines no son otra cosa que una GeForce Titán, pero con otro nombre.

Desde NVIDIA llevan ya varias generaciones liderando el mercado y dejando rezagada a AMD, la cual pese a lo excelentes que es su arquitectura RDNA 2 sigue estando por detrás en ciertos aspectos en comparación con su rival. La cual va a apostar por una configuración monolítica y no por chiplets, pero no por ello menos agresiva.

¿Bus de 512 bits en la RTX 4090 de NVIDIA?

RTX 4090 Bus de 512 bits

Afirmaciones extraordinarias requieren pruebas extraordinarias y esto no lo decimos por decir, sino que dicha información se puede encontrar en los archivos que se han filtrado de la propia NVIDIA en el día de ayer. En concreto lo que nos indica un bus de 512 bits en la RTX 4090 son los 16 MB de caché L2 a los que hace referencia la imagen de arriba, en concreto en la parte del recuadro en rojo.

En las GPU la cantidad de caché L2 está relacionada con el ancho de banda con la VRAM. Así pues, en las actuales RTX 30 por cada controlador de 64 bits GDDR6 tenemos 1 MB de caché de segundo nivel. Pues bien, las caches siempre se presentan en múltiples de 2 y si dividiéramos los 16 MB por los 6 controladores de 64 bits para el bus de 384 bits no nos daría una división exacta. En cambio, si lo hacemos para 8 controladores del mismo tipo y, por tanto, con un bus de 512 bits sí. Esto significa que NVIDIA ha duplicado la cantidad de L2 por controlador de memoria en sus RTX 40 respecto a las RTX 30 en cada uno de los modelos correspondientes.

En cuanto a la cantidad de VRAM, estaríamos hablando en el caso de la RTX 4090 de configuraciones de 32 GB en modo normal y de 64 GB modo de bus compartido. La más alta hasta la fecha en una tarjeta gráfica.

¿El equivalente a la Infinity Cache en NVIDIA?

La otra interpretación de la información es que esos 16 MB correspondan ni más ni menos que cada controlador de memoria, lo que significaría que ante un bus de 512 bits estaríamos ante 128 MB de caché L2 en total. Algo que no es imposible y nos recuerda a la Infinity Cache en las RX 6000 para PC de AMD. No obstante, hay que tener en cuenta que pasar de un tamaño de pocas decenas de KB a varias decenas de MB para la búsqueda de datos en las cachés puede suponer una enorme latencia en la búsqueda de datos en dicho nivel que puede ir en contra del propósito de una jerarquía de este tipo.

COPA-GPU Multi-GPU Chiplets

Además, la Infinity Cache en AMD no se encuentra en el segundo nivel, sino en el tercer nivel precisamente para reducir la latencia en la búsqueda de datos. Y hablando de cachés de tercer nivel, no hace mucho que vimos mención a cachés de grandes tamaños en al paper de la Composable GPU de donde corresponde la imagen arriba de estas líneas. En todo caso una gran cantidad de caché L2 tampoco sería descartable desde el momento en que la A100 tiene 40 MB en total. Aunque hemos de dejar clara una cosa, si la L2 tiene ese tamaño entonces esto significaría que NVIDIA habría añadido un nivel de caché intermedio, una L1.5, pero eso es algo que entra en el terreno de la especulación y que no podemos afirmar.