Con la presentación de las RX 6000 de AMD está claro que el Ray Tracing más que ser un capricho de NVIDIA ha llegado para quedarse como un estándar dentro del hardware gráfico, y también está claro que será la forma de renderizar estándar en el futuro. Aun así, de momento nos espera un tiempo de transición en el que ambas empresas lideres irán realizando propuestas en ese sentido. ¿Qué tal se presenta el planteamiento de AMD con sus RX 6000?
Cuando hace un año AMD presento su nueva arquitectura gráfica RDNA nos llevamos una de cal y una de arena; las buenas noticias vinieron en forma de una nueva arquitectura gráfica después más de un lustro con la arquitectura GCN, pero las malas noticias vinieron en forma de la carencia de hardware dedicado para lo que se llama Real Time Ray Tracing o trazado de rayos a tiempo real. Pero hace unos meses AMD confirmó que la arquitectura RDNA 2 sí que estará equipada con este tipo de unidades, por lo que le van a poder hacer la competencia a NVIDIA en este aspecto, aunque su funcionamiento es algo distinto a la propuesta de NVIDIA.
La unidad de intersección en las RX 6000: la clave para el Ray Tracing
Si observamos el pipeline del trazado de rayos veremos que independientemente del hardware es siempre el mismo, es un proceso que se repite de manera reiterativa donde una enorme cantidad de veces se calcula la intersección entre el rayo y el objeto. Este cálculo repetitivo sale más a cuenta realizarlo en unidades especializadas en vez de hacerlo en los propios shaders.
Dado que las unidades de AMD y NVIDIA son muy parecidas os recomendamos leer el tutorial en este mismo sitio web titulado «¿Qué son y cómo funcionan los RT Cores para Ray Tracing?» donde se habla del funcionamiento de la solución de NVIDIA como complemento a este tutorial para que podáis tener una idea completa de las diferencias entre ambos planteamientos.
Cada una de las unidades de intersección se encuentran dentro de cada Compute Unit, los motivos de ellos son los siguientes:
- Necesitan tener acceso al árbol BVH que hay en la memoria, por eso necesitan poder recorrer el sistema de cachés de la GPU y al igual que las unidades SIMD que ejecutan los programas shader necesitan el acceso a toda la jerarquía de cachés.
- Tienen que estar cerca de las unidades SIMD porque estas son las que dependen del resultado de la unidad de intersección para saber qué tipo de shader aplican sobre los objetos en el Ray Tracing.
AMD ha optado por una solución distinta: integrar la unidad de intersección en la unidad de filtrado de texturas o al menos dejar que compartan el acceso a la caché de datos. Dicha información la conocemos de dos fuentes distintas, la primera la presentación en el Hot Chips de 2020 realizada por Microsoft acerca del SoC de su Xbox Series X, ya que tiene integrada una GPU con arquitectura RDNA 2, la misma que las tarjetas gráficas RX 6000 de AMD.
No olvidemos que la propia AMD confirmó que la solución de cara al Ray Tracing en consolas de siguiente generación con sus GPUs y en PC es exactamente la misma.
La segunda fuente es una patente de la propia AMD donde se habla de que la unidad de intersección para el Ray Tracing está en la unidad de texturas, y esto ha llevado a la confusión de que la unidad de texturas no puede calcular la intersección de los rayos y texturizar al mismo tiempo, pero en realidad el texturizado solo se aplica en una etapa del pipeline gráfico que es la del texturizado de la escena donde actúan los píxel shaders, por lo que fuera de esa etapa pocas veces dichas unidades son necesarias.
La unidad de texturas simplemente aplica el filtro bilineal, y esto significa que coge 4 muestras colindantes por píxel y realiza una interpolación entre estas. Toda GPU contemporánea suele tener 4 unidades de texturas acompañadas de 16 unidades Load/Store con las que acceden a la caché de datos de la Compute Unit o el SM.
La única diferencia con la solución de NVIDIA para el cÁlculo de la intersección en el Ray Tracing es que en las RX 6000 AMD el acceso a la caché de datos a través de las unidades L/S está conmutado entre las unidades de filtraje de texturas y la unidad de intersección.
¿Por qué la unidad de intersección para el Ray Tracing está en la CU?
Las unidades de ejecución dentro de la GPU suelen trabajar con instrucciones por lo general del tipo registro-registro por lo que carecen de un mecanismo complejo para acceder a la jerarquía de memoria, y esto les permite ser núcleos más simples que los de una CPU y colocar una mayor cantidad de ellos dentro de cada chip. La forma que tienen las unidades SIMD en la Compute Unit de acceder a la jerarquía de memoria, compuesta por las cachés internas de la GPU y la VRAM, es utilizar las unidades Load/Store para ello.
Casi todos los tipos de programas shader suelen operar en los registros, pero hay un tipo que son los píxel o shaders que sí que requieren el acceso a la jerarquía de memoria, ya que trabajan con las ingentes cantidades de datos de las texturas, y de ahí a que las unidades de texturas tengan junto a las unidades SIMD acceso a la jerarquía de memoria.
En el caso concreto del Ray Tracing necesitamos almacenar la posición de los objetos de la escena en una estructura de datos espacial a la que llamamos BVH. Esa estructura de datos no cabe en la memoria interna de la GPU por lo que la unidad de intersección necesita utilizar la jerarquía de memoria, lo que lleva a que estas unidades estén se encuentren también conectadas a la caché y a la VRAM.
La RX 6000 esta más orientada a los requisitos de DirectX 12 Ultimate
Aún falta mucho tiempo para que el trazado de rayos reemplace a la rasterización y queda un largo camino donde las predicciones más optimistas hablan de un mínimo de tres años vista. El motivo de ello es que el Ray Tracing requiere una potencia de cálculo muy alta y hay escenas en las que incluso la GPU más potente se ahogaría por completo intentando conseguir el rendimiento adecuado.
En el Ray Tracing tradicional un rayo rebota en varios objetos hasta que se queda sin energía o simplemente sale de escena; para entender lo de la energía hay que tener en cuenta que cada objeto tiene un cociente de refracción que va de 0 a 1 y que es la cantidad de luz que absorben y reflejan. Un objeto con un cociente de refracción de 0 absorbe toda la luz al completo y no la emitirá, mientras que un objeto con un cociente de refracción 1 emitirá toda la luz que le llegue.
Cada vez que un rayo impacta sobre un objeto crea nuevos rayos indirectos y así sucesivamente mientras el cociente de refracción no sea lo suficientemente bajo. Obviamente se puede entender que esto es una cantidad ingente de intersecciones que calcular que llegan a superar la capacidad de las unidades de intersección.
Para evitar esto, en las APIs como DX12 Ultimate de Microsoft o Vulkan, se ha añadido un nuevo tipo de programa shader: el Ray Generation Shader, el cual consiste en que la generación de nuevos rayos no es automática sino que ha de ser invocada explícitamente por el código, lo que se traduce en que en los primeros años veremos objetos en los juegos que no refractaran rayos con tal de disminuir la cantidad de rayos en escena y poder conseguir tasas de fotogramas estables.
Esto significa que cuando un rayo impacta sobre un objeto y ha de continuar su trayectoria generando nuevos rayos entonces la unidad de intersección le ha de preguntar al programa shader encargado de coordinar el recorrido qué ha de hacer.
¿Es mejor la solución para Ray Tracing de las RX 6000 que la las RTX 3000?
Pues no lo sabemos a ciencia cierta ya que por el momento tanto una empresa como la otra han optado por dar métricas distintas, y en el caso de AMD la información que tenemos de manera indirecta vía Microsoft es que las unidades de intersección pueden realizar 4 Ray Ops por ciclo, pero no sabemos a qué equivalen esos Ray Op exactamente, lo único que sabemos también de la mano de Microsoft es que las unidades de intersección de la GPU de su consola equivalen a 25 TFLOPS, pero desconocemos el contexto de dicha cifra.
En el caso de NVIDIA ellos afirman que los RT Cores de la RTX 3080 tienen una potencia combinada de 58 RT-TFLOPS, pero no sabemos si esa es la potencia de cálculo de los RT Cores por sí misma o es la potencia de cálculo que las unidades CUDA deberían alcanzar para tener el mismo rendimiento.
Sea como sea, la realidad es que solo nos podemos fiar de lo que nos dicen ambas arquitecturas y de la información que tenemos, y parece ser que las unidades de las RX 6000 son más parecidas a las de las RTX 2000 con 4 unidades de cálculo de intersección rayo-caja y 1 una unidad rayo-triángulo, pero NVIDIA en las RTX 3000 ha duplicado estas últimas por lo que la capacidad a la hora de calcular las intersecciones es algo mayor.
En cómo se traduce esto en cada juego depende de una serie de factores, pero en todo caso parece que la solución de AMD para el Ray Tracing en sus RX 6000 es lo suficientemente buena y eficiente como para ir también a las consolas de siguiente generación.