¿Por qué las GPUs requieren memorias con más ancho de banda que las CPUs?

Si hay algo que llama la atención de las tarjetas gráficas es la enorme velocidad que llevan sus memorias, entendiendo como velocidad la cantidad de datos que transmiten por segundo, es decir, lo que se conoce como ancho de banda. ¿Pero cuáles son los motivos que llevan a que las GPUs necesiten que el ancho de banda de la VRAM sea tan grande? Os los explicamos.

A continuación os vamos a explicar la teoría que hay detrás del hecho de que las tarjetas gráficas utilicen memorias especiales con una alta velocidad de transferencia, algunos conceptos muchos ya los conoceréis de antemano, mientras que otros os serán desconocidos porque no suelen ser comentados en el marketing de las tarjetas gráficas.

Los anchos de banda entre la GPU y la VRAM

PCB-Routing

La GPU utiliza varios anchos de banda para renderizar una escena en 3D, los cuales vamos a enumerar a continuación:

  • Color Buffer (Bc): Forma parte del llamado Backbuffer o búfer trasero sobre el que la GPU dibuja la escena. En él cada píxel tiene los componentes RGBA, si el renderizado es en diferido entonces se generan varios búferes para generar el G-Buffer. En las APIs actuales las GPUs soportan hasta 8 búferes al mismo tiempo de este tipo.
  • Depth Buffer (Bz): También conocido como Z-Buffer, es el búfer donde se almacena la posición de los píxeles de cada objeto respecto a la cámara. se combina con el Stencil Buffer. A diferencia del Color Buffer este no es generado durante la etapa posterior al texturizado, sino en la anterior, la rasterización.
  • Texturizado (Bt): Las GPUs utilizan mapas de texturas tan grandes que no caben en la memoria y han de ser importados desde la VRAM, se trata de una operación de solo lectura. Por otro lado, los efectos de postprocesado leen el búfer de imagen como si fuesen texturas.

Esto queda resumido en el siguiente diagrama:

Diagrama_BW_GPU

Dado que los chips de memoria VRAM son Full Duplex y transmiten tanto en lectura como en escritura al mismo tiempo, el ancho de banda es el mismo en ambos sentidos. Precisamente la parte del pipeline gráfico en la que más procesamiento se hace es durante el texturizado, por lo que eso es una de las primeras explicaciones por las cuales las GPUs requieren un alto ancho de anda.

En lo que a los datos utilizados durante el proceso previo al rasterizado, el calculo de la geometría de la escena, estos son lo suficientemente bajos como para no resultar en una enorme cantidad de memoria utilizada e influenciar en el tipo de memoria utilizado como VRAM.

El problema del Overdraw

Last of Us Overdraw

El algoritmo utilizado para renderizar una escena es la rasterización, también llamada algoritmo z-buffer o algoritmo del pintor, el cual en su forma base tiene la siguiente estructura: por cada primitiva en la escena, por cada píxel cubierto por la primitiva, marca el píxel más cercano a la cámara y lo almacena en el z-buffer.

Esto provoca que, si varios objetos están en una misma posición del eje de coordenadas X e Y respecto a la cámara, pero en diferente posición respecto al eje Z entonces los píxeles de cada uno de ellos se dibujen en el búfer de imagen final y acaben por procesarse varias veces. A este efecto se le llama overdraw o sobredibujado por el hecho que la GPU pinta y repinta píxeles en una misma posición.

Ahora bien, algunos estaréis pensando y con razón lo siguiente: ¿Sí el búfer de profundidad se genera antes del texturizado como es que no se descartan los píxeles en dicha etapa? En realidad, hay técnicas para eso, pero en dicha etapa desconocemos por completo el color de cada píxel y si un objeto es semitransparente o no, por lo que las GPUs no pueden descartar todos los píxeles de una escena en la que haya un solo objeto transparente, ya que entonces su representación sería incorrecta.

Middle Sort vs Last Sort

Last Sort

El proceso de ir comprobando los píxeles uno por uno para ver si son visibles o no requiere circuitería extra en las GPUs y que el proceso de renderizado se vea afectado por ello. La idea con una GPU es la de la potencia bruta sin tener en cuenta otros elementos, si hay que hacer alguna optimización esto se deja a la parte del hardware, es por ello que la comprobación de que un píxel ha de ir al búfer de imagen o no se hace al final del proceso, lo que se llama Last Sort.

Middle Sort

Mientras que, si los objetos se ordenan durante la fase de rasterizado, utilizando el Depth Buffer como referencia, entonces lo llamamos Middle Sort por ocurrir justo en medio del pipeline gráfico.

La segunda técnica evita el overdraw, pero como hemos visto antes hay problemas cuando una escena tiene transparencias. ¿Y que utilizan las GPUs actuales? Pues ambas, ya que los desarrolladores pueden escoger que tipo escoger. La diferencia es que en Middle Sort no hay overdraw.

Ancho de banda y VRAM: el overdraw

Grárica Overdraw

La lógica detrás del overdraw es que el primer pixel en una posición (x,y) se dibujará en el búfer de imagen si o si, el segundo bajo la misma posición tendrá un 50% de posibilidades de tener un valor Z mayor o un 50% de posibilidades de tener uno menor y por tanto se escribirá en el búfer final, el tercero tiene 1/3 de posibilidades de existir, el cuarto de 1/4.

A esto se le llama serie armónica:

H(n)=1+1/2+1/3+1/4… 1/n

¿Por qué es importante esto? Pues por el hecho que pese a que incluso los píxeles que son descartados por el overdraw es realmente grande, se llega al punto en que un overdraw masivo no resulta en una enorme cantidad de píxeles siendo dibujados en el Color Buffer, ya que si el valor z de ese píxel ya texturizado es mayor que uno que se encuentra en el búfer de imagen entonces este es descartado y no cuenta en el ancho de banda del Color Buffer, aunque haya sido previamente texturizado.

Ancho de banda de la VRAM: Mecanismos de compresión

Delta Color Compression

En los últimos años han aparecido los llamados Delta Color Compression o DCC, os recomendamos buscar el artículo que hicimos sobre este tema. Estas técnicas se basan en comprimir el tamaño del Color Buffer de tal manera que ocupe mucho menos y para hacerlo lo que hacen es decirle a la GPU que cada píxel tiene un valor de + n bits, donde n es la diferencia entre la imagen actual y la anterior.

Otro de los elementos es la compresión de texturas, lo cual es distinto al DCC y esta es utilizada cuando se genera un Color Buffer que luego queremos recuperar para realizar efectos de postprocesado. El problema es que la imagen que utiliza compresión de texturas no es entendida por la unidad que lee la imagen final y la envía a pantalla.

Ancho de banda y VRAM: Tile Rendering

Tile Rendering

En el Tile Rendering tanto el Color Buffer como el Depth Buffer se procesan internamente en el chip, por lo que esos anchos de banda no se tienen en cuenta. De ahí a que las GPUs que utilizan esta técnica como las utilizadas en los smartphones no requieran de tanto ancho de banda y puedan funcionar con memorias de mucho menor ancho de banda.

No obstante los Tile Renderers tienen una serie de contratiempos que hacen que tengan menos potencia bruta que las GPUS que no utilizan esa forma de renderizar la escena.

Conclusiones

VRAM GPU Nvidia

Llegar a adivinar el ancho de banda que utilizan cada uno de los juegos es difícil, por eso existen herramientas como NSight de NVIDIA y el PIX de Microsoft, los cuales no solo miden el nivel de carga computacional en cada una de las partes de la GPU sino también el caudal del ancho de banda, esto les permite a los desarrolladores optimizar en el uso de la VRAM.

El motivo de ello es que en el caso de las escenas con overdraw ellos no pueden predecir cual será la carga de cada uno de los píxeles en un fotograma. Tanto para los arquitectos de hardware como para los ingenieros de software lo mejor es no complicarse la vida y poner la VRAM más rápida dentro de los costes estipulados.

Lo que sí que se tiene en cuenta es el ratio entre el ancho de banda y la tasa de relleno teórica, el cual consiste en dividir el ancho de banda por la precisión por píxel y compararla con la tasa de relleno teórica de la GPU, pero es un factor que cada vez se tiene menos en cuenta, especialmente desde que las GPUs ya no dibujan los píxeles ya texturizados directamente en la VRAM sino que lo que hacen es escribirlos en la caché L2 de la propia GPU, reduciendo así el impacto sobre la VRAM.