¿Una GPU se gestiona a sí misma? Sí, y así es como lo hace

Una GPU en realidad es un tipo de procesador sumamente complejo, un sistema heterogéneo compuesto por varios tipos de unidades diferentes que han de ir coordinadas para dar un resultado coherente. En este artículo os vamos a describir los procesadores de comandos, la parte de la GPU encargada de dicha tarea.

En toda GPU hay siempre una parte central que independientemente de la arquitectura y la marca que hablemos es común en todas ellas, se trata de los procesadores de comandos, la unidad encargada de gestionar de manera automática el funcionamiento de las decenas de unidades distintas que hay en una GPU.

¿Qué es un procesador de comandos?

NVIDIA GPU

El procesador de comandos de una GPU es un microcontrolador encargado de leer la lista de pantalla generada por la CPU, para hacerlo hace servir la unidad DMA en la propia GPU para acceder no a la VRAM sino a la RAM principal del sistema donde se almacena dicha lista de comandos. Tras encontrar la lista de pantalla en la RAM la copia en la memoria interna del microcontrolador.

La lista de comandos incluye todas las instrucciones que han de ejecutar las diferentes unidades de una GPU para renderizar una imagen, ya sea en 2D o en 3D, pero desde la llegada de DirectX 11 al PC llegaron los llamados Compute Shaders, esto son programas shader que no están asociados al pipeline gráfico y que permiten utilizar la GPU para resolver algoritmos en los que la CPU es menos eficiente.

A día de hoy una GPU no solamente se utiliza para renderizar impresionantes gráficos para videojuegos, tiene otras muchas utilidades y se utiliza en varios mercados distintos, pero la evolución de las tarjetas gráficas hacia dichos mercados ha ido en paralelo con la evolución del procesador de comandos y sus posibilidades.

¿Qué significa computación asíncrona?

ASYNC Compute

Primero de todo, hay que aclarar que los Compute Shaders también se utilizan en el caso del pipeline gráfico, especialmente en efectos de post-procesado y pre-procesado de la imagen. Por ejemplo son utilizados para calcular la iluminación en el renderizado en diferido. En esos casos debido a que la ejecución de los Compute Shaders depende de la ejecución del resto del pipeline gráfico decimos que esta sincronizada, pero existen tareas que se benefician del uso de la GPU y que no forman parte del renderizado de la escena, por tanto funcionan de manera asíncrona.

Procesadores Comandos ASYNC Compute

Para poder visualizarlo mejor, solo necesitamos ver dos situaciones distintas:

  • En la primera estamos haciendo pan pero nos encontramos que nos falta harina y por tanto le pedimos a alguien que no las vaya a buscar, esto hace que no podamos hacer nada mientras esperamos que nos traigan la harina.
  • La segunda situación viene de la primera, debido a que no podemos hacer pan entonces decidimos lavar los platos. Algo que podemos hacer en cualquier momento y que no tiene nada que ver.

Los diseñadores de las diferentes GPUs se dieron cuenta de que en todas las GPUs existían burbujas en la ejecución donde algunas partes de la GPU de estas no hacían nada en pequeños periodos de tiempo. Es por ello que hace unos años decidieron implementar la computación asíncrona y colaborar en el desarrollo de APIs que hacen uso de estas, como por ejemplo DirectX 12 y Vulkan.

¿Qué son las listas de comandos?

Procesadores Comandos Tipos

A día de hoy, es la propia CPU la encargada de realizar las diferentes listas de comandos, ya sea a través de un solo núcleo o de varios núcleos para crearlas en paralelo. En videojuegos se suele asignar un núcleo para que cree la lista de gráficos, la cual es mucho más compleja que las demás y suele tener como origen un solo anillo en memoria. Las listas de comandos para computación son mucho más sencillas, buscan que las unidades shader solucionen un problema concreto y den la solución.

En el caso de las listas de comandos para computación estas suelen estar compuestas por varias listas distintas, las cuales pueden ser resueltas de manera simultánea entre ellas y respecto a la lista de pantalla. El motivo de ello es que son asíncronas y por tanto no dependen unas de las otras para funcionar, esto las hace totalmente independientes y permite aprovechar partes de la GPU que de otra manera se verían desaprovechadas por inactividad.

El otro tipo de comandos son los relacionados con los accesos a la RAM o la VRAM del sistema, dichos comandos se ejecutan tanto en computación como en gráficos. En el caso de los gráficos las operaciones a memoria se hacen única y exclusivamente en la VRAM, en cambio en modo computación los datos se pueden importar o exportar tanto en la RAM como en la VRAM, ya que en algunos casos la GPU da respuesta a una petición de cálculo de la CPU.

APIs gráficas y procesadores de comandos

DX11 vs DX12

Originalmente la lista de gráficos y las de computación se gestionaban juntas, lo cual era totalmente ineficiente. No fue hasta la salida de GPUs con procesadores de comandos separados para gráficos y computación, con la capacidad de funcionar de manera síncrona y asíncrona entre ellos, que estas no fueron capaces de gestionar en paralelo varias listas de comandos distintas.

Las listas de comandos son llamadas también búferes en anillo, el motivo es que a cada procesador de comandos se le asigna una o varias direcciones de memoria en una lista, cuando llegue a la dirección de memoria a la que puede acceder entonces vuelve a empezar el búcle de nuevo. Es como si diera vueltas en círculos. Y por eso lo llamamos búfer en anillo o Ring Bufffer en inglés. Es por eso que los hemos representado en forma de pequeños anillos en el diagrama de más arriba.

Tipos de Procesadores de Comandos

GPU AMD VRAM

Hay diferentes tipos de procesadores de comandos, cada uno tiene su utilidad y depende del tipo de mercado para el que vaya dirigido la tarjeta gráfica se hace uso de un tipo de procesador de comandos u otro:

  • Solo gráficos: se encuentra en total desuso a tiempo de hoy, ya que antiguamente había un solo procesador de comandos y era para gráficos en exclusiva.
  • Con planificador inteligente: una de las cosas a la hora de manejar varias listas de comandos en paralelo, en concreto para computación, es que ha de ser la propia CPU del sistema la que en general coordine la ejecución de las diferentes listas de comandos. Un procesador de comandos con planificador inteligente es capaz de reordenar a tiempo real la lista de comandos sin intervención de la CPU.
  • Solo computación: se utilizan en la computación científica y de alto rendimiento, estas GPUs no pueden generar gráficos al no tener un procesador de comandos gráfico o estar este inactivo. Es el caso de las GPU CDNA para las AMD Instinct, las diferentes NVIDIA Tesla y las diferentes tarjetas gráficas para computación.
  • Virtualizados: utilizados en los centros de datos, en especial para la computación en la nube. Permiten manejar varias listas de comandos gráficos al mismo tiempo, las cuales son independientes las unas de las otras. Cada lista corresponde a una máquina virtual que ejecuta un sistema operativo distinto para un usuario distinto de manera remota.

Interacción del procesador de comandos con el resto de la GPU

Procesador de Comandos Unidad Shader

El procesador de comandos no procesa ningún programa, sino que es un gran organizador que se encarga de distribuir las tareas entre las diferentes unidades disponibles en cada momento. Si hablamos del procesador de comandos gráficos entonces este tendrá acceso no solo a las unidades shader de la GPU, sino también a las unidades de función fija. En computación en cambio tiene acceso solo a las unidades shader y la forma de operar de los procesadores de comandos para la computación es distinta.

¿Cómo se coordinan las diferentes unidades entre sí? Pues bien, cada unidad de función fija y unidad shader tiene una especie de buzón que puede enviar y recibir mensajes en dos sentidos distintos:

  • A la hora de exportar datos, la unidad shader puede exportar hacía un nivel inferior de la caché, hacía una unidad de función fija, hacía otra unidad shader o incluso hacía la RAM que tenga asignada, ya sea un tipo de RAM o de VRAM.
  • En cuanto a la importación de datos, es el procesador de comandos y la unidad de envío los encargados de enviar los datos a la unidad shader. Cada cierto tiempo el procesador de comandos es el que llena las caches de datos e instrucciones de cada unidad shader con las tareas que tendrá que realizar, ya que las unidades shader no tienen la capacidad de captar instrucciones como una CPU.

No hace falta aclarar que en la lista de instrucciones y datos que envía el procesador de comandos a cada unidad existe una orden final que le dice a donde ha de exportar esos datos una vez ha terminado de calcularlos. Que unidades reciben las listas de datos y/o instrucciones a procesar y hacía donde son enviadas son cosa del procesador de comandos, el cual realiza la tarea sin que nos tengamos que preocupar.