Una de las claves que convirtieron a NVIDIA de ser una empresa dedicada a hacer tarjetas para juegos a convertirse en el gigante que son ahora son los núcleos CUDA, una pieza fundamental que se encuentra en todos los chips gráficos de NVIDIA, ya sean estos dedicados o integrados. En este artículo vamos a ahondar profundamente en los núcleos CUDA para contarte en qué consisten y cómo funcionan.
Al leer las especificaciones de cualquier tarjeta gráfica de NVIDIA habrás visto repetidas veces la mención de los llamados núcleos CUDA en medio de las especificaciones. ¿A que hace referencia este término y que relación tienen con la potencia de la tarjeta gráfica y, por tanto, con la capacidad de mover gráficos?, ¿Se trata de un concepto exclusivo del hardware de NVIDIA o en su defecto es el clásico movimiento de branding tecnológico? Veamos que es esta particular tecnología que lleva en las GPU de NVIDIA desde ya quince años.
¿Qué significa CUDA?
CUDA es un acrónimo de Compute Unified Device Architecture y hace referencia a la plataforma de GPGPU de NVIDIA. Esto significa que con CUDA nos referimos a la ejecución no solo de programas relacionados con la generación de gráficos en los juegos, sino de propósito general, lo que permite utilizar la alta potencia de cálculo de las tarjetas gráficas para acelerar ciertas tareas en paralelo donde una CPU convencional es menos eficiente.
Existe desde hace años un ecosistema de aplicaciones y herramientas alrededor de CUDA centrado en el mundo científico y la ingeniería y en ramas distintas de cada uno. Desde la medicina hasta en el diseño de automóviles. Lo cual le permitió crecer a NVIDIA más allá del hardware para juegos de PC y ampliar su cuota de mercado potencial.
CUDA es más bien es una filosofía a la hora de programar algoritmos que se ejecutarán en una GPU de NVIDIA, aunque también hay posibilidades de hacerlo en un procesador central e incluso en un chip de la competencia. En la actualidad existen diversos lenguajes de programación que tienen las extensiones CUDA correspondientes. Entre los que se incluyen: C, C++, Fortran, Python y MATLAB.
¿Qué son los CUDA Cores?
En el mundo del hardware usamos la palabra núcleo como sinónimo de un procesador y es aquí donde el término núcleos CUDA entra en conflicto con el saber general. Imaginad por un momento que un fabricante de motores de coches os vende un motor de 16 válvulas y los marca como “16 motores”. Pues bien, NVIDIA llama núcleos a las unidades encargadas de realizar los cálculos matemáticos, lo que en todo procesador se llaman unidades aritmético-lógicas o ALU en inglés es lo que son los núcleos CUDA en una GPU de NVIDIA. En concreto, se suelen contar las unidades con la capacidad de operar con números en coma flotante de 32 bits de precisión.
En el caso de las tarjetas de NVIDIA, lo que es el equivalente real a un núcleo o procesador son los llamados SM. Así, por ejemplo, una RTX 3090 Ti pese a tener 10.752 núcleos CUDA realmente tiene 84 núcleos reales, dado que esa es la cifra de SM reales. Pensad que un procesador ha de ser capaz de ejecutar el ciclo de instrucción al completo por sí mismo y no una sola parte, como es el caso de los mal llamados «núcleos CUDA».
Los diferentes tipos de núcleos CUDA
Por lo general llamamos a las unidades de coma flotante con precisión de 32 bits como núcleos CUDA, pero también se engloban dentro de la definición otra tipo de unidades, las cuales son:
- Unidades ALU con la capacidad de trabajar con números de coma flotante de doble precisión, es decir de 64 bits.
- Las unidades de enteros de 32 bits.
Debido a que las GPU no utilizan un sistema de paralelismo con respecto a las instrucciones, lo que se hace es utilizar ejecución concurrente. Donde una unidad de un tipo puede reemplazar a la de otro tipo en la ejecución de una instrucción. Esto es una habilidad que los chips de NVIDIA tienen desde la arquitectura Volta en adelante, en el caso de los sistemas de sobremesa, desde la RTX 20.
En cambio, NO SON NÚCLEOS CUDA, las siguientes unidades de los SM en la GPU:
- Tensor Cores, los cuales se encargan de ejecutar operaciones con matrices. En propósito general se usan para la IA y en gráficos tienen utilidades como el DLSS para aumentar la resolución de forma automática.
- RT Cores, que calculan las intersecciones de los rayos por la escena durante el Ray Tracing.
- SFU, que tienen la capacidad de ejecutar instrucciones matemáticas complejas a más velocidad que las ALU convencionales. Entre las instrucciones soportadas se incluyen operaciones trigonométricas, raíces cuadradas, potencias, logaritmos, etcétera.
Las cuales, pese a ser también unidades de aritmético-lógicas, no son contadas por NVIDIA como tales.
¿Cómo funcionan los núcleos CUDA?
En términos generales los núcleos CUDA funcionan de la misma manera que cualquier unidad de este tipo, si hablamos más específicamente hemos de entender lo que para un chip gráfico contemporáneo es un hilo de ejecución y separarlo conceptualmente del mismo concepto en un procesador central.
En un programa ejecutado en una CPU, un hilo de ejecución es un programa con una serie de instrucciones que realizan una tarea concreta. Por otro lado, en una GPU cada dato tiene su propio hilo de ejecución. Esto significa que cada vértice, polígono, partícula, píxel, fragmento, téxeles o cualquier otra primitiva gráfica tienen su propio hilo de ejecución que se ejecuta en uno de los núcleos CUDA.
¿Cómo se ejecutan las instrucciones en núcleo CUDA?
Además, la forma de ejecutar los hilos de ejecución, y esto es en general en todas las GPU, es usando una variante del algoritmo Round-Robin. El cual consiste en:
- Las instrucciones se clasifican en grupos según la cantidad de ciclos de reloj que tardan en ejecutarse desde cada una de las ALU/Stream Processors/núcleos CUDA.
- Si la instrucción en un hilo de ejecución no se ha ejecutado en el tiempo determinado, entonces esta se mueve a la cola y se ejecuta la siguiente de la lista. La cual no tiene por qué corresponder al mismo hilo de ejecución de la primera.
Hay que tener en cuenta que las escenas complejas en 3D están compuestas a día de hoy por millones de elementos visuales para formar las complejas escenas y que se formen a una velocidad lo suficientemente rápida. Por lo que los núcleos CUDA son la base de conseguir procesar en paralelo y en gran velocidad todos esos elementos.
Su gran ventaja consiste en que ejecutan los datos que se encuentran dentro de los registros y, por tanto, de la memoria interna de cada SM de manera directa. Por lo que no contienen instrucciones de acceso directo a la VRAM. Más bien, todo el ecosistema está pensado para que los hilos de ejecución sean llevados desde la memoria a cada uno de los núcleos de la GPU. De esta manera se evitan los atascos en el acceso a la memoria. Esto implica un cambio respecto al modelo tradicional de acceso a la memoria. Aparte de que cada uno de los SM donde se encuentran los núcleos CUDA son mucho más simples en muchas funciones que un núcleo de CPU.
Los núcleos CUDA no pueden ejecutar programas convencionales
Los hilos de ejecución que ejecutaran los núcleos CUDA son creados y gestionados por el procesador central del sistema y son creados en grupos por parte de la API al enviar las listas de comandos gráficos o para computación. Cuando el procesador de comandos del chip gráfico lee las listas de comandos, estos se encuentran clasificados en bloques que son distribuidos cada uno de ellos a un SM o núcleo real distinto. Desde allí, el planificador interno desgrana los hilos de ejecución según el tipo de instrucción y los agrupa para irlos ejecutando.
Esto significa que no pueden ejecutar programas convencionales, debido a esta particular forma de funcionar de los núcleos en las GPU de las tarjetas gráficas, ya que su naturaleza se lo impide. Es por ello que no podéis instalar ningún sistema operativo ni ejecutar ningún programa convencional en ellos.
NVIDIA CUDA vs AMD Stream Processors, ¿en qué se diferencian?
Es bastante habitual que cada fabricante llame a su tecnología (o como es en este caso, su «tuneo») de una forma diferente para así precisamente diferenciarse de la competencia, aunque en realidad sean exactamente lo mismo. Por este motivo, los núcleos CUDA y los Stream Processors no se diferencian en nada, desde el momento en que AMD no puede usar la marca registrada CUDA al ser propiedad de su rival, usa el de Stream Processors. Cuyo uso también es incorrecto y justo por los mismos motivos.
Por cierto, un Stream Processor o Procesador de Caudal en su correcta definición es todo aquel procesador que depende directamente del ancho de banda de su memoria RAM asociada y no de la latencia. Así pues, un chip gráfico o GPU lo es, pero, en cambio, una CPU que depende más de la latencia no. Por otro lado, desde el momento en que los chips de NVIDIA y AMD entienden binarios distintos es imposible ejecutar un programa CUDA en una GPU que no sea de NVIDIA.
Núcleos NVIDIA CUDA | AMD Stream Processors | |
---|---|---|
¿Qué son? | Unidades ALU | Unidades ALU |
¿Dónde se encuentran? | En las GPU de NVIDIA | En las GPU de AMD |
¿Pueden ejecutar programas CUDA? | Si | No |