La RTX 40 más rápida podría ser 5 veces más potente que la RTX 3090 Ti
Ha pasado poco más de una semana desde que hablamos de un tema muy controvertido y totalmente especulativo por nuestra parte, concretamente desde el lunes de la semana pasada, donde nombramos tres hipótesis sobre los cambios que podría implementar NVIDIA en su organización y estructuración interna de la arquitectura Ada Lovelace y cómo afectaría a las RTX 40. Pues bien, hoy una filtración desvela hacia donde van a ir los de Huang y sobre todo, que rendimiento podría tener la RTX 40 más rápida.
Tres hipótesis con un mismo principio: habrá cambios en los SM en Ada Lovelace como arquitectura principal donde como ya adelantamos poco va a tener que ver realmente con lo visto en Hopper, confirmando con ello que NVIDIA tiene dos enfoques totalmente distintos para ambas arquitecturas y que el siguiente paso es claramente a un sistema de chiplet MCM.
Los cambios internos de Ada Lovelace para las RTX 40
De nuevo un leaker como Kopite7kimi al acecho y dentro de la filtración que acaba de ser revelada tenemos una de las hipótesis que barajamos la semana pasada. Concretamente las mejoras de esta arquitectura que dará vida a las RTX 40 se centran en una reorganización interna de los FP32 e INT32, donde el movimiento de NVIDIA es el más lógico y quizás el menos arriesgado: combinar todos los Shaders en un solo motor que englobe enteros y flotantes.
Es decir, habría un grupo de Shaders completos para FP32 e INT32, lo que podría dar como tal un recuento mayor del esperado en un número rimbombante al odio, pero menos práctico en el rendimiento real, tal y como ocurrió con las RTX 30.
kopite7kimi@kopite7kimi1. Double the subcore to improve 2*FP32 efficiency.
2. There is 4*FP32 expansion space.
That’s my thought about ADA. https://t.co/HAt48SP5RT02 de abril, 2024 • 21:44
171
4
Para entender los cambios tenemos que irnos a Pascal vs Turing como tal, ya que ahí se produjo el primer cambio. NVIDIA renunció al rendimiento en enteros para promover el FP32 en cada SM. Ampere dejó atrás el recuento de trabajo de 16 operaciones para FP32 y 16 operaciones para INT32 que tenía Turing por cada ciclo de reloj y unificó el hecho de volver a trabajar con 32 operaciones por ciclo para ambos. Debido a ello llegó la polémica del «falso» recuento de estos en Shaders, puesto que NVIDIA duplicó el número de operaciones, sí, pero no el número de Shaders como tal.
El rendimiento de la RTX 40 más rápida
El siguiente paso ahora es unificar ambos motores en uno solo con un objetivo muy claro: mejorar la eficiencia. No habrá FP64 lógicamente, pero sí que tendremos un grupo exclusivo de FP32 e INT32 que además es escalable, y aquí viene lo realmente interesante.
Aunque el diagrama muestre un solo grupo para estos, realmente si miramos bien son dos, solo que técnicamente se unifican como uno por su funcionalidad y no por su número total. La información filtrada hoy revela que estos dos grupos realmente podrían ser hasta cuatro como tal, donde dadas las capacidades para trabajar al mismo tiempo de las unidades flotantes y de enteros se especula con la friolera de 100 TFLOPS en el peor de los casos y hasta 200 TFLOPS en el mejor.
kopite7kimi@kopite7kimi@kaguyas28951930 This idea is based on some certain information I can’t tell you now.
So 100T, 150T or 200TFLOPS is possible.02 de abril, 2024 • 21:44
28
0
Por ponerlo en contexto, una RTX 3090 Ti obtiene 40 TFLOPS actualmente y ya con el sistema de recuento doble que hemos comentado más arriba, lo que significa que en el caso de que NVIDIA usase dos grupos de FP32 e INT32 unificados la supuesta RTX 4090 sería más del doble de rápida que el actual tope de gama de la compañía, mientras que en el caso de usar 4 de ellos el rendimiento se dispara a 5 veces.
Lógicamente eso implicaría un chip monstruoso en tamaño, poco probable que lo veamos, pero indica que NVIDIA tiene un as bajo la manga, posiblemente no para Ada Lovelace, pero sí para sus sucesores.