EVGA no soluciona el problema en sus NVIDIA RTX 30, ¿morirá tu GPU?
Hace unos días saltó la noticia de que algunas gráficas NVIDIA RTX 30 de EVGA se «morían» al jugar a New World, a causa de un problema relacionado con la temperatura. El fabricante no tardó en anunciar el lanzamiento de un nuevo firmware para solucionar el problema, pero tal y como se ha demostrado esta solución es puro marketing y no vale para nada, en parte porque la tecnología ICX de la marca se ha quedado anticuada y lee valores erróneos. ¿Están todas las GPU de EVGA en peligro por culpa de la ineptitud del fabricante?
La tecnología ICX de EVGA sitúa una serie de sensores patentados en zonas clave del PCB de la tarjeta gráfica, algo que combinado con su firmware permite en teoría unas lecturas más precisas de la temperatura de la gráfica y permite que el sistema de refrigeración actúe en consecuencia. Sin embargo, el problema de temperatura en sus RTX 30 Series es real, y no solo eso sino que además algunas terminan estropeándose a causa de que no saltan los sistemas de seguridad.
El nuevo firmware de EVGA no soluciona el problema
Como decíamos, EVGA ha distribuido un nuevo firmware para sus tarjetas gráficas que arregla el problema de temperatura por malas lecturas de los sensores ICX, así que en este momento estamos en disposición de comparar las lecturas antes y después de instalar este nuevo firmware que supuestamente soluciona el problema. Desde hace ya bastante se han enfatizado problemas con las gráficas de EVGA, concretamente con el control de sus ventiladores y las altas revoluciones a las que se ponen sin previo aviso por culpa de una mala lectura en sus sensores.
Para empezar, veamos una captura de pantalla con HWInfo64 antes de la actualización del firmware. Por supuesto, podemos ignorar el hecho de que algunos valores se ven diferentes aquí porque el límite superior de las variables utilizadas también es menor. Sin embargo, lo que es preocupante es lo que se puede leer ocasionalmente en los registros de ICX a plena carga, denotando que el controlador de ventiladores reacciona a valores de temperatura completamente absurdos en sus 9 sensores, valores que como veréis son totalmente imposibles.
La temperatura más alta que se puede medir en condiciones ideales es de unos 6.000º C, y en comparación debéis saber que la llama de una vela alcanza los 1.400º C. Con más de 6.500º C medidos por el software resulta evidente que algo no va bien, mientras que el valor de PWM del 255% también denota un problema bastante evidente, por no hablar de esos más de 65.000 RPM a los que supuestamente gira el ventilador. Absurdo.
Y luego vino la actualización de firmware. A primera vista, los valores parecen un poco más normales pero el problema con el ventilador que de pronto se pone al máximo sin motivo sigue presente. Si escaneamos los sensores ICX vemos la misma carga y el mismo problema, pero los valores que devuelve son ligeramente diferentes, excepto porque lo que se puede leer ahora sigue estando obviamente mal.
Parece evidente que el nuevo firmware que ha distribuido EVGA para solucionar el problema es meramente cosmético, ya que no resuelve problema alguno. Aquí es donde EVGA se enfrenta realmente al desafío de tener que decidir qué hacer con su tecnología ICX, porque obviamente no funciona bien y si leemos los valores de las gráficas utilizando los sensores integrados de NVIDIA, entonces los valores sí que son correctos.
La historia de ICX y sus 9 sensores
Tenemos que echar la vista atrás hasta 2017 para ver de dónde provienen estos valores, pues la tecnología patentada ICX de EVGA no ha cambiado desde entonces. En ese momento se había demostrado que no se podía leer ningún valor de temperatura salvo el del diodo de la GPU con las herramientas habituales, por lo que a veces se ofrecían valores de temperatura de VRM u otros en programas como GPU-Z como simples valores de retorno del controlador PWM, pero no eran valores medidos reales.
En ese momento, EVGA fue el primer fabricante del sector en adoptar un enfoque inusual. Se colocaron un total de nueve sensores de temperatura en puntos estratégicos del PCB, y desde ese entonces se permitía su lectura mediante software como EVGA Precision. Para los fanáticos del control incondicional, esto supuso un verdadero paraíso, pero para el usuario normal esto no tenía demasiado sentido ya que los puntos verdaderamente relevantes son dos o tres. Pero si el marketing huele su oportunidad, que así sea.
Estos valores también se podían utilizar para el control del ventilador, como el control asíncrono que EVGA introdujo por primera vez, el cual se basa en valores medidos reales en contraste con soluciones anteriores y que hacían posible crear dos curvas de ventilador independientes para cada uno de los dos ventiladores. Eso sí, estos valores solo se podían leer con el software propietario de la marca.
La asignación de los sensores respectivos a los ventiladores era algo ilógica, porque la RAM se encuentra casi en su totalidad bajo el ventilador izquierdo, mientras que los valores del ventilador derecho deberían afectar a los controladores de voltaje. En la práctica es justo lo que sucede, porque el punto de acceso se encuentra justo entre la GPU y los VRM. Dado que la RAM se calienta bastante más que los VRM, el resultado es que enfrías mucho los MOSFET pero no la memoria.
Los valores reales medidos en los chips de memoria
Curiosamente, Micron se mantuvo bastante hermético al respecto de la memoria GDDR6(X) exclusivo de NVIDIA en primera instancia, ya que incluso la información térmica del dispositivo no se incluyó en la documentación de GDDR6. Echando un vistazo al esquema de la memoria GDDR6X que podéis ver encima de estas líneas, podemos ver el valor PT (Ptot de potencia máxima), que se suministra como potencia eléctrica y que se emite casi en su totalidad como calor generado.
Esto debería de ser alrededor de 2,5-3 vatios por módulo, lo que no parece mucho pero debido al pequeño ancho de la estructura y la densidad de calor, es un número realmente muy grande de calor. Aunque el módulo de memoria puede parecer bastante grande, en realidad es un chip muy pequeño y por lo tanto la densidad de calor que hay que disipar es enorme. Si el sensor de EVGA tiene un problema al leer el valor de temperatura, la cosa va a peor porque no se enfría adecuadamente.
¿Qué sentido tiene EVGA ICX entonces? ¿Cómo se soluciona el problema?
Desde el punto de vista del marketing, la pregunta es obvia ya que EVGA no va a querer renunciar a un aliciente de venta que no ofrece ningún otro fabricante. No obstante, desde Turing NVIDIA también ofrece un control asimétrico de los ventiladores, el cual también se basa en los valores determinados en tiempo real para la GPU (como Tjunction), la memoria y los conversores de voltaje. Esto no se puede resolver mejor técnicamente con una solución patentada basada en puntos de medición en la placa; más bien al contrario, es posible que esto empeore el problema y es lo que está pasando con las gráficas de EVGA.
Si un diseño de placa defectuoso hace que la MCU se destruya (quizá por sobretensión) y que muestre valores de lectura absurdos, entonces una solución tan superflua como EVGA ICX no tiene sentido y menos en una gráfica tan cara. Nadie lo necesita y además causa problemas, así que realmente no tiene ningún sentido, así que debería ser suficiente motivo para que EVGA enterrara esta reliquia. Ya hay valores suficientes de los sensores de las gráficas y que como hemos visto funcionan mejor que la solución de EVGA.
EVGA, entra la espada y la pared
EVGA es uno de los ensambladores predilectos de gráficas de NVIDIA, pero como fabricante que es no está exento de problemas. Siempre ha tenido una buena fama por la buena calidad de sus productos, así como por su política de garantía y servicio de atención al cliente, pero parece que en los últimos tiempos la cosa está cambiando y lo está haciendo a peor.
Para empezar, en las dos últimas generaciones de tarjetas gráficas resulta evidente que su tecnología ICX se ha quedado obsoleta, ya que no lee bien las mediciones de los sensores y hace que los ventiladores se pongan a funcionar al máximo sin motivo o todo lo contrario, que no lea valores correctos y la gráfica esté demasiado caliente, pero los ventiladores no funcionen en consonancia, lo cual está provocando que varias gráficas se estropeen por problemas de temperatura.
Si la GPU, VRAM o VRM se calientan demasiado, pero el sensor no lo está leyendo, los ventiladores no acelerarán su funcionamiento para enfriar en consonancia y, lo peor de todo, no saltarán los sistemas de protección por temperatura, y esto es precisamente lo que está provocando que algunas gráficas de EVGA se estén, literalmente, quemando.
Además de eso, y a pesar de la buena fama de su servicio post-venta, en esta última generación de gráficas RTX 30 Series y posiblemente a causa de la escasez de chips, el fabricante también está cambiando ligeramente su política de reemplazo, poniendo más trabas a los clientes y, en algunos casos, solicitando anticipos absurdos para cambiar la gráfica mediante su sistema de RMA avanzado (en este sistema, el usuario recibe una gráfica nueva antes de tener que enviar la vieja, de manera que nunca se quede sin GPU) sin embargo, hace unas semanas se supo que ahora EVGA exige un anticipo monetario muy elevado (1.800 dólares para una RTX 3090, por ejemplo), que aunque luego cuando reciban tu gráfica estropeada te lo devuelvan sigue siendo algo que no muchos usuarios pueden o están dispuestos a afrontar.
Lo que es evidente es que ahora EVGA se encuentra entre las cuerdas, y debe ser el propio fabricante quien realice el próximo movimiento pues tras el fiasco de este firmware que no soluciona nada, su buena fama puede irse al traste.