La nueva arquitectura de CPU de Intel a fondo: +19% de IPC y 16 Cores

Mucho hemos hablado de la nueva arquitectura Alder Lake de Intel y del paso que ha tomado la compañía con ella. Los cambios son radicales, se posicionan como pioneros en adoptar DDR5 y PCIe 5.0, son los primeros en llegar a los stack 3D reales y en tener tecnologías transparentes para el SO como la denominada Intel Thread Director. ¿Es esto suficiente para superar a AMD?

Lo presentado por Intel se engloba centralmente en dos partes muy bien diferenciadas: los núcleos llamados eficientes o E-Cores y los núcleos de rendimiento, ahora llamados P-Cores. El objetivo de la compañía es crear una serie de silicios que puedan escalar las cargas de trabajo en modo multinúcleo y de forma horizontal entre todo el número total de ellos. Además, hay una serie de novedades muy interesante y datos que la compañía ha aportado que son dignos de mención.

Intel Alder Lake, una arquitectura para todos los segmentos de escritorio

Intel-Architecture-Day-2021_Pressdeck_Final_EMBARGO-compressed-067

El dilema de Intel estaba claro: tenía que enfrentar a AMD y a Apple en dos sectores totalmente diferentes, el primero en el alto rendimiento y el segundo en el ratio de eficiencia y rendimiento por vatio. Lógicamente no tienen nada que ver, pero la compañía realmente tenía la opción de diversificar u optar por lo que vamos a ver a continuación.

Núcleos eficientes o E-Cores

Intel-Performance-and-Efficient-Cores

La microarquitectura de los núcleos eficientes o E-Cores es Gracemont, pensada y diseñada para la eficiencia donde lo más llamativo va a ser la cantidad de gamas de frecuencias que van a soportar, así como los bajos voltajes que reducirán el consumo de energía total.

Los Efficient-core utilizan una variedad de avances técnicos para priorizar las cargas de trabajo sin desperdiciar potencia de procesamiento y para mejorar directamente el rendimiento con características que mejoran la instrucción por ciclo (IPC):

  • La Caché de destino posee 5.000 ramas de entrada que da como resultado una predicción de rama más precisa.
  • Caché de instrucciones de 64 kilobytes para mantener las instrucciones útiles cerca sin gastar memoria ni energía del subsistema.
  • Alder Lake tiene el primer decodificador de longitud de instrucciones bajo demanda de Intel que genera información previa a la decodificación.
  • Decodificador clustered de Intel que permite decodificar hasta seis instrucciones por ciclo mientras mantiene la eficiencia energética.
  • Un back-end amplio con asignación de five-wide y eight-wide, 256 entradas out of order para Windows y 17 puertos de ejecución.
  • Tecnología de aplicación de flujo de control Intel (Intel Control-flow Enforcement Technology) y redirección de tecnología de virtualización Intel Proteccion (Intel Virtualization Technology Redirection Protection).
  • La implementación de AVX ISA, junto con nuevas extensiones para soportar operaciones integrales de Inteligencia Artificial.

Intel hace una comparación curiosa, ya que lo más lógico era medir los datos de rendimiento de Alder Lake con Rocket Lake, que es la arquitectura a la que sustituye, pero se han centrado en Skylake como tal para afirmar que su nueva arquitectura logra en rendimiento Single Core un 40% más de rendimiento con la misma potencia o el mismo rendimiento mientras consume menos del 40% de la energía.

Al mismo tiempo afirman que los núcleos eficientes ofrecen un 80% más de rendimiento y, al mismo tiempo, consumen menos energía que dos núcleos Skylake con sus cuatro subprocesos o el mismo rendimiento que estos mientras consumen un 80% menos de energía.

Núcleos de rendimiento o P-Cores

Intel-Architecture-Day-2021_Pressdeck_Final_EMBARGO-compressed-079

En cuanto a los núcleos P-Core o Performance Core de Intel llegan con la microarquitectura Golden Cove y lógicamente están diseñados para lograr el máximo rendimiento, reducir las latencias y mejorar en un solo subproceso lo que ya hacía Rocket Lake. Por ello, los cambios que cita Intel son los siguientes:

  • Más amplio: seis decodificadores (en vez de cuatro); caché µop de ocho wide (en vez de seis); seis asignaciones (de cinco); 12 puertos de ejecución (en vez de 10).
  • Más profundo: archivos de registro físico más grandes; búfer de reordenamiento más profundo con 512 entradas.
  • Más inteligente: precisión mejorada en la predicción de ramas; latencia L1 efectiva reducida; optimizaciones de ancho de banda en escritura predictiva en L2.

Los P-Cores son los núcleos de CPU de mayor rendimiento que Intel haya construido jamás y supera los límites de la baja latencia y rendimiento de aplicaciones para un solo subproceso con:

  • Una mejora de Geomean del ~ 19% en una amplia gama de cargas de trabajo sobre la actual 11a generación (Cypress Cove) a frecuencia ISO para rendimiento de uso general.
  • Exposición a un mayor paralelismo y un aumento en el paralelismo de ejecución.
  • Intel Advanced Matrix Extensions, un avance para la aceleración de IA de próxima generación, así como para inferencia de aprendizaje profundo y rendimiento del propio entrenamiento. Incluye hardware dedicado y nueva arquitectura de set de instrucciones para realizar operaciones de multiplicación de matrices significativamente más rápido.
  • Latencia reducida y mayor compatibilidad con aplicaciones de gran tamaño de datos y código.

Intel Thread Director

Intel-Thread-Director

Es probablemente lo más destacable en cuanto a novedades tecnológicas en su conjunto. Intel asegura que para que los núcleos de rendimiento y los núcleos eficientes funcionen sin problemas con el sistema operativo, Intel ha desarrollado una tecnología de programación mejorada llamada Intel Thread Director.

Construido directamente en el hardware (evidentemente no es software), Thread Director proporciona telemetría de bajo nivel sobre el estado del núcleo y la combinación de instrucciones del hilo, ayudando y dirigiendo al sistema operativo para colocar el hilo correcto en el núcleo correcto en el momento correcto.

Por lo tanto, Intel Thread Director es dinámico y adaptable: ajusta las decisiones de programación a las necesidades de cómputo en tiempo real. Esto es importante, puesto que hasta ahora el SO era quien tomaba las decisiones basándose en estadísticas y tiempos de uso, mientras que Intel Thread Director cambia el juego:

  • Uso de la telemetría de hardware para dirigir los subprocesos que requieren un mayor rendimiento al P-Core correcto en ese momento.
  • Monitorea el mix de instrucciones, el estado del núcleo y otra telemetría de microarquitectura relevantes, lo cual ayuda al sistema operativo a tomar decisiones de programación más inteligentes.
  • Optimización de Thread Director para obtener el mejor rendimiento en Windows 11 mediante la colaboración con Microsoft.
  • Ampliación de la API PowerThrottling, que permite a los desarrolladores especificar explícitamente los atributos quality-of-service para sus hilos.
  • Aplicar una nueva clasificación EcoQoS que informa al programador si el hilo prefiere un E-Core (tales subprocesos se programan en núcleos eficientes).

Intel Alder Lake: proceso Intel 7 y resto de novedades generales

Intel-Architecture-Day-2021_Pressdeck_Final_EMBARGO-compressed-075

Como ya sabíamos, Intel va a introducir su proceso Intel 7 para estar arquitectura general y como tal la eficiencia ha cambiado. Ahora con Alder Lake podremos tener unos TDP de 9 a 125 vatios, desde PC de escritorio hasta UltraBooks, cada uno con sus correspondientes procesadores (no presentados todavía lógicamente).

En su configuración máxima hablamos de un procesador (supuesto i9-12900K) con 8 P-Cores y 8 E-Cores, donde la curiosidad es que solo los primeros tendrán HyperThreading. Por lo tanto, el recuento de hilos asciende a un máximo de 24 Threads.

En cuanto a su iGPU, hablamos de la nueva Xe con nada menos que 96 EU, por lo que debería superar a las APU de AMD en este aspecto tan destacado. ¿Qué hay del IPC? En este caso Intel sí ha comparado Rocket Lake con Alder Lake y ha cifrado la mejora en un subproceso en un +19%, por lo que de nuevo Intel estará por delante de AMD, al menos hasta Zen 3+, donde se verán las caras una vez más.

Otra de las novedades es su caché LL, técnicamente llamada LL Cache, la cual obtiene 30 MB y es no inclusiva. Esta caché responde a un nuevo I/O Fabric para hacer de memoria del subsistema, la cual alcanza nada menos que 204 GB/s con bus y frecuencias dinámicas para optimizar la energía. En cambio, el llamado Compute Fabric para los núcleos y la iGPU logra hasta 1000 GB/s con optimizaciones en tiempo real de la latencia del sistema, la cual también será dinámica para ahorrar energía cuando se precise.

Sobre sus memorias, admite DDR5-4800, LP5-5200, DDR4-3200 y LP4x-4266, esto como configuración máxima y sin overclock, es decir, a partir de estas configuraciones se considera overclock para el IMC. Como ya sabíamos y cambiando de registro, Alder Lake será compatible con PCIe 5.0, siendo la primera arquitectura de escritorio en hacerlo, pero hay algo que debemos saber.

Las líneas PCIe 5.0 están limitadas a 16, por lo que los SSD NVMe M.2 seguirán en PCIe 4.0 aunque salgan versiones y modelos bajo la nueva interfaz. Esto puede ser subsanado en el futuro con la siguiente arquitectura, pero esta tendrá esa limitación, así que el rendimiento teórico de los SSD seguirá rondando lo 8000 MB/s en el mejor de los casos.