Desde que Apple anunciará el abandono de las CPU de Intel para sus Apple Macintosh para utilizar procesadores de diseño propio, el llamado Apple Silicon, se ha llenado la red de mensajes apocalípticos acerca del fin de la arquitectura x86 y lo superiores que son las arquitecturas con ISA ARM. Pero, ¿cómo es la arquitectura M1 de Apple y como se compara a la de un PC?
En este sitio web hemos tratado todo tipo de procesadores, pero habitualmente son las que son compatibles con el conjunto de registros e instrucciones x86, pero debido a la polémica en los últimos meses con el M1 de Apple hemos decidido hacer un artículo sobre su arquitectura.
El Apple M1 no es una CPU, es un SoC
Lo primero que hay que tener en cuenta es que el Apple M1 no es una CPU como las de Intel o AMD, sino que es un SoC completo que aparte de la CPU incluye una serie de unidades especializadas de diferente categoría y utilidad, las cuales son las siguientes:
- CPU, la cual será la que trataremos más adelante en este artículo.
- GPU, el cual procesa los gráficos.
- Unidad de procesamiento de imágenes o ISP.
- Procesador de señales digitales o DSP, el cual es utilizado para descomprimir los archivos de música así como para operaciones matemáticas muy complejas.
- Unidad de procesamiento neural, un procesador dedicado a la IA.
- Codificador y Descodificador de vídeo para la reproducción y almacenamiento de películas.
- Unidades de encriptación de datos para la seguridad.
- Unidades de E/S que gestionan los periféricos externos así como la información que les es enviada.
- Una caché de último nivel de gran tamaño, la cual es esencial para la memoria unificada y es llamada System Level Cache
Si tuviéramos que estar hablando de todos estas unidades necesitaríamos un libro, es por ello que vamos a hablar de la CPU en exclusiva para responder la pregunta acerca de su rendimiento, respecto a las CPU que hay en PC.
Cuando no hay variedad en el hardware es más fácil optimizar los programas
Una de las cosas que diferencia al PC de otras plataformas es que cada componente tiene mil productos distintos y por tanto se acaban creando una cantidad de configuraciones increíble, en cambio con los ordenadores de Apple a partir del M1 todo el hardware excepto la RAM y el almacenamiento se encuentran en el SoC de Apple.
¿Qué permite esto? Pues básicamente permite optimizar las aplicaciones a una sola configuración, lo cual no es diferente a lo que ocurre en una consola que tiene una vida de años en el mercado y acaba teniendo código optimizado incluso cinco años después de su salida. En PC en cambio la versatilidad a la hora de escoger hace que no se pueda optimizar nada de nada.
En un PC cuando ejecutamos un programa todo se va a ir a la CPU, pero posiblemente hay parte del código que estaría bien poderla ejecutar en unidades mucho más especializadas que la CPU, pero la enorme variedad de hardware en el PC convierte el optimizar el código de cara a utilizar otras unidades del hardware para acelerar los programas en una tarea propia de Sísifo.
Memoria unificada
Una de las armas secretas de Apple frente al PC es la memoria unificada, pero antes de nada hemos de aclarar que memoria unificada no se refiere al hecho que los diferentes elementos compartan una misma memoria a nivel físico, sino que memoria unificada significa que todos los elementos del SoC entienden la memoria de la misma manera.
Es decir, cuando la GPU modifica una dirección de memoria este dato queda modificado para el resto de elementos del Apple M1 en la misma dirección de memoria de manera directa. En PC y arquitecturas derivadas que usan memoria unificada incluso se necesita el uso de unidades DMA que copien el dato del espacio de la RAM asignada a una unidad a otra unidad, lo cual añade latencia a la hora de ejecutar el código y reduce la posibilidad de colaboración entre las partes.
Así pues, gracias a la memoria unificada del M1, los desarrolladores para macOS pueden escoger ejecutar parte del código en unidades que lo resuelven más rápido que la CPU.
La CPU de alto rendimiento del Apple M1: Firestorm
El M1 de Apple pese a ser una CPU multinúcleo en realidad hace uso de dos tipos de CPU distintas. Por un lado un núcleo de alta eficiencia energética, pero de peor rendimiento llamado Icestorm y por otros núcleos de alto rendimiento, pero de peor eficiencia energética llamados Firestorm que son los que vamos a tratar, por ser con ellos con los que Apple planta cara a los x86 de alto rendimiento.
Es en los núcleos Firestorm que nos fijaremos, que en el Apple M1 son cuatro núcleos en total y son con los que Apple ha decidido plantarles cara a los procesadores de alto rendimiento en PC, y lo ha hecho con un núcleo de alto rendimiento, el cual para entender el motivo de su rendimiento antes tenemos que comentar un tema que es general para todas las CPU.
Descodificadores en CPUs fuera de orden
En la primera fase de la segunda etapa del ciclo de instrucción, lo que se hace es convertir las instrucciones en microinstrucciones, las cuales son mucho más simples pero fáciles de implementar en el silicio. Una microinstrucción no es una instrucción completa en sí misma por el hecho que no representa una acción, pero varias de estas de forma combinada forman instrucciones más complejas.
Por lo que internamente ninguna CPU ejecuta el binario del programa tal cual, sino que cada una de ellas tiene un proceso de transformación de instrucciones a conjuntos de microinstrucciones. Pero la cosa no termina aquí, en un procesador contemporáneo la ejecución es fuera de orden, lo que significa que el programa no se ejecuta en el orden de la secuencia, sino en el orden en el que las unidades de ejecución están disponibles.
Por lo que lo primero que hace el descodificador una vez ha convertido la instrucción en microinstrucciones es colocarlas en lo que llamamos el búfer de reordenamiento, en la cual son colocadas en forma de lista en el orden en que las diferentes unidades de ejecución van a estar disponibles junto a la posición que están en el orden correcto del programa. Por lo que el programa se ejecutará de manera más eficiente y las instrucciones no tendrán que esperar a que la unidad de ejecución tenga que estar libre, luego el resultado es escrito en el orden correcto del programa.
El arma secreta de los núcleos Firestorm del Apple M1: su descodificador
La etapa de descodificación de las instrucciones es la segunda etapa del ciclo de instrucción. En todo procesador que trabaje en paralelo se necesita que el descodificador pueda procesar varias instrucciones al mismo tiempo y enviarlas a las unidades de ejecución adecuadas para resolverse.
¿La ventaja del M1? El hecho de tener un descodificador capaz de tratar 8 instrucciones simultáneas, lo cual lo convierte en el procesador más ancho en este aspecto, ya que esto le permite procesar una mayor cantidad de instrucciones en paralelo, por lo que también le permite a Apple colocar una mayor cantidad de instrucciones. Pero el motivo por el cual Apple ha podido hacer esto es debido a la naturaleza del conjunto de instrucciones ARM en comparación de las x86, sobre todo de cara a la descodificación.
Las instrucciones ARM tienen la ventaja de tener un tamaño fijo, esto significa que del código binario, cada número de bits es una instrucción. En cambio las x86 tienen un tamaño variable. Lo que se traduce en que el código tiene que pasar por varios descodificadores antes de convertirse en una microinstrucción. ¿Las consecuencias de ello? Pues el hecho de que la parte del hardware dedicada a la descodificación de las instrucciones no solo acaba ocupando mucho más espacio y consume más, sino que bajo el mismo tamaño se pueden descodificar menos instrucciones simultáneas.
Y aquí entramos en la gran ventaja del M1. ¿Cuántos descodificadores completos tienen las CPU de Intel y AMD? Pues la media está en cuatro, justo la mitad. Lo que le da a los Firestorm del M1 la capacidad de ejecutar el doble de instrucciones simultáneamente que las CPU de Intel y AMD.
Apple M1 versus Intel y AMD
Ejecutar el doble de instrucciones no significa resolver el doble de instrucciones, la contrapartida de los núcleos basados en ARM es que requieren una mayor cantidad de ciclos instrucciones simples y por tanto de ciclos de reloj para ejecutar un programa. Por lo que un x86 con el mismo ancho sería mucho más potente que un ARM, pero requeriría una mayor cantidad de transistores y un procesador muy complejo en cuanto a tamaño.
Con el tiempo tanto AMD como Intel irán aumentando el IPC de sus procesadores, pero se ven limitadas por la complejidad del set de instrucciones x86 y su descodificador. No es que no puedan hacer una CPU x86 con ocho descodificadores, es que si existiese entonces sería demasiado grande para ser viable comercialmente y se tienen que esperar a que vayan apareciendo los nuevos nodos para ir aumentando el IPC por núcleo.