Los benchmarks que hay para todo tipo de componentes y tecnologías suelen ser una forma fiable de comparar cuales son las ventajas que tiene un producto frente a otro, pero hay ocasiones en las que las compañías se aprovechan de ciertas políticas para hacer que parezca que su creación es mejor que la del resto, algo que ha hecho Meta con sus nuevos modelos de IA.
Para muchas personas un benchmark es una herramienta fiable que permite medir el rendimiento que puede ofrecer un componente o un software ya que la puntuación que recibe suele ser proporcional a cómo funciona. En el caso del hardware el hecho de que tenga una potencia superior y que además esté optimizada hace que logre tener una mayor puntuación mientras que a la hora de comparar software como es la IA entran en juego otros aspectos como la capacidad que tiene de generar contenido y la velocidad a la que lo hace.
Una forma de hacer marketing, crear un modelo específico para que saque buena puntuación
Durante los últimos meses hemos estado viendo cómo Meta ha tenido unas cuantas prácticas bastante negativas relacionadas con la inteligencia artificial, una de las que más repercusión tuvo fue el acceder a contenidos protegidos por derechos de autor para entrenar a sus IA. Pero esto no es el único problema al que se enfrenta ahora mismo la empresa ya que una de las últimas novedades que hemos conocido sobre los nuevos modelos de Llama 4 que lanzaron hace poco, Scout y Maverick, no son realmente lo que la compañía ha anunciado.
En este caso el responsable de todo este dilema es Maverick, un modelo que según ha indicado la empresa es capaz de superar a GPT-4o y a Gemini 2.0 Flash en diversas pruebas de referencia, pero parece ser que la forma en la que lo hace no es la adecuada para las políticas de estos benchmarks. Este modelo tardó muy poco en conseguir el segundo puesto en LMArena, un sitio de pruebas en el que personas reales comparan los resultados de distintos sistemas y votan por cuál es el mejor, un benchmark en el que el modelo de Meta alcanzó 1417 puntos superando a OpenAI 4o y situándolo debajo de Gemini 2.5 Pro.
Pero varios investigadores que se dedican a conocer cómo funcionan las IAs que presentan las diversas compañías comenzaron a indagar en la documentación de Meta para terminar descubriendo que la versión que la compañía utilizó en LMArena no es la misma que hay disponible para el público. En este caso descubrieron que la versión «Llama-4-Maverick-03-26-Experimental» (modelo que subieron a LMArena) estaba específicamente optimizada para un entorno de conversación, haciendo que obviamente destacase en un benchmark que se basa en esto.
Zain@ZainHasan6@suchenzang this would explain it: «optimized for conversationality» https://t.co/5iGPpFOIEF06 de abril, 2025 • 20:02
10
0
La marca por su parte ha hecho declaraciones sobre este incidente indicando que «casualmente» era una versión con la que experimentaban que también funciona bien en LMArena:
«’Llama-4-Maverick-03-26-Experimental’ es una versión optimizada para chat con la que experimentamos y que también funciona bien en LMArena. Ahora hemos lanzado nuestra versión de código abierto y veremos cómo los desarrolladores personalizan Llama 4 para sus propios casos de uso. Estamos impacientes por ver lo que hacen y esperamos sus comentarios». – Ashley Gabriel, portavoz de Meta
Este problema se ha hecho eco entre la comunidad de la IA debido a que LMArena es uno de los benchmarks con mayor reputación debido a que cuenta con unas políticas muy estrictas (que han tenido que cambiar por lo que ha hecho Meta), que garantizan unos resultados mucho más fiables que otros. Obviamente se nota que la compañía está ansiosa por tener el título de «líder en IA» incluso si eso implica hacer trampas para engañar a los usuarios y a los desarrolladores.