MiniMax M3 (3.0): prometedor, pero no será mi daily driver

MiniMax acaba de lanzar M3 —que mucha gente llama informalmente “MiniMax 3.0”—, y sobre el papel es impresionante. Lo presentan como el primer modelo open-weight con tres capacidades frontera a la vez: código, contexto de un millón de tokens y multimodalidad nativa. Quiero dejar clara mi postura desde el principio: tengo fe en que sea un buen modelo, pero no será mi daily driver.

Qué trae M3 sobre la mesa

Los números que publica MiniMax no son humo. M3 corre sobre una arquitectura propia, MiniMax Sparse Attention (MSA), con ventana de contexto de hasta 1M tokens (mínimo garantizado de 512K). La multimodalidad no es un parche: dicen haber reconstruido todo el pipeline de datos para entrenarla desde el paso cero.

En benchmarks agénticos hay datos llamativos. En BrowseComp marca 83.5, superando a Opus 4.7 (79.3). En su PostTrainBench, donde el modelo entrena otros modelos de forma autónoma, queda tercero (37.1), solo por detrás de Opus 4.7 (42.4) y GPT-5.5 (39.3). Y enseñan demos potentes: reproducir un paper de ICLR en 12 horas de ejecución autónoma, u optimizar un kernel CUDA con 9,4× de speedup tras 147 iteraciones.

Como ingeniero, eso me parece genuinamente bueno. Que un modelo open-weight pelee en esa liga es una noticia excelente para todos.

Dónde está mi reserva

Mi escepticismo no va contra los benchmarks. Va contra una experiencia concreta que se repite con los modelos que no son top absoluto: llega un punto en el que necesito más calidad y el modelo simplemente no puede dármela.

Y aquí está el matiz importante: ese techo no se resuelve con andamiaje. Puedo poner subagentes a revisar el código, capas de verificación, bucles de auto-crítica, todo el orquestado que quieras. Eso mejora la consistencia y reduce errores tontos, pero no eleva el techo de razonamiento del modelo base. Si el modelo no “ve” la solución correcta, mil subagentes revisando no la van a inventar. Solo van a confirmar, con más pasos y más coste, la misma limitación.

El trabajo real expone los límites

Para tareas acotadas —scaffolding, refactors mecánicos, generar boilerplate, recuperación sobre contextos largos— M3 probablemente rinda de sobra. Ahí el contexto de 1M y las capacidades agénticas son una ventaja real.

El problema aparece en el trabajo difícil: el cambio que toca cinco sistemas a la vez, el bug sutil que exige entender una abstracción completa, la decisión de diseño donde el modelo tiene que sostener mucho estado mental y razonar de verdad. Ahí es donde, en mi experiencia, GPT-5.5 y Claude Opus siguen marcando una diferencia que no es de matiz, sino de “lo resuelve o no lo resuelve”.

No espero que cubra mi uso

Seamos justos: no estoy pidiéndole a M3 que sea algo que no pretende ser. Es un modelo open-weight con una propuesta de valor enorme —capacidad frontera abierta, desplegable, con un plan de tokens competitivo—. Para muchísima gente y muchísimos casos, va a ser más que suficiente.

Pero no espero que llegue al uso que le doy a un GPT-5.5 o a un Claude Opus. Mi flujo de trabajo empuja constantemente contra el límite superior de calidad, y ahí no hay arquitectura de agentes que compense un techo de modelo más bajo.

Mi veredicto

M3 me genera fe, y lo digo en serio. Es un paso adelante para el ecosistema abierto y lo voy a tener vigilado. Pero “buen modelo” y “daily driver para mi trabajo más exigente” son dos categorías distintas, y por ahora M3 está en la primera. Lo usaré para lo que hace bien, sin pedirle lo que sé que no me va a dar.

Sunbelt Computer Software

PL/B Language Development and Support

MiniMax M3 (3.0): prometedor, pero no será mi daily driver

Qué trae M3 sobre la mesa

Dónde está mi reserva

El trabajo real expone los límites

No espero que cubra mi uso

Mi veredicto

Únete a la conversación

Insights relacionados

Gemini 3.5 Pro: el leak del knowledge cutoff que apunta a un pretrain nuevo

Sakana Fugu: un orquestador interesante, pero no es un LLM (ni barato)