iPhone 17 Pro y Flash-MoE: el móvil que se atreve con modelos 400B

Última actualización: 29 de marzo de 2026
Autor: Isaac
  • Un iPhone 17 Pro con 12 GB logra ejecutar en local un modelo de casi 400.000 millones de parámetros usando Flash-MoE.
  • Flash-MoE traslada gran parte de la carga de memoria a un SSD rápido, inspirándose en la investigación de Apple "LLM in a flash".
  • La velocidad aún es muy baja, pero se abre la puerta a modelos gigantes en dispositivos personales y más privacidad.
  • El enfoque reduce la dependencia de la nube y del hardware extremo, con impacto potencial en Europa y España.

iPhone ejecutando modelo 400B con Flash-MoE

Que un móvil con solo 12 GB de memoria unificada sea capaz de mover en local un modelo de inteligencia artificial de alrededor de 400.000 millones de parámetros sonaba, hasta hace nada, a ciencia ficción. Sin embargo, un experimento reciente ha demostrado que el iPhone 17 Pro puede hacerlo, aunque a un ritmo muy lento, gracias a un motor de inferencia diseñado específicamente para exprimir el almacenamiento interno.

Este avance no convierte al iPhone en una máquina ideal para usar modelos de ese tamaño en el día a día, pero sí señala un cambio importante: la memoria de vídeo o unificada deja de ser el único cuello de botella y el foco empieza a ponerse en la velocidad de las unidades SSD. Para Europa y España, donde el debate sobre privacidad y soberanía de datos es cada vez más intenso, la posibilidad de ejecutar grandes modelos de IA de forma local en dispositivos personales puede tener bastante recorrido.

De los Mac con Apple Silicon al salto al iPhone 17 Pro

El punto de partida de esta historia está en los Mac con chip Apple Silicon. El desarrollador Daniel Woods (conocido como @dandeveloper) presentó un motor de inferencia llamado Flash-MoE, publicado como código abierto en GitHub, con el que consiguió ejecutar el modelo Qwen 3.5 397B completo en un MacBook Pro con 48 GB de RAM unificada. Hablamos de un modelo de unos 209 GB en disco, sin recurrir a destilación ni a cuantizaciones agresivas.

La clave de Flash-MoE es que se basa en una arquitectura Mixture-of-Experts (MoE) y aprovecha al máximo la combinación de memoria unificada y SSD NVMe rápido. Una parte pequeña pero crítica de los parámetros se mantiene en RAM, mientras que el grueso de los «expertos» se va leyendo desde el SSD cuando hace falta. De este modo, un portátil que en teoría no debería poder con ese tamaño de modelo logra generarlo a una velocidad de varios tokens por segundo, algo impensable hace muy poco.

Otros desarrolladores han ido un paso más allá con esta misma idea y han logrado ejecutar modelos todavía más grandes, como DeepSeek-V3 (671B) o incluso Kimi K2.5, que supera el billón de parámetros, también en equipos Mac de gama alta. El rendimiento no es espectacular, pero el simple hecho de que funcionen sienta precedente.

El experimento: un modelo 400B corriendo en un iPhone 17 Pro

Con ese terreno preparado, otro desarrollador, conocido como Anemll, decidió comprobar hasta dónde se podía llevar el concepto y se lanzó a intentar ejecutar el modelo Qwen 3.5 de casi 400.000 millones de parámetros directamente en un iPhone 17 Pro con 12 GB de memoria unificada. Contra todo pronóstico, lo consiguió, aunque con matices importantes en el rendimiento.

En la primera prueba, el modelo funcionaba a unos 0,6 tokens por segundo, una velocidad que en la práctica hace el uso bastante incómodo para casi cualquier aplicación real. Sin embargo, desde un punto de vista técnico, el resultado es contundente: el teléfono es capaz de cargar y hacer inferencia con un modelo de escala que, hasta ahora, se asociaba exclusivamente a centros de datos y tarjetas gráficas de gama entusiasta.

Para mejorar la situación, el desarrollador ajustó el número de expertos activos del modelo MoE, reduciéndolos a cuatro. Este cambio permitió duplicar la velocidad hasta alrededor de 1,1 tokens por segundo, a costa de una pérdida de calidad estimada en torno al 2,5 % en las respuestas. El sistema sigue lejos de ser fluido, pero evidencia que hay margen para jugar con compromisos entre rendimiento y precisión.

Otro usuario optó por un enfoque más pragmático, apostando por un modelo mucho más pequeño, Qwen 3.5 35B, que aun así es grande para un móvil. En este caso, el iPhone 17 Pro alcanzó unas velocidades cercanas a 13 tokens por segundo, ya en un rango mucho más cercano a un uso cotidiano aceptable, lo que sugiere que, con tamaños moderados, los móviles de gama alta actuales pueden resultar realmente útiles para inferencia local.

Flash-MoE, «LLM in a flash» y el papel del SSD

Flash-MoE no aparece de la nada. Su planteamiento bebe directamente de un trabajo previo de investigación de Apple, el estudio «LLM in a flash», publicado hace unos años. En él se planteaba que, para poder ejecutar modelos de lenguaje grandes en dispositivos con poca memoria unificada, se podía recurrir de forma intensiva a la unidad de almacenamiento, tratándola como una extensión práctica de la memoria a costa de sacrificar velocidad.

El motor de Woods está escrito en C y Metal para sacar partido al paralelismo de las GPU de Apple. La idea es mantener en RAM solo alrededor de 5,5 GB de parámetros esenciales y dejar que el resto se suministre desde el SSD mediante un sistema de streaming de expertos bajo demanda. Esto reduce drásticamente la necesidad de memoria unificada, lo que explica que modelos que normalmente pedirían del orden de 192 a 512 GB de RAM puedan sobrevivir en máquinas mucho más comedidas.

Además, Flash-MoE recurre a técnicas de cuantización para comprimir parte de los expertos en 2 o 4 bits, conservando la mayor parte del rendimiento del modelo original. Al limitar el número de expertos activos por token (por ejemplo, pasar de diez a cuatro), el sistema reduce aún más el consumo de memoria y el tráfico hacia el SSD, manteniendo un equilibrio razonable entre velocidad y calidad.

Este diseño da una vuelta importante a la idea tradicional de que la memoria de vídeo lo es todo en IA local. Hasta ahora, el factor determinante para correr modelos en un ordenador personal, ya fuera un PC con GPU dedicada o un Mac con Apple Silicon, era contar con suficientes GB de VRAM o memoria unificada y con un ancho de banda alto. Con Flash-MoE y enfoques similares, el SSD rápido se convierte en el nuevo recurso crítico.

Qué cambia para la IA local en España y Europa

En el contexto europeo, donde la regulación de datos (por ejemplo, con el RGPD y las futuras normas sobre IA) marca buena parte del debate, estas técnicas abren un escenario distinto. La posibilidad de ejecutar modelos muy grandes en local, sin necesidad de enviar datos a servidores externos, puede resultar atractiva para organizaciones, administraciones públicas y empresas españolas que manejan información sensible.

En sectores como la sanidad, la banca, los seguros o los servicios jurídicos, la inferencia local permite que historiales, documentos y bases de datos internas no salgan del dispositivo o del entorno corporativo. Un modelo grande, incluso si no es el más rápido del mundo, puede ofrecer respuestas de mayor calidad que alternativas más pequeñas, con el añadido de que no hay que compartir la información con terceros proveedores en la nube.

Para desarrolladores y startups en España y el resto de Europa, este tipo de avances reduce la dependencia de grandes infraestructuras en la nube. La inversión necesaria para prototipar con modelos de cientos de miles de millones de parámetros ya no pasa obligatoriamente por contratar instancias potentes en centros de datos: un portátil de gama alta o un sobremesa con buen SSD puede ser suficiente para pruebas y primeros desarrollos.

No hay que olvidar, además, que Flash-MoE es un proyecto open source. Cualquiera puede examinar el código, adaptarlo o integrarlo en sus propias herramientas, algo que encaja bien con el impulso europeo hacia soluciones abiertas y auditables, especialmente en ámbitos donde la transparencia de la IA empieza a ser un requisito.

Limitaciones claras: velocidad, consumo y usabilidad real

Aunque el hito técnico de ver un modelo 400B corriendo en un iPhone sea llamativo, a día de hoy las limitaciones son evidentes. La velocidad de generación de tokens sigue siendo muy baja para muchos usos: moverse entre 0,6 y 1,1 tokens por segundo implica esperar bastante para obtener respuestas mínimamente largas.

El uso intensivo del almacenamiento también trae consigo un coste en forma de consumo energético y calor. La lectura constante desde el SSD obliga a trabajar más al dispositivo, algo que en un portátil ya se nota, pero en un móvil puede ser aún más delicado por el tamaño de la batería y la dificultad para disipar temperatura. Este tipo de pruebas, en el iPhone 17 Pro, tienen hoy un carácter más demostrativo que práctico.

Otro aspecto es que, al recurrir a cuantización y reducción del número de expertos activos, se introduce cierta degradación en la calidad de las respuestas. Aunque la pérdida reportada, en torno al 2,5 % en algunos ajustes, parezca pequeña, puede hacerse visible en tareas complejas o en contextos profesionales, donde los detalles importan mucho.

Por último, hay que tener en cuenta que la experiencia de uso no se limita a la inferencia en sí. Integrar modelos tan grandes en aplicaciones móviles o de escritorio implica cuidar la interfaz, la gestión de recursos y la estabilidad, algo que requiere más trabajo de ingeniería para que estos experimentos pasen a ser soluciones reales para usuarios finales.

Qué puede venir después para la IA en el dispositivo

Aun con todas esas limitaciones, la dirección de los avances es bastante clara: cada vez es más factible que los dispositivos personales ejecuten modelos de IA más potentes sin depender tanto de la nube. La combinación de motores como Flash-MoE, SSDs PCIe 5.0 con velocidades en torno a 15 GB/s y mejoras continuas en arquitecturas de modelos hace pensar que lo que hoy es solo una prueba de concepto pueda convertirse, con el tiempo, en algo más habitual.

Si se mantienen estas tendencias, podríamos ver en los próximos años teléfonos, tablets y ordenadores en España capaces de trabajar en local con modelos que hoy asociamos a servicios como ChatGPT, Gemini o Claude, aunque quizá en versiones algo ajustadas. Esto abriría la puerta a asistentes personales más privados, aplicaciones de productividad avanzadas que no necesitan conexión permanente o herramientas específicas para profesionales que no quieran o no puedan subir sus datos a terceros.

También es previsible que aparezcan nuevos marcos de desarrollo y bibliotecas inspirados en Flash-MoE que simplifiquen el uso de estas técnicas para la comunidad. Desde la experimentación académica hasta el tejido de startups europeo, disponer de infraestructura de IA local más potente puede facilitar el surgimiento de servicios adaptados a la normativa y a las lenguas propias de la región, incluido el castellano.

A corto plazo, la realidad es que la nube seguirá siendo la opción más cómoda para la mayoría de casos de uso de gran escala. Sin embargo, este tipo de logros técnicos marcan un camino paralelo donde la IA local y la privacidad ganan protagonismo, algo que encaja con muchas de las preocupaciones actuales de usuarios y reguladores.

Todo apunta a que el experimento con el iPhone 17 Pro ejecutando un modelo 400B con Flash-MoE no será un hecho aislado, sino una señal de hacia dónde se está moviendo el ecosistema: dispositivos que, sin dejar de ser relativamente modestos en memoria, aprovechan al máximo su almacenamiento rápido para hacer convivir en el bolsillo modelos de IA que antes solo vivían en grandes centros de datos.

Apple silicon
Artículo relacionado:
Apple Silicon: el asalto de Apple a la nube y la nueva generación de Mac