- Apple integra modelos fundacionales y Apple Intelligence en sus plataformas para ofrecer IA generativa y funciones como Writing Tools, Genmoji e Image Playground directamente en el dispositivo.
- Frameworks especializados como Vision, Natural Language, Speech, Translation y Sound Analysis simplifican tareas de visión, texto, voz y audio con modelos optimizados y APIs de alto nivel.
- Core ML, Create ML y herramientas como coremltools y Xcode permiten llevar modelos propios a Apple Silicon, optimizarlos y desplegarlos con soporte para CPU, GPU y Neural Engine.
- MLX y el soporte de bajo nivel con Metal y BNNSGraph abren la puerta a investigación de vanguardia, entrenamiento distribuido y control fino del rendimiento en el ecosistema Apple.

Investigación en machine learning dentro del universo Apple se ha convertido en uno de los pilares de todo su ecosistema: desde el iPhone hasta el Mac con Apple Silicon, pasando por iPad, Apple Vision Pro y los distintos servicios de la compañía. Lejos de limitarse a “ponerle IA” a unas cuantas apps, Apple ha construido una colección de frameworks, herramientas y modelos que permiten a cualquier desarrollador —desde quien empieza con su primera app hasta equipos de investigación punteros— crear experiencias inteligentes directamente en sus dispositivos.
Plataforma centrada en privacidad y rendimiento: modelos ejecutados en local, APIs de alto nivel para tareas comunes, posibilidad de llevar tus propios modelos con Core ML y, al mismo tiempo, un ecosistema de investigación abierto alrededor de MLX para experimentar con los últimos modelos de lenguaje o visión en Apple Silicon. Vamos a desgranar todo este entramado pieza a pieza.
Apple Intelligence y los modelos fundacionales en el corazón del sistema

La compañía ha dado un salto importante al integrar modelos fundacionales de lenguaje y visión directamente en el sistema, bajo el paraguas de Apple Intelligence. Estos modelos de gran tamaño, pero optimizados para ejecutarse en el dispositivo, son los que dan vida a funciones de IA como Writing Tools, Genmoji o Image Playground, accesibles desde multitud de apps sin que los desarrolladores tengan que entrenar ni desplegar sus propios modelos.
Writing Tools se integra automáticamente en los controles de texto estándar, permitiendo al usuario reescribir, resumir o adaptar el tono de lo que escribe en cualquier app que use esas vistas del sistema. Además, si el desarrollador trabaja con vistas de texto personalizadas, puede añadir apenas unas líneas de código para ofrecer la misma experiencia en su interfaz.
Genmoji y el framework Image Playground completan la parte más visual de Apple Intelligence. Genmoji se activa en los campos de texto para generar emojis personalizados a partir de una descripción, mientras que Image Playground ofrece extensiones de SwiftUI (como imagePlaygroundSheet) y APIs como ImageCreator para crear imágenes con prompts de texto y estilos determinados directamente desde el código de la app.
La llegada del framework Foundation Models marca un nuevo nivel de control para los desarrolladores. Disponible en iOS 26 y plataformas asociadas, proporciona acceso programático a un modelo de lenguaje altamente optimizado para tareas cotidianas: resumen, extracción de información, clasificación, generación de texto guiada y más. Todo ello corriendo en el dispositivo, sin depender de servidores externos, sin necesidad de claves de API y sin coste por uso.
Guided Generation es un punto clave del framework Foundation Models. El desarrollador puede marcar sus propios tipos de datos de Swift como “generables”, añadir descripciones en lenguaje natural a las propiedades y dejar que el framework adapte el bucle de decodificación del modelo para que el resultado encaje exactamente en esa estructura, evitando tener que pelearse con esquemas JSON frágiles o parsing manual.
Además, el framework soporta tool calling, una técnica con la que el modelo puede “pedir” al desarrollador que invoque herramientas concretas: desde funciones que consulten datos en tiempo real (como el tiempo o la agenda) hasta acciones sobre la propia app o servicios externos. Esto permite compensar las limitaciones naturales del modelo —que se entrenó con datos congelados en el tiempo y no conoce eventos recientes— y, de paso, ofrecer transparencia citando fuentes o datos de referencia.
APIs de IA integradas: visión, lenguaje, sonido, traducción y voz

Frameworks especializados llevan años evolucionando y ahora se integran con las nuevas capacidades de Apple Intelligence. Cada uno está orientado a un dominio concreto, con modelos ya optimizados que se ejecutan en el dispositivo con un puñado de líneas de código.
Vision es el pilar para el análisis de imágenes y vídeo. Incluye más de 30 APIs capaces de cubrir desde detección de rostros y objetos hasta seguimiento, segmentación o reconocimiento de texto. Las novedades recientes añaden reconocimiento de documentos, de forma que no solo se detectan líneas de texto, sino también estructuras completas (secciones, párrafos, bloques) que facilitan automatizar flujos como el escaneo de facturas, formularios o contratos, y un modo de detección de manchas en la lente que alerta de posibles problemas que arruinarían la calidad de la captura.
Natural Language aborda el procesamiento de texto: identificación de idioma, análisis gramatical (partes de la oración), detección de entidades nombradas y otras tareas clásicas de NLP. Combinado con Foundation Models, permite montar experiencias complejas, desde asistentes contextuales dentro de una app hasta sistemas de búsqueda semántica avanzados.
Translation y Sound Analysis amplían el abanico de la IA en el dispositivo. Translation proporciona traducción de texto entre múltiples idiomas sin salir del ecosistema de Apple, mientras que Sound Analysis reconoce categorías de sonido (por ejemplo, tipos de ruido ambiente, sonidos de la calle, etc.), útil para aplicaciones de accesibilidad, monitorización o automatización.
Speech es la pieza clave en el terreno de la voz, que tradicionalmente se apoyaba en SFSpeechRecognizer, el mismo motor de dictado que alimenta a Siri. Este enfoque era ideal para dictado breve, pero las últimas versiones del sistema introducen SpeechAnalyzer, una API mucho más potente y flexible, diseñada en torno a Swift, preparada para audio de larga duración y situaciones complejas como reuniones, clases o conversaciones a varias voces.
SpeechAnalyzer se apoya en un nuevo modelo de reconocimiento de voz, más rápido y con mayor rango de usos. El flujo es sencillo: la app pasa buffers de audio al analizador, que los envía al modelo de speech-to-text y recibe de vuelta el texto reconocido, todo sin abandonar el dispositivo. Para los desarrolladores que necesiten profundizar en estas capacidades, Apple ofrece sesiones específicas como “Bring advanced speech-to-text to your app with SpeechAnalyzer”.
A todo este conjunto de frameworks se suman APIs como Smart Reply, introducida en iOS 18.4, que se integran con el teclado del sistema. Donando el contexto de la conversación mediante UIMessageConversationContext o UIMailConversationContext antes de que aparezca el teclado, la app permite que el sistema genere respuestas rápidas basadas en el modelo fundacional, ya sea insertándolas directamente en mensajes instantáneos o delegando en la propia aplicación para que construya respuestas de correo más elaboradas.
Personalizar y extender modelos con Create ML y Core ML
APIs de alto nivel no siempre son suficientes y se necesita un modelo adaptado a un dominio muy concreto (por ejemplo, un clasificador de imágenes especializado en productos internos o un etiquetador de palabras para jerga de un sector), el siguiente paso natural en el ecosistema Apple es Create ML.
Create ML ofrece una app y un framework para macOS con los que se pueden entrenar y afinar modelos usando los datos del propio desarrollador. Sin necesidad de meterse de lleno en librerías de bajo nivel, es posible construir un clasificador de imágenes para usarlo con Vision, un modelo de etiquetado de palabras para Natural Language o modelos necesarios para experiencias espaciales en Apple Vision Pro, como reconocimiento y seguimiento de objetos con seis grados de libertad.
Una vez se dispone de un modelo concreto, entra en juego Core ML, el framework estándar para desplegar modelos de machine learning en los dispositivos de Apple. Core ML trabaja con modelos en formato .mlmodel, que encapsulan la arquitectura, los parámetros aprendidos y la descripción de entradas y salidas.
Catálogo de modelos en developer.apple.com contiene modelos Core ML listos para usar, organizados por categorías y acompañados de descripciones detalladas y variantes con información de rendimiento aproximado en distintos dispositivos. Además, en la organización de Apple dentro de Hugging Face se pueden encontrar modelos acompañados de sus definiciones originales (a menudo en PyTorch), pipelines de entrenamiento y finetuning, y material complementario para los más técnicos.
La conversión de modelos desde frameworks populares al formato Core ML se realiza con Core ML Tools (coremltools), un conjunto de utilidades en Python que no solo traducen la arquitectura, sino que aplican optimizaciones específicas para ejecución en dispositivo: fusión de operaciones, eliminación de redundancias y distintas técnicas de compresión y cuantización.
Técnicas de optimización son optativas y permiten explorar el equilibrio entre tamaño del modelo, consumo de memoria, latencia de inferencia, consumo energético y precisión. Apple detalla estos flujos de trabajo en sesiones como “Bring your models to Apple Silicon”, además de documentarlos en la guía de usuario y en las notas de cada versión de coremltools.
Integración en Xcode y ejecución optimizada en Apple Silicon
Xcode se convierte en el centro de operaciones cuando el modelo ya está en formato Core ML. Al añadir el archivo .mlmodel al proyecto, el entorno permite inspeccionar su estructura, entradas, salidas y características principales, así como probar el rendimiento en dispositivos conectados antes de desplegar nada en producción.
Visualización detallada de la arquitectura del modelo es una de las novedades recientes de Xcode: se puede recorrer gráficamente el grafo de operaciones, examinar cada capa, entender dónde se ejecutará (CPU, GPU o Neural Engine) y detectar cuellos de botella. Este nivel de introspección facilita tanto la depuración como la búsqueda de oportunidades de optimización.
Interfaz Swift type-safe es generada automáticamente por Xcode para cada modelo. Esa clase resultante presenta métodos y tipos fuertemente tipados para las entradas y salidas, haciendo que la integración del modelo en el código sea cuestión de unas pocas líneas, sin necesidad de pelear con tensores genéricos ni estructuras poco claras.
En tiempo de ejecución, Core ML decide de forma transparente cómo repartir el trabajo entre CPU, GPU y Neural Engine para maximizar el rendimiento y minimizar el consumo de batería, aprovechando al máximo los recursos de hardware disponibles. Para casos más exigentes, el desarrollador puede profundizar en la configuración de ejecución para afinar aún más el comportamiento.
Control más granular es necesario en situaciones donde se requiere coordinar workloads de machine learning con gráficos en tiempo real o con procesamiento de señal muy ajustado en latencia. En esos casos, Apple ofrece acceso directo a las capas subyacentes que sustentan Core ML.
Metal, BNNSGraph y el control de bajo nivel en CPU y GPU
Metal es el framework gráfico y de cómputo de bajo nivel de Apple, utilizado tanto para gráficos avanzados como para cargas de machine learning personalizadas, especialmente cuando se usa junto con Metal Performance Shaders (MPS) y MPS Graph. Esto permite secuenciar modelos de ML junto con efectos gráficos en un mismo pipeline altamente optimizado.
Cuando el procesamiento crítico se realiza en CPU y la prioridad es una latencia ultrabaja, cobra relevancia Accelerate, y en particular la API BNNS Graph. Esta librería permite construir grafos de operaciones (incluyendo un nuevo Graph Builder) para definir tanto pequeños modelos como rutinas de preprocesado y postprocesado que se ejecuten de forma determinista y eficiente en el procesador.
BNNSGraph resulta especialmente útil para tareas en tiempo real como análisis de señal, procesamiento de audio o ciertos tipos de inferencia ligera donde el desarrollador necesita controlar al detalle la memoria y el tiempo de ejecución. Apple dedica sesiones como “What’s new in BNNS Graph” a explicar las novedades de cada año, incluidos nuevos tipos de operaciones y mejoras de rendimiento.
Ecosistema de bajo nivel —Metal, MPS, Accelerate, BNNSGraph— forma parte de la base de Core ML, pero también está a disposición de los desarrolladores que necesitan ir un paso más allá y construir soluciones altamente personalizadas, combinando gráficos, ML y procesamiento clásico de señal en la misma aplicación.
MLX y la investigación puntera en Apple Silicon
MLX es una de las apuestas más interesantes de Apple para el mundo de la investigación en IA, un framework de arrays para computación numérica y machine learning diseñado específicamente para sacar partido a Apple Silicon. Lo desarrolla el equipo de investigación de Apple y se distribuye como proyecto de código abierto, lo que lo convierte en un puente natural entre la comunidad académica y el ecosistema de productos de la compañía.
Entrenamiento y finetuning son tareas para las que MLX está pensado, facilitando la ejecución de modelos de última generación, especialmente grandes modelos de lenguaje (LLM) y modelos de visión. Gracias a su diseño, permite ejecutar inferencia de modelos como Mistral o DeepSeek-R1 con una simple llamada desde línea de comandos o unas pocas líneas de código, manteniéndose al ritmo de lo que publica la comunidad de investigación.
Uno de los puntos fuertes de MLX es su integración con la memoria unificada de Apple Silicon. A diferencia de los sistemas tradicionales con GPU discreta y memoria separada, donde los datos suelen estar ligados a un dispositivo concreto y requieren copias costosas para moverse entre CPU y GPU, en Apple Silicon la CPU y la GPU comparten memoria física. MLX se apoya en este diseño: las arrays no están asociadas a un dispositivo concreto, son las operaciones las que se asignan a CPU o GPU, e incluso se pueden ejecutar en paralelo sobre el mismo buffer.
Modelo de programación simplificado reduce la fricción asociada a la gestión de memoria y permite crear pipelines mixtos donde algunas partes de la computación viven en CPU y otras en GPU sin penalizaciones severas por copias. Apple lo detalla en sesiones como “Get started with MLX for Apple silicon”, donde también se muestran ejemplos de finetuning con una sola línea y distribución de entrenamiento en varios dispositivos.
Soporte para varios lenguajes: MLX se puede utilizar desde Python, Swift, C++ o C, y existen bindings adicionales creados por la comunidad para otros entornos. Además, el espacio de MLX en Hugging Face recopila cientos de modelos de vanguardia ya adaptados, accesibles con una sola línea de código, lo que agiliza la experimentación con nuevas arquitecturas y técnicas sin tener que montar toda la infraestructura desde cero.
Compatibilidad con PyTorch y JAX también está prevista: Apple proporciona soporte a través de Metal para acelerar el entrenamiento y la inferencia en Apple Silicon, de modo que no hace falta renunciar a las herramientas estándar del ecosistema de investigación para poder explotar el hardware de Mac y otros dispositivos de la compañía.
Experiencia de desarrollo, recursos y cultura de diversidad en Apple
Experiencia del desarrollador es cuidada por Apple tanto en la parte técnica como en la de recursos y comunidad. La app Developer y la web developer.apple.com concentran documentación, ejemplos de código, modelos preentrenados, sesiones técnicas de eventos como la WWDC y foros donde plantear dudas y entablar conversación con otros desarrolladores y con ingenieros de Apple.
Recorridos completos enseñan a montar tu primera app inteligente con el framework Foundation Models, a diseñar prompts eficaces y seguros (“Explore prompt design and safety for on-device Foundation models”), o a incorporar características concretas como Smart Reply o SpeechAnalyzer a apps de mensajería, correo o productividad. La idea es que tanto perfiles nuevos como expertos puedan avanzar con guías paso a paso.
Seguridad, calidad y responsabilidad son consideraciones que Apple enfatiza en el uso de modelos. Se abordan aspectos como entender qué se puede esperar razonablemente de un modelo de escala de dispositivo, cómo evitar abusos o generación de contenido inadecuado, y qué estrategias seguir para evaluar y testar los sistemas inteligentes antes de ponerlos en manos de millones de usuarios.
Compromiso con la diversidad y la inclusión es recalcado en sus equipos de machine learning y en el proceso de selección. Apple subraya que las diferencias de origen, experiencia y puntos de vista son una ventaja competitiva cuando se trata de crear productos útiles para todo el mundo, y se compromete a tratar a todas las personas candidatas con equidad, adaptándose a sus necesidades siempre que sea posible.
Machine Learning Infrastructure construye la base de cómputo, almacenamiento y análisis sobre la que se apoyan los modelos más avanzados, innovando a la vez en hardware, software y algoritmos. Por otro lado, equipos de Deep Learning y Reinforcement Learning se centran en métodos supervisados, no supervisados, modelos generativos, aprendizaje temporal, aprendizaje por refuerzo profundo e inverso, teoría de la decisión y teoría de juegos.
Natural Language Processing and Speech Technologies es otro grupo clave, formado por científicas y científicos especializados en comprensión de lenguaje, traducción automática, reconocimiento de entidades, respuesta a preguntas, segmentación temática y reconocimiento de voz. Sus proyectos se apoyan en grandes volúmenes de datos y en técnicas de deep learning punteras para abordar retos en numerosos idiomas y contextos de uso reales, desde asistentes personales a dictado avanzado.
Apple Ads demuestra cómo estas capacidades de IA se integran en productos comerciales. Los sistemas de anuncios de Apple utilizan tecnología de machine learning para conectar a las personas usuarias con el contenido y las apps que buscan, mantener un alto nivel de privacidad, integrar la publicidad de forma respetuosa en la experiencia y aportar valor tanto a pequeños desarrolladores como a grandes marcas globales.
Enfoque en la ejecución en el dispositivo convierte a las plataformas de Apple en un terreno fértil para explorar machine learning y AI, tanto si el objetivo es añadir una función de autocompletado o transcripción a una app sencilla, como si se quiere entrenar y probar grandes modelos de lenguaje en un Mac con Apple Silicon. El enfoque centrado en la ejecución en el dispositivo, la privacidad, el rendimiento y el apoyo continuo a la comunidad hace que ahora mismo sea un momento especialmente propicio para experimentar con Apple Machine Learning Research y ver hasta dónde se pueden llevar las experiencias inteligentes en su ecosistema.