- Apple ofrece un ecosistema completo de IA con modelos base, APIs de alto nivel y frameworks especializados que funcionan íntegramente en el dispositivo.
- Core ML, Create ML y Foundation Models permiten adaptar y desplegar modelos propios optimizados para Apple Silicon, manteniendo la privacidad de los datos.
- Herramientas como MLX, Metal y BNNSGraph dan control fino sobre rendimiento y facilitan la experimentación con modelos de última generación en Mac.
- La combinación de documentación, sesiones técnicas y comunidad convierte a las plataformas de Apple en un entorno sólido para investigación y desarrollo en machine learning.
La investigación en machine learning dentro del ecosistema Apple ha pasado en pocos años de ser algo casi invisible para el usuario final a convertirse en la base de muchas de las funciones que usamos a diario. Desde la autenticación biométrica hasta la generación de imágenes o texto, hay una enorme cantidad de modelos corriendo en segundo plano, casi siempre directamente en el dispositivo, sin depender de servidores externos.
Si eres desarrollador, investigador o simplemente te pica la curiosidad por saber cómo está montado todo esto, te interesa conocer el conjunto de frameworks, herramientas y recursos de Apple para IA y ML: Core ML, Foundation Models, Vision, Speech, Create ML, MLX y un largo etcétera. Vamos a recorrerlos con calma, ver qué aporta cada uno y cómo encajan entre sí para cubrir desde el uso más sencillo hasta la investigación de frontera.
Inteligencia integrada en las plataformas de Apple

En los sistemas operativos de Apple, el aprendizaje automático está metido hasta la cocina: Optic ID en Apple Vision Pro, reconocimiento de escritura a mano en iPad, eliminación de ruido en FaceTime y un sinfín de funciones que el usuario percibe como “magia”, pero que en realidad son modelos de ML muy bien entrenados y optimizados para ejecutarse en el propio dispositivo.
En los últimos años Apple ha dado un salto importante al llevar la inteligencia generativa al corazón de las plataformas. Sobre grandes modelos base (foundation models) se construyen experiencias como Writing Tools, Genmoji o Image Playground, que aparecen de forma transversal en el sistema y pueden integrarse en las apps de terceros prácticamente sin esfuerzo.
Si tu app usa los controles de texto estándar del sistema, ya se beneficia automáticamente de funciones como Genmoji o Writing Tools. Y si trabajas con vistas personalizadas, basta con añadir unas pocas líneas de código para exponer estos mismos componentes a tus usuarios, manteniendo una experiencia coherente y familiar con el resto de la plataforma.
Cuando necesitas ir un paso más allá de la interfaz predeterminada, entran en juego los APIs de ML de bajo nivel, que dan acceso programático a muchos de estos modelos y capacidades, permitiendo que tu app controle la experiencia de principio a fin.
Framework Foundation Models: el corazón lingüístico en el dispositivo

Con la llegada del framework Foundation Models, Apple expone de forma directa un modelo lingüístico de alto rendimiento, especializado en tareas del día a día y pensado para ejecutarse al 100 % en el dispositivo. Es la pieza que permite llevar capacidades tipo LLM a cualquier app sin tener que montar infraestructuras de servidor ni contratar APIs externas.
Este framework está especialmente indicado para tareas como resumir textos, extraer datos estructurados, clasificar contenido, sugerir respuestas, generar ideas o enriquecer búsquedas internas. Un ejemplo típico es usarlo para proponer búsquedas personalizadas dentro de una app o para construir automáticamente un itinerario de viaje a partir de las preferencias del usuario.
Desde el punto de vista del desarrollador, el uso básico es muy directo: importas el framework, creas una sesión con el modelo y le envías un prompt. El modelo genera la respuesta íntegramente en el dispositivo, con lo que los datos del usuario no salen de su equipo, las funciones están disponibles incluso sin conexión y no hay costes por petición ni gestión de claves de API.
Foundation Models también resuelve un problema habitual con los LLM: cuando necesitas respuestas estructuradas y utilizables directamente por tu lógica de negocio. Puedes marcar tus propios tipos en Swift como “generables”, añadir descripciones en lenguaje natural a sus propiedades y definir ciertas restricciones. El framework ajusta el bucle de decodificación del modelo para evitar errores de estructura y te devuelve instancias de tus tipos en lugar de tener que lidiar con JSON frágiles y parsing manual.
Otro punto clave es el soporte de tool calling. El modelo parte de un conocimiento estático (los datos con los que fue entrenado) y de la información que le pasas en el prompt, pero muchas veces necesitas integrar datos vivos o personales: tiempo actual, eventos de calendario, información de una base de datos propia, etc. Mediante herramientas definidas por ti, el modelo puede desencadenar llamadas a tus funciones, acceder a esas fuentes de verdad, citar los orígenes de la información y ejecutar acciones reales en el sistema o en servicios externos.
El framework incorpora además funciones avanzadas como respuestas en streaming, sesiones con estado (para mantener el contexto de una conversación) y una integración muy estrecha con Xcode para depurar y experimentar con prompts y tipos generables de forma interactiva.
APIs de Apple Intelligence: Image Playground y Smart Reply

Dentro del paraguas de Apple Intelligence hay una serie de APIs de alto nivel que aprovechan los foundation models pero están enfocadas a tareas concretas, para que las puedas integrar casi plug-and-play en tus apps.
El framework Image Playground no solo ofrece la clásica hoja de generación de imágenes (imagePlaygroundSheet) integrada en SwiftUI, sino también la clase ImageCreator, que te permite generar imágenes de forma totalmente programática. Creas la instancia, defines un prompt de texto, eliges un estilo y recibes una serie de imágenes listas para mostrar o procesar como quieras.
Por otro lado, el API de Smart Reply introduce sugerencias inteligentes de respuesta en contextos de mensajería y correo. Tu app “dona” el contexto de la conversación al teclado mediante objetos UIMessageConversationContext o UIMailConversationContext configurados con los datos relevantes, y el sistema genera respuestas candidatas en el propio dispositivo, basadas en los modelos de Apple.
En apps de mensajería las respuestas seleccionadas se insertan directamente en el campo de texto, mientras que en apps de correo se delega la selección a tu vista para que puedas expandir o personalizar la respuesta antes de mostrarla. Todo esto corre en local, sin enviar el contenido de las conversaciones a servidores externos.
Para quien quiera profundizar, Apple proporciona documentación y sesiones específicas, como “Adopting Smart Reply in your messaging or email app”, donde se detallan patrones de uso, requisitos de privacidad y mejores prácticas para ofrecer estas capacidades de forma responsable.
Frameworks especializados de machine learning en Apple

Más allá de los modelos base, Apple mantiene una familia de frameworks de ML muy afinados para dominios concretos. Su objetivo es que puedas resolver tareas complejas con unas pocas líneas de código y sin preocuparte por la arquitectura de los modelos subyacentes.
El framework Vision cubre prácticamente todo lo relativo a análisis de imagen y vídeo. Incluye más de treinta APIs que van desde la detección de caras y objetos hasta el reconocimiento de texto o la segmentación de escenas. Entre las incorporaciones recientes destacan la lectura de documentos estructurados, capaz de agrupar y entender diferentes regiones (párrafos, tablas, cabeceras), y un modo de detección de manchas en la lente (lens smudge detection) para avisar al usuario cuando la cámara está sucia y puede estropear la foto.
El framework Speech ha evolucionado desde el clásico SFSpeechRecognizer, pensado para dictados relativamente cortos, hacia la nueva API SpeechAnalyzer. Esta interfaz permite enviar buffers de audio a un analizador que los procesa mediante un modelo de voz a texto totalmente nuevo, más rápido y flexible, especialmente optimizado para audio de larga duración o distante, como reuniones, clases magistrales o conversaciones largas.
En paralelo, Apple ofrece otros frameworks como Natural Language (detección de idioma, categorías gramaticales, entidades nombradas), Translation (traducción de texto entre múltiples idiomas) o Sound Analysis (clasificación de sonidos ambientales). Todos ellos comparten la filosofía de ejecución en local con código mínimo y modelos muy optimizados para el hardware de la marca.
Sobre esta base, tu app puede ofrecer funciones avanzadas de comprensión de imagen, audio y texto sin tener que construir ni entrenar modelos desde cero, y sin sacrificar la privacidad del usuario.
Create ML: personalizar modelos con tus propios datos

Cuando las capacidades de los modelos estándar se te quedan cortas, puedes recurrir a Create ML, disponible tanto como app como framework. Su función es permitirte afinar modelos de Apple con tus datos sin tener que montar un laboratorio de investigación de ML.
Con Create ML puedes entrenar un clasificador de imágenes especializado para integrarlo después en Vision, o desarrollar un etiquetador de palabras (word tagger) a medida para usarlo con el framework Natural Language. En el entorno de realidad mixta, también te permite ampliar las capacidades de Apple Vision Pro para reconocer y seguir objetos concretos en 6 grados de libertad, clave para experiencias espaciales más inmersivas.
El flujo típico pasa por proporcionar conjuntos de datos etiquetados (imágenes, texto u otros formatos soportados), seleccionar una plantilla de modelo preconfigurada, lanzar el entrenamiento y evaluar resultados. La herramienta se encarga de ajustar hiperparámetros, gestionar particiones de entrenamiento/validación y exportar el modelo directamente en formato Core ML, listo para integrarlo con Xcode.
Esta aproximación reduce mucho la barrera de entrada: puedes tener un modelo de visión o lenguaje adaptado a tu problema concreto sin necesidad de dominar en profundidad las técnicas de entrenamiento, y aprovechando siempre la infraestructura de ejecución optimizada de Apple.
Core ML: llevar cualquier modelo al dispositivo
Uno de los pilares del ecosistema de IA en Apple es Core ML, el framework que permite desplegar modelos entrenados en el dispositivo de forma eficiente. La idea es sencilla: conviertes tu modelo a formato Core ML, lo añades a tu proyecto de Xcode y lo llamas como si fuera una API más, mientras el sistema se encarga de mapearlo al hardware disponible.
Un archivo de modelo Core ML incluye la descripción de entradas, salidas y arquitectura, junto con los parámetros aprendidos durante el entrenamiento. Apple mantiene en su web de desarrolladores un catálogo de modelos ya preparados en este formato, organizados por categoría y acompañados de descripciones de capacidades, variantes disponibles y métricas aproximadas de rendimiento en diferentes dispositivos.
Además del catálogo propio, el espacio de Apple en Hugging Face reúne tanto modelos ya convertidos como referencias a sus definiciones originales (a menudo en PyTorch), junto con scripts de entrenamiento y pipelines de fine-tuning. De este modo, es relativamente fácil seguir el ciclo completo: partir de un modelo abierto, adaptarlo a tu caso y transformarlo a Core ML.
La conversión se realiza principalmente con Core ML Tools, un conjunto de utilidades que traducen el grafo del modelo a la representación de Core ML y aplican optimizaciones específicas de ejecución en dispositivo. Algunas de estas optimizaciones son automáticas, como la fusión de operaciones consecutivas o la eliminación de cálculos redundantes para reducir latencia y consumo de memoria.
Core ML Tools también incluye técnicas opt-in de compresión de modelos, tanto basadas en ajuste fino como en post-entrenamiento, para reducir el tamaño del archivo y mejorar el rendimiento en términos de memoria, potencia y tiempo de inferencia. Estas técnicas permiten explorar distintas combinaciones de precisión, compactación y calidad de resultados hasta encontrar el equilibrio adecuado para tu caso de uso.
Una vez convertido el modelo, Xcode ofrece vistas específicas donde puedes inspeccionar las características clave, medir tiempos de carga y de predicción en dispositivos conectados y analizar exactamente dónde se ejecuta cada operación (CPU, GPU o Neural Engine). Entre las novedades recientes está la posibilidad de visualizar la arquitectura completa como un grafo navegable y profundizar en los detalles de cada operación, lo que facilita mucho la depuración y la identificación de cuellos de botella.
Cuando pasas al código, Xcode genera una interfaz de tipo seguro en Swift para tu modelo. Hacer una predicción suele requerir solo unas pocas líneas, y Core ML se encarga de repartir la carga entre CPU, GPU y Neural Engine para exprimir al máximo el hardware sin que tú tengas que microgestionar recursos.
Metal, MPS, Accelerate y BNNSGraph: control fino sobre el rendimiento
En algunos escenarios, especialmente cuando necesitas combinar cargas de trabajo de gráficos y ML o cuando el control de latencia es crítico, Core ML puede quedarse corto en flexibilidad. Para estos casos, Apple expone los cimientos sobre los que se apoya el propio Core ML.
Si tu app usa frameworks de entrenamiento populares como PyTorch o JAX, puedes aprovechar el backend de Metal para ejecutar cómputo acelerado en la GPU de Apple Silicon sin tener que cambiar de herramienta. Para flujos más personalizados, tienes MPS Graph y Metal directamente, lo que te permite orquestar secuencias complejas en las que se mezclan operaciones de ML y gráficos en la misma tubería.
En el lado de CPU, la librería Accelerate ofrece el API BNNSGraph, pensado para tratamientos en tiempo real donde necesitas un control absoluto de latencia y memoria. Sobre esta API se pueden construir tanto rutinas de preprocesado y postprocesado como pequeños modelos de ML que corran de forma determinista en el procesador.
Entre las novedades destacadas de BNNSGraph está el Graph Builder, que facilita la creación de grafos de operaciones de forma más declarativa. Con él puedes montar cadenas de procesamiento o redes ligeras para audio, vídeo u otras señales, garantizando que cada paso cumple con los requisitos de tiempo real que tu aplicación exija.
Todo este conjunto de frameworks de bajo nivel forma parte del fundamento técnico de Core ML, pero también están disponibles directamente para los desarrolladores que necesiten ajustar al milímetro el rendimiento de sus pipelines de IA.
MLX: investigación y modelos punteros en Apple Silicon
Para mantenerse a la par del ritmo frenético de la investigación en IA, Apple pone especial foco en que los desarrolladores y científicos puedan ejecutar modelos punteros en sus Mac con Apple Silicon. Aquí entra en escena MLX, un framework de arrays para computación numérica y machine learning diseñado por el equipo de investigación de Apple y publicado como proyecto de código abierto.
MLX permite lanzar inferencias de modelos de última generación, como grandes modelos de lenguaje tipo Mistral o DeepSeek-R1, con una simple llamada de línea de comandos o unas pocas líneas de código. Por ejemplo, puedes generar código (como un algoritmo de ordenación rápida) con miles de tokens de salida sin salir de tu Mac.
La comunidad en torno a MLX en Hugging Face agrupa ya cientos de modelos de vanguardia preparados para usarse con este framework. En muchos casos basta con una sola línea de código para descargar y ejecutar un modelo, lo que hace muy cómodo experimentar con nuevas arquitecturas y técnicas en cuanto aparecen publicaciones o repositorios relevantes.
Una de las claves de MLX es que explota de forma muy directa la arquitectura de memoria unificada de Apple Silicon. A diferencia de los sistemas tradicionales con GPU discreta y memoria separada (donde los datos pertenecen a un dispositivo concreto y hay que copiarlos para combinarlos), en Apple Silicon CPU y GPU comparten el mismo espacio de memoria física. En MLX, los arrays no están pegados a un dispositivo concreto, sino que son las operaciones las que se asignan a CPU o GPU, permitiendo incluso ejecutar cálculos en paralelo sobre el mismo buffer sin sobrecostes de copia.
MLX está disponible en Python, Swift, C++ y C, y gracias a los bindings creados por la comunidad puede integrarse con otros lenguajes. Además, simplifica enormemente el fine-tuning: es posible afinar un modelo con una sola línea de código y, si hace falta, escalar a entrenamientos distribuidos sin reescribir todo el pipeline.
Para quienes prefieren seguir usando sus frameworks habituales de entrenamiento, Apple ofrece soporte acelerado por Metal en librerías tan extendidas como PyTorch y JAX, de forma que puedes explotar el potencial de Apple Silicon sin abandonar tus herramientas de siempre.
Recursos de investigación, documentación y comunidad
La apuesta de Apple por el machine learning no se limita a los frameworks: también incluye un flujo continuado de papers, sesiones técnicas y recursos educativos. En el portal de desarrolladores puedes encontrar documentación detallada de cada API, notas de las últimas versiones de Core ML Tools, ejemplos de uso y guías de buenas prácticas para diseño de prompts y seguridad en modelos generativos.
Sesiones como “Meet the Foundation Models framework”, “Explore prompt design and safety for on-device Foundation models”, “Bring your models to Apple Silicon”, “Reading documents using the Vision Framework”, “Bring advanced speech-to-text to your app with SpeechAnalyzer”, “What’s new in BNNS Graph” o “Explore large language models on Apple silicon with MLX” profundizan en casos de uso concretos y patrones de diseño recomendados, con demos paso a paso.
Paralelamente, Apple fomenta una comunidad activa en los foros de desarrolladores, donde es posible plantear dudas, compartir soluciones y discutir nuevas ideas con otros ingenieros y con personal de Apple. Para quien quiera ir todavía más al fondo, hay trabajos de investigación accesibles en PDF —por ejemplo, a través de enlaces como “the-illusion-of-thinking.pdf”— que exploran limitaciones, sesgos y comportamiento emergente de modelos empleados en sus plataformas.
En el ámbito profesional, Apple también está continuamente incorporando talento en equipos de Machine Learning Infrastructure, Deep Learning y Reinforcement Learning, Natural Language Processing y Speech Technologies. Estos grupos trabajan desde la infraestructura de datos y plataformas internas hasta la investigación de nuevas arquitecturas y métodos, pasando por la aplicación práctica de técnicas de IA a gran escala en productos reales.
Todo este ecosistema —frameworks de alto y bajo nivel, herramientas de conversión y depuración, recursos de formación, espacios de colaboración y líneas de investigación abiertas— conforma un entorno bastante completo para cualquiera que quiera desarrollar, desplegar o investigar en IA sobre hardware de Apple, ya sea montando una app de productividad con sugerencias inteligentes o afinando un modelo de lenguaje de última generación en su Mac.
Con este panorama, el desarrollo con IA en Apple se vuelve mucho más accesible: puedes arrancar usando los APIs más simples (Writing Tools, Genmoji, Vision, Speech), pasar después a Foundation Models y Create ML para personalizar experiencias, y cuando la cosa se pone seria combinar Core ML, Metal y MLX para exprimir hasta el último ciclo de CPU, GPU y Neural Engine, todo ello manteniendo el foco en la privacidad, la eficiencia y la experiencia de usuario que caracterizan al ecosistema de la compañía.