On-Device-LLMs in iOS 26, iPadOS 26, macOS 26 und visionOS 26 – ab Herbst 2025 verfügbar
Tief integriert ab iOS 26 – WWDC 25-Vorschau
Apple stellte die zweite Generation seiner Foundation Models auf der Worldwide Developers Conference 2025 vor. Ab Herbst 2025 sind sie fest in iOS 26, iPadOS 26, macOS 26 und visionOS 26 verankert und laufen vollständig auf Apple-Silicon-Hardware.
Quelle: Apple Foundation Models Updates 2025
Apple Intelligence unter der Haube
Herzstück ist weiterhin ein kompaktes, knapp drei Milliarden Parameter großes LLM, ergänzt um eine leistungsfähigere Server-Variante in der privaten Apple-Cloud. Das neue Zwei-Block-Design (Tiefe 5 : 3) teilt das Modell und erlaubt, den KV-Cache des zweiten Blocks wiederzuverwenden – 37,5 % weniger Speicher sowie schnelleres «Time to First Token».
Quelle: Updates 2025
Messbare Performance-Sprünge
Schon im Vorjahr (WWDC 24) erzielte das On-Device-Modell auf einem iPhone 15 Pro eine Latenz von rund 0,6 ms pro Prompt-Token und etwa 30 Token / s (Introducing Apple Foundation Models 2024).
Die 2025-Generation legt nach: Gruppierte Query-Attention, gemischte 2-/4-Bit-Quantisierung und der geteilte KV-Cache senken den Speicherbedarf um 37,5 % und beschleunigen die Ausgabe weiter.
Quelle: Updates 2025
Benchmarks im Vergleich
-
- Human-Eval (16 : 9 Win / Loss): Prüfer bevorzugten die Antworten des Apple-Gerätemodells gegenüber GPT-3.5 sowie Mistral-7B, Gemma-7B und Llama-3-8B.
- Parameter-Vergleich: Das ≈ 3 B-Apple-Modell schlägt Qwen-2.5-3B in allen Sprachen und liegt in englischen Tests nahezu gleichauf mit Qwen-3-4B und Gemma-3-4B.
- Server-Variante (PT-MoE): Übertrifft Llama-4-Scout bei weniger als der Hälfte der FLOPS, rangiert aber erwartungsgemäß hinter Giganten wie Qwen-3-235B und GPT-4o.
- Effiziente Kompression: Trotz 2-Bit-Gewichten nur ≈ 4,6 % Performance-Verlust auf MGSM, während die MMLU-Punktzahl um 1,5 % steigt – ein klarer Hinweis auf wirksame Quantisierung.
Alle Benchmark-Details: Apple Foundation Models Updates 2025
Verfügbarkeit für Entwickler – das Foundation Models Framework
-
Mit Xcode 26 Beta greifen Sie über das gleichnamige Framework direkt auf das On-Device-Modell zu. Highlights:
- Guided Generation – garantiert wohldefinierte Swift-Strukturen per
@Generable
-Makro. - Snapshot Streaming – Teilergebnisse für flüssige UI-Updates.
- Tool Calling & Sessions – sichere Funktionsaufrufe und Kontextverwaltung über mehrere Prompts hinweg.
Mehr dazu im WWDC-Video: Foundation Models Framework (WWDC 25)
Praxisnutzen im Mittelstand
- Guided Generation – garantiert wohldefinierte Swift-Strukturen per
-
Lokale Foundation Models eignen sich besonders für sogenannte Second-Level-Tasks, bei denen Geschwindigkeit, Datenschutz und Kostenkontrolle wichtiger sind als umfassendes Weltwissen. Typische Einsatzfelder:
- Automatische Klassifizierung und Verschlagwortung von Mitarbeiterunterlagen in einer Personalverwaltungs-App
- Semantische Suche in internen Wissensdatenbanken ohne externen Serverzugriff
- Kontextbezogenes Tagging von Support-Tickets zur automatischen Workflow-Auslösung im ERP-System
Sensible Informationen verlassen dabei nie das Endgerät, Latenzen sinken und wiederkehrende API-Kosten entfallen. Für umfangreiche Text- oder Bildgenerierung kann bei Bedarf weiterhin ein Cloud-LLM zugeschaltet werden; das lokale Modell übernimmt Vor- und Nachbereitung und spart so Tokens und Budget.
Quelle: WWDC 25x
-
Fazit: Apple verlagert leistungsfähige KI konsequent aufs Gerät. Die aktualisierten Foundation Models steigern Effizienz, unterstützen 15 Sprachen und stehen Entwicklern ab Herbst 2025 zur Verfügung. Unternehmen, die frühzeitig auf On-Device-KI setzen, erhöhen ihre Datensouveränität, senken Betriebskosten und verschaffen sich so einen spürbaren Wettbewerbsvorteil – gerade im mittelständischen Umfeld.