Hypura: Storage-tier-aware LLM-Inference auf Apple Silicon

24. März 2026

Problem

Apple-Silicon-Macs (M1–M4) nutzen Unified Memory, der von CPU und GPU geteilt wird. Grosse Modelle passen jedoch nicht vollständig in den verfügbaren RAM. macOS lagert überschüssige Daten automatisch auf die SSD aus (Swap), was zu erheblichen Latenzen führt, weil die Zugriffszeiten zwischen RAM und SSD stark divergieren.

Was Hypura löst

Hypura ist ein storage-tier-aware Scheduler: Er kennt die Zugriffskosten der verschiedenen Speicherebenen und plant das Laden von Modell-Layern so, dass teure SSD-Zugriffe minimiert werden. Statt blindem Paging entscheidet der Scheduler vorausschauend, welche Layer wann und woher geladen werden.

Praxis-Relevanz

Wer auf dem Mac lokale LLMs betreibt -- etwa über llama.cpp oder Ollama -- und Modelle nutzt, die größer sind als der verfügbare Arbeitsspeicher, kann mit Hypura den Durchsatz verbessern und Stotterer durch unkontrollierten Swap vermeiden. Besonders interessant für 70B-Modelle auf Macs mit 32–64 GB RAM.

Quellen

Nach oben