Problem
Apple-Silicon-Macs (M1–M4) nutzen Unified Memory, der von CPU und GPU geteilt wird. Grosse Modelle passen jedoch nicht vollständig in den verfügbaren RAM. macOS lagert überschüssige Daten automatisch auf die SSD aus (Swap), was zu erheblichen Latenzen führt, weil die Zugriffszeiten zwischen RAM und SSD stark divergieren.
Was Hypura löst
Hypura ist ein storage-tier-aware Scheduler: Er kennt die Zugriffskosten der verschiedenen Speicherebenen und plant das Laden von Modell-Layern so, dass teure SSD-Zugriffe minimiert werden. Statt blindem Paging entscheidet der Scheduler vorausschauend, welche Layer wann und woher geladen werden.
Praxis-Relevanz
Wer auf dem Mac lokale LLMs betreibt -- etwa über llama.cpp oder Ollama -- und Modelle nutzt, die größer sind als der verfügbare Arbeitsspeicher, kann mit Hypura den Durchsatz verbessern und Stotterer durch unkontrollierten Swap vermeiden. Besonders interessant für 70B-Modelle auf Macs mit 32–64 GB RAM.