Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten?
Die drei Ausführungspfade
Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung ist noch weitgehend closed-source — nur wenige Projekte wie mllm und PowerInfer-2 behaupten echten NPU-Support für mobile LLMs. arXiv
Das heißt: MNN Chat läuft auf deiner CPU. Die NPU liegt brach.
Warum die NPU trotzdem nicht der heilige Gral ist
Der NPU liefert exzellente Rohleistung — etwa 4x schneller als CPU beim reinen Matrix-Multiply. Aber 90–96% der NPU-Ausführungszeit wird für Dequantisierung verbraucht. Das ist der primäre Bottleneck. GitHub
Kurzum: Selbst wenn du NPU-Zugriff hättest, wäre der Gewinn bei quantisierten Modellen bescheidener als die Marketingzahlen versprechen.
Was wirklich hilft: Quantisierung
Q4_K_M halbiert den Speicherbedarf bei minimalem Qualitätsverlust. Das ist der größte Performance-Hebel — nicht das Backend. DEV Community
Auf deinem Gerät konkret:
# Modellgröße vor dem Download prüfen
# Qwen 2.5 1.5B Q4_K_M: ~1GB RAM
# Llama 3.2 3B Q4_K_M: ~2GB RAM
# Alles über 4B: OOM-Risiko auf 7s Gen 3
Fazit
6 tok/s CPU auf einem Mittelklasse-Snapdragon ist kein Versagen — es ist der aktuelle Stand der Technik für Open-Source-Tools. NPU-Support für lokale LLMs auf Android ist 2026 noch nicht produktionsreif. Bis dahin: kleines Modell, Q4_K_M, CPU.