LLM auf Snapdragon: Was dein Prozessor wirklich kann – und was ihn bremst

Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten?

Die drei Ausführungspfade

Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung ist noch weitgehend closed-source — nur wenige Projekte wie mllm und PowerInfer-2 behaupten echten NPU-Support für mobile LLMs. arXiv

Das heißt: MNN Chat läuft auf deiner CPU. Die NPU liegt brach.

Warum die NPU trotzdem nicht der heilige Gral ist

Der NPU liefert exzellente Rohleistung — etwa 4x schneller als CPU beim reinen Matrix-Multiply. Aber 90–96% der NPU-Ausführungszeit wird für Dequantisierung verbraucht. Das ist der primäre Bottleneck. GitHub

Kurzum: Selbst wenn du NPU-Zugriff hättest, wäre der Gewinn bei quantisierten Modellen bescheidener als die Marketingzahlen versprechen.

Was wirklich hilft: Quantisierung

Q4_K_M halbiert den Speicherbedarf bei minimalem Qualitätsverlust. Das ist der größte Performance-Hebel — nicht das Backend. DEV Community

Auf deinem Gerät konkret:

# Modellgröße vor dem Download prüfen
# Qwen 2.5 1.5B Q4_K_M: ~1GB RAM
# Llama 3.2 3B Q4_K_M: ~2GB RAM
# Alles über 4B: OOM-Risiko auf 7s Gen 3

Fazit

6 tok/s CPU auf einem Mittelklasse-Snapdragon ist kein Versagen — es ist der aktuelle Stand der Technik für Open-Source-Tools. NPU-Support für lokale LLMs auf Android ist 2026 noch nicht produktionsreif. Bis dahin: kleines Modell, Q4_K_M, CPU.

Schreibe einen Kommentar