Standard-Benchmarks messen Allgemeinwissen. Nicht ob ein Modell deine Support-Tickets klassifiziert. Nicht ob es deutschen Text korrekt zusammenfasst. Nicht ob es auf deinem Gerät überhaupt läuft.
MMLU, GSM8K, HumanEval — sinnvoll für Forscher. Für dich als Self-Hoster auf Android: irrelevant.
Das Problem mit generischen Benchmarks
Standard-Coding-Benchmarks erfassen plattformspezifische Abhängigkeiten und Nuancen nicht. Developer Tech News Google hat das selbst erkannt und im März 2026 Android Bench veröffentlicht — ein Leaderboard das LLMs auf echten Android-Entwicklungsaufgaben aus öffentlichen GitHub-Repos testet. Selbst der beste Performer, Gemini 3.1 Pro, löst nur 72% der Aufgaben. Therift Auf einem spezialisierten Benchmark. Mit Datacenter-Hardware.
Dein Snapdragon 7s Gen 3 ist kein Datacenter.
Was auf Mobile wirklich zählt
Für On-Device-LLM-Inferenz sind die relevanten Metriken Token-Durchsatz, Latenz und Akkuverbrauch — nicht akademische NLP-Scores. arXiv Q4_K_M-Quantisierung halbiert den Speicherbedarf bei minimalem Qualitätsverlust — das ist der größte Performance-Hebel den die meisten übersehen. DEV Community
Konkret messen auf deinem Gerät:
# Token/Sekunde messen via MNN Chat API
curl -s -X POST http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{"prompt":"Klassifiziere diesen Text: NeoBild ist ein Tech-Blog.","max_tokens":50}' | python3 -c "import sys,json; r=json.load(sys.stdin); print(r['usage'])"
Relevant sind: prompt_tokens/s (Prefill), completion_tokens/s (Decode), RAM-Delta vor/nach Inferenz.
Fazit
Kein Leaderboard ersetzt einen Test auf deiner eigenen Hardware mit deinen eigenen Daten. Wer lokale KI betreibt, braucht eigene Maßstäbe — nicht die von Google oder Meta.