LLM auf Snapdragon: Was dein Prozessor wirklich kann – und was ihn bremst

Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten? Die drei Ausführungspfade Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung … Weiterlesen

MMLU lügt nicht – aber er beantwortet die falsche Frage

Standard-Benchmarks messen Allgemeinwissen. Nicht ob ein Modell deine Support-Tickets klassifiziert. Nicht ob es deutschen Text korrekt zusammenfasst. Nicht ob es auf deinem Gerät überhaupt läuft. MMLU, GSM8K, HumanEval — sinnvoll für Forscher. Für dich als Self-Hoster auf Android: irrelevant. Das Problem mit generischen Benchmarks Standard-Coding-Benchmarks erfassen plattformspezifische Abhängigkeiten und Nuancen nicht. Developer Tech News Google … Weiterlesen