LLM auf Snapdragon: Was dein Prozessor wirklich kann – und was ihn bremst
Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten? Die drei Ausführungspfade Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung … Weiterlesen