Die Illusion der digitalen Freiheit: Wie API-Abhängigkeiten deine Souveränität untergraben

Du zahlst 20€/Monat für ChatGPT Plus. Oder nutzt die "kostenlose" Gemini API. Du denkst, du hast Kontrolle. Du hast sie nicht. Was eine API wirklich ist Eine API ist kein Werkzeug das du besitzt — es ist eine Tür die jemand anderes kontrolliert. OpenAI kann Preise ändern. Modelle deprecaten. Deine Anfragen loggen. Den Zugang sperren. … Weiterlesen

LLM auf Snapdragon: Was dein Prozessor wirklich kann – und was ihn bremst

Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten? Die drei Ausführungspfade Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung … Weiterlesen

MMLU lügt nicht – aber er beantwortet die falsche Frage

Standard-Benchmarks messen Allgemeinwissen. Nicht ob ein Modell deine Support-Tickets klassifiziert. Nicht ob es deutschen Text korrekt zusammenfasst. Nicht ob es auf deinem Gerät überhaupt läuft. MMLU, GSM8K, HumanEval — sinnvoll für Forscher. Für dich als Self-Hoster auf Android: irrelevant. Das Problem mit generischen Benchmarks Standard-Coding-Benchmarks erfassen plattformspezifische Abhängigkeiten und Nuancen nicht. Developer Tech News Google … Weiterlesen

MNN Chat – Lokale KI auf Android, die llama.cpp alt aussehen lässt

Vergiss llama.cpp auf Android. Es gibt eine bessere Option. MNN Chat ist eine Open-Source-App von Alibaba. Der MNN-Inference-Engine erreicht auf Android CPU-Benchmarks eine Prefill-Geschwindigkeit von 8,6x über llama.cpp und 20,5x über fastllm, mit Decoding-Geschwindigkeiten die 2,3x bzw. 8,9x schneller sind. GitHub Was die App kann Text-zu-Text, Bild-zu-Text, Audio-zu-Text und Text-zu-Bild via Diffusion-Modelle — alles on-device. … Weiterlesen