Was passiert, wenn KI über sich selbst nachdenkt

Dein KI-System Trinity läuft lokal auf dem Snapdragon 7s Gen 3 – völlig unabhängig von der Cloud. Keine API-Calls, kein Datenleak, kein Abo. 15.7 tok/s, 796MB RAM – das ist alles was es braucht. Trinity ist ein Multi-Agenten-System: Vier KI-Personas – Dominus, Axiom, Cipher und Vector – diskutieren autonom miteinander. Jede Persona hat eine eigene … Weiterlesen

LLM auf Snapdragon: Was dein Prozessor wirklich kann – und was ihn bremst

Du hast einen Snapdragon 7s Gen 3. Du läufst MNN Chat. Du bekommst ~6 tok/s. Warum nicht mehr? Und warum ist das trotzdem besser als die meisten erwarten? Die drei Ausführungspfade Snapdragon-Chips haben drei mögliche Backends für LLM-Inferenz: CPU, GPU (Adreno via OpenCL) und NPU (Hexagon). Derzeit sind llama.cpp und MNN-LLM für CPU-Inferenz optimiert. NPU-Unterstützung … Weiterlesen

MMLU lügt nicht – aber er beantwortet die falsche Frage

Standard-Benchmarks messen Allgemeinwissen. Nicht ob ein Modell deine Support-Tickets klassifiziert. Nicht ob es deutschen Text korrekt zusammenfasst. Nicht ob es auf deinem Gerät überhaupt läuft. MMLU, GSM8K, HumanEval — sinnvoll für Forscher. Für dich als Self-Hoster auf Android: irrelevant. Das Problem mit generischen Benchmarks Standard-Coding-Benchmarks erfassen plattformspezifische Abhängigkeiten und Nuancen nicht. Developer Tech News Google … Weiterlesen

MNN Chat – Lokale KI auf Android, die llama.cpp alt aussehen lässt

Vergiss llama.cpp auf Android. Es gibt eine bessere Option. MNN Chat ist eine Open-Source-App von Alibaba. Der MNN-Inference-Engine erreicht auf Android CPU-Benchmarks eine Prefill-Geschwindigkeit von 8,6x über llama.cpp und 20,5x über fastllm, mit Decoding-Geschwindigkeiten die 2,3x bzw. 8,9x schneller sind. GitHub Was die App kann Text-zu-Text, Bild-zu-Text, Audio-zu-Text und Text-zu-Bild via Diffusion-Modelle — alles on-device. … Weiterlesen