Vergiss llama.cpp auf Android. Es gibt eine bessere Option.
MNN Chat ist eine Open-Source-App von Alibaba. Der MNN-Inference-Engine erreicht auf Android CPU-Benchmarks eine Prefill-Geschwindigkeit von 8,6x über llama.cpp und 20,5x über fastllm, mit Decoding-Geschwindigkeiten die 2,3x bzw. 8,9x schneller sind. GitHub
Was die App kann
Text-zu-Text, Bild-zu-Text, Audio-zu-Text und Text-zu-Bild via Diffusion-Modelle — alles on-device. Google Play Unterstützte Modelle: Qwen, Gemma, Llama, DeepSeek, InternLM, Phi und mehr. GitHub
Setup
App installieren → Models Market öffnen → Modell wählen → Download → fertig. Kein Suchen im Internet nach kompatiblen Modellen — alles direkt in der App verfügbar. MakeUseOf
Ehrliche Einschätzung
Nutzer berichten von Problemen beim Model-Download und dass die App zeitweise wochenlang keine neuen Modelle laden konnte. AppBrain Noch nicht stabil genug für produktiven Einsatz — aber die Performance-Zahlen sind real.
Für Experimente auf dem eigenen Gerät: beste Option auf Android derzeit.
Schlagwörter: mnn-chat, local-llm, android-ki, on-device-ai, datenschutz, open-source, alibaba, llama, qwen