Ausgangslage
Kommerzielle KI-Dienste geben wenig Einblick in das, was darunter passiert. Ziel: einen vollständigen LLM-Stack lokal betreiben — vom Modell bis zur Chat-Oberfläche — und dabei die technischen Zusammenhänge wirklich verstehen.
Stack
| Komponente | Tool |
|---|---|
| Model Server | LM Studio (llama.cpp) |
| Chat Interface | Open WebUI |
| API für Open WebUI | LM Studio OpenAI-kompatibler Endpoint |
| API für Claude Code | LM Studio Anthropic-kompatibler Endpoint |
| Websearch | SearXNG (geplant, lokale Instanz) |
Hardware & Konfiguration
RTX 2060 Super (8 GB VRAM) + 48 GB DDR4 — damit kein vollständiges GPU-Offloading für größere Modelle. Lösung: MoE-Architekturen wie Qwen 3.6 35B A3B, bei denen nur die aktiv genutzten Experten geladen werden. Aktuell 10 Layer auf GPU, KV Cache und restliche Weights im System RAM. Ergebnis: ~12,7 tok/sec — für interaktiven Chat brauchbar, für Agentic Tasks mit vielen Tool Calls spürbar langsam (TTFT).
Experimente & Learnings
Speculative Decoding mit kleineren Draft-Modellen getestet, um die tok/sec zu erhöhen — Qualitätseinbußen waren jedoch zu groß für produktiven Einsatz. Pragmatisches Fazit: Für latenzempfindliche oder qualitätskritische Tasks lieber Cloud-Modelle; lokal nur wo Datenschutz oder Offlinefähigkeit es erfordern.
Aktuelle Einschränkungen
MCP-Integrationen und Agentic Workflows stoßen bei den aktuellen tok/sec und der TTFT merklich an Grenzen. GPU-Upgrade auf mindestens 16 GB, idealerweise 24 GB VRAM, ist die nächste notwendige Voraussetzung.
Nächste Schritte
- SearXNG lokal aufsetzen und in Open WebUI integrieren
- GPU-Upgrade (Ziel: vollständiges Offloading für 30B+ Modelle)
- Agentic Workflows mit MCP nach Hardware-Upgrade erneut evaluieren