Lokale KI-Modelle — LLM-Stack auf Consumer Hardware

Ausgangslage

Kommerzielle KI-Dienste geben wenig Einblick in das, was darunter passiert. Ziel: einen vollständigen LLM-Stack lokal betreiben — vom Modell bis zur Chat-Oberfläche — und dabei die technischen Zusammenhänge wirklich verstehen.

Stack

Komponente	Tool
Model Server	LM Studio (llama.cpp)
Chat Interface	Open WebUI
API für Open WebUI	LM Studio OpenAI-kompatibler Endpoint
API für Claude Code	LM Studio Anthropic-kompatibler Endpoint
Websearch	SearXNG (geplant, lokale Instanz)

Hardware & Konfiguration

RTX 2060 Super (8 GB VRAM) + 48 GB DDR4 — damit kein vollständiges GPU-Offloading für größere Modelle. Lösung: MoE-Architekturen wie Qwen 3.6 35B A3B, bei denen nur die aktiv genutzten Experten geladen werden. Aktuell 10 Layer auf GPU, KV Cache und restliche Weights im System RAM. Ergebnis: ~12,7 tok/sec — für interaktiven Chat brauchbar, für Agentic Tasks mit vielen Tool Calls spürbar langsam (TTFT).

Experimente & Learnings

Speculative Decoding mit kleineren Draft-Modellen getestet, um die tok/sec zu erhöhen — Qualitätseinbußen waren jedoch zu groß für produktiven Einsatz. Pragmatisches Fazit: Für latenzempfindliche oder qualitätskritische Tasks lieber Cloud-Modelle; lokal nur wo Datenschutz oder Offlinefähigkeit es erfordern.

Aktuelle Einschränkungen

MCP-Integrationen und Agentic Workflows stoßen bei den aktuellen tok/sec und der TTFT merklich an Grenzen. GPU-Upgrade auf mindestens 16 GB, idealerweise 24 GB VRAM, ist die nächste notwendige Voraussetzung.

Nächste Schritte

SearXNG lokal aufsetzen und in Open WebUI integrieren
GPU-Upgrade (Ziel: vollständiges Offloading für 30B+ Modelle)
Agentic Workflows mit MCP nach Hardware-Upgrade erneut evaluieren