Stefan Bradl
← Alle Projekte

Lokale KI-Modelle — LLM-Stack auf Consumer Hardware

Was ich mitgenommen habe
  • Große Sprachmodelle verstehen, ohne sie als Black Box zu behandeln
  • Hardware-Constraints systematisch durch Architekturwahl (MoE) und Konfiguration kompensieren
  • Lokale Infrastruktur aufbauen, die wie ein API-kompatibler Cloud-Dienst funktioniert

Ausgangslage

Kommerzielle KI-Dienste geben wenig Einblick in das, was darunter passiert. Ziel: einen vollständigen LLM-Stack lokal betreiben — vom Modell bis zur Chat-Oberfläche — und dabei die technischen Zusammenhänge wirklich verstehen.

Stack

KomponenteTool
Model ServerLM Studio (llama.cpp)
Chat InterfaceOpen WebUI
API für Open WebUILM Studio OpenAI-kompatibler Endpoint
API für Claude CodeLM Studio Anthropic-kompatibler Endpoint
WebsearchSearXNG (geplant, lokale Instanz)

Hardware & Konfiguration

RTX 2060 Super (8 GB VRAM) + 48 GB DDR4 — damit kein vollständiges GPU-Offloading für größere Modelle. Lösung: MoE-Architekturen wie Qwen 3.6 35B A3B, bei denen nur die aktiv genutzten Experten geladen werden. Aktuell 10 Layer auf GPU, KV Cache und restliche Weights im System RAM. Ergebnis: ~12,7 tok/sec — für interaktiven Chat brauchbar, für Agentic Tasks mit vielen Tool Calls spürbar langsam (TTFT).

Experimente & Learnings

Speculative Decoding mit kleineren Draft-Modellen getestet, um die tok/sec zu erhöhen — Qualitätseinbußen waren jedoch zu groß für produktiven Einsatz. Pragmatisches Fazit: Für latenzempfindliche oder qualitätskritische Tasks lieber Cloud-Modelle; lokal nur wo Datenschutz oder Offlinefähigkeit es erfordern.

Aktuelle Einschränkungen

MCP-Integrationen und Agentic Workflows stoßen bei den aktuellen tok/sec und der TTFT merklich an Grenzen. GPU-Upgrade auf mindestens 16 GB, idealerweise 24 GB VRAM, ist die nächste notwendige Voraussetzung.

Nächste Schritte

  • SearXNG lokal aufsetzen und in Open WebUI integrieren
  • GPU-Upgrade (Ziel: vollständiges Offloading für 30B+ Modelle)
  • Agentic Workflows mit MCP nach Hardware-Upgrade erneut evaluieren