Case aus eigener Praxis

Multi-LLM-Setup: vier Modelle mit klarer Routing-Logik.

Claude, Codex, Gemini, Ministral 3 14B lokal. Jede Aufgabe landet beim richtigen System. Inklusive Grenzen lokaler Modelle.

Das Problem

Ein Universalmodell für alles ist eine Kompromiss-Maschine.

Das leistungsstärkste Modell für jede Aufgabe wird teuer — durch Rate-Limits, Kosten und Qualitätsstreuung.

Wer ausschließlich auf ein Sprachmodell setzt, erkauft Einfachheit mit Qualitätseinbußen und Verfügbarkeitsrisiken. Rate-Limits, Stärken-Schwächen-Profile und Kostenkurven sprechen für eine klare Aufgabentrennung. Die Logik dafür ist dokumentiert.

Die Routing-Regel

Vier Modelle mit klarer Entscheidungslogik.

Modell	Routing-Kriterium	Typische Aufgaben
Claude (Sonnet/Opus)	Sprachgefühl, Argumentation, Substanz	Blogposts, Lektorat, Kundenkommunikation, strategische Beratung
Codex	Mechanische Code-Aufgaben	Code-Stubs, Refactoring, Test-Daten, automatisierte Transformationen
Gemini	Großes Kontextfenster, Web-Zugang	Recherche-intensive Analysen, Dokumentverarbeitung, Web-Synthese
Ministral 3 14B	Lokale Inferenz, Datenschutz	Boilerplate, einfache Extraktion, Test-Daten

4 Modelle im Stack

1 Routing-Logik

0 Content-Delegationen an lokale Modelle

Was funktioniert

Qualität entsteht durch das richtige Routing.

4 Stufen

Content-QS-Pipeline

Substanz · Pattern · Grammatik · Review

RTX 5070 Ti

16 GB VRAM, lokale Inferenz

Ministral 3 14B, Qwen 3.5

4

Modelle im Produktiv-Stack

Claude · Codex · Gemini · Ministral

Lokale Modelle liefern Code, Boilerplate, Extraktion. Für Lektorat, Voice, Argumentation und Kundenkommunikation ist Claude das einzige System im Stack. Diese Grenze ist eine bewusste Design-Entscheidung.

Lessons Learned

Drei Erkenntnisse, die teuer gekauft wurden.

Erkenntnis 1
Lokale Modelle für Content-Aufgaben. Ministral 3 14B trifft das Englisch-Übersetzungs-Problem: Idiome, Sprachgefühl, Argumentationsbögen fehlen. Der dokumentierte Voice-Drift in einem Blog-Post war der Beleg. Seitdem bleibt Content-Generierung bei Claude.
Erkenntnis 2
Ein Routing-Muster ohne explizite Regeln. „Je nachdem“ ist kein Routing. Die Grenze zwischen Code-Aufgaben (Ministral, Codex) und Content-Aufgaben (Claude) gehört explizit dokumentiert und konsequent eingehalten.
Erkenntnis 3
Rate-Limits planbar machen. Claude-Limits führen zu besseren Entscheidungen, wenn parallele Systeme bereitstehen. Gemini für Recherche, Codex für Code — das entlastet Claude für die Aufgaben mit höchster Sprachsensibilität.

Für Ihre Praxis

Was ein Stack-Audit mit mir konkret bedeutet.

Ich entwickle seit 2025 produktiv mit mehreren Modellen. Wenn Sie einen KI-Stack auditieren oder aufbauen wollen, sage ich Ihnen, welche Modelle für welche Aufgaben geeignet sind — auf Basis Ihrer Use-Cases. Das Ergebnis ist eine konkrete Routing-Empfehlung, schriftlich dokumentiert.

Bereit für eine KI-Erstberatung?

30 Minuten, kostenfrei, vertraulich.

KI-Erstberatung buchen