Multi-LLM-Setup — vier Modelle, eine Routing-Regel
Case aus eigener Praxis
Multi-LLM-Setup: vier Modelle mit klarer Routing-Logik.
Claude, Codex, Gemini, Ministral 3 14B lokal. Jede Aufgabe landet beim richtigen System. Inklusive Grenzen lokaler Modelle.
Das Problem
Ein Universalmodell für alles ist eine Kompromiss-Maschine.
Das leistungsstärkste Modell für jede Aufgabe wird teuer — durch Rate-Limits, Kosten und Qualitätsstreuung.
Wer ausschließlich auf ein Sprachmodell setzt, erkauft Einfachheit mit Qualitätseinbußen und Verfügbarkeitsrisiken. Rate-Limits, Stärken-Schwächen-Profile und Kostenkurven sprechen für eine klare Aufgabentrennung. Die Logik dafür ist dokumentiert.
Die Routing-Regel
Vier Modelle mit klarer Entscheidungslogik.
| Modell | Routing-Kriterium | Typische Aufgaben |
|---|---|---|
| Claude (Sonnet/Opus) | Sprachgefühl, Argumentation, Substanz | Blogposts, Lektorat, Kundenkommunikation, strategische Beratung |
| Codex | Mechanische Code-Aufgaben | Code-Stubs, Refactoring, Test-Daten, automatisierte Transformationen |
| Gemini | Großes Kontextfenster, Web-Zugang | Recherche-intensive Analysen, Dokumentverarbeitung, Web-Synthese |
| Ministral 3 14B | Lokale Inferenz, Datenschutz | Boilerplate, einfache Extraktion, Test-Daten |
Was funktioniert
Qualität entsteht durch das richtige Routing.
Lokale Modelle liefern Code, Boilerplate, Extraktion. Für Lektorat, Voice, Argumentation und Kundenkommunikation ist Claude das einzige System im Stack. Diese Grenze ist eine bewusste Design-Entscheidung.
Lessons Learned
Drei Erkenntnisse, die teuer gekauft wurden.
-
Erkenntnis 1
Lokale Modelle für Content-Aufgaben. Ministral 3 14B trifft das Englisch-Übersetzungs-Problem: Idiome, Sprachgefühl, Argumentationsbögen fehlen. Der dokumentierte Voice-Drift in einem Blog-Post war der Beleg. Seitdem bleibt Content-Generierung bei Claude.
-
Erkenntnis 2
Ein Routing-Muster ohne explizite Regeln. „Je nachdem“ ist kein Routing. Die Grenze zwischen Code-Aufgaben (Ministral, Codex) und Content-Aufgaben (Claude) gehört explizit dokumentiert und konsequent eingehalten.
-
Erkenntnis 3
Rate-Limits planbar machen. Claude-Limits führen zu besseren Entscheidungen, wenn parallele Systeme bereitstehen. Gemini für Recherche, Codex für Code — das entlastet Claude für die Aufgaben mit höchster Sprachsensibilität.
Für Ihre Praxis
Was ein Stack-Audit mit mir konkret bedeutet.
Ich entwickle seit 2025 produktiv mit mehreren Modellen. Wenn Sie einen KI-Stack auditieren oder aufbauen wollen, sage ich Ihnen, welche Modelle für welche Aufgaben geeignet sind — auf Basis Ihrer Use-Cases. Das Ergebnis ist eine konkrete Routing-Empfehlung, schriftlich dokumentiert.
Bereit für eine KI-Erstberatung?
30 Minuten, kostenfrei, vertraulich.