Multi-LLM-Setup — vier Modelle, eine Routing-Regel

KI-Exzellenz-Übersicht

Case aus eigener Praxis

Multi-LLM-Setup: vier Modelle mit klarer Routing-Logik.

Claude, Codex, Gemini, Ministral 3 14B lokal. Jede Aufgabe landet beim richtigen System. Inklusive Grenzen lokaler Modelle.

Das Problem

Ein Universalmodell für alles ist eine Kompromiss-Maschine.

Das leistungsstärkste Modell für jede Aufgabe wird teuer — durch Rate-Limits, Kosten und Qualitätsstreuung.

Wer ausschließlich auf ein Sprachmodell setzt, erkauft Einfachheit mit Qualitätseinbußen und Verfügbarkeitsrisiken. Rate-Limits, Stärken-Schwächen-Profile und Kostenkurven sprechen für eine klare Aufgabentrennung. Die Logik dafür ist dokumentiert.

Die Routing-Regel

Vier Modelle mit klarer Entscheidungslogik.

ModellRouting-KriteriumTypische Aufgaben
Claude (Sonnet/Opus) Sprachgefühl, Argumentation, Substanz Blogposts, Lektorat, Kundenkommunikation, strategische Beratung
Codex Mechanische Code-Aufgaben Code-Stubs, Refactoring, Test-Daten, automatisierte Transformationen
Gemini Großes Kontextfenster, Web-Zugang Recherche-intensive Analysen, Dokumentverarbeitung, Web-Synthese
Ministral 3 14B Lokale Inferenz, Datenschutz Boilerplate, einfache Extraktion, Test-Daten
4 Modelle im Stack
1 Routing-Logik
0 Content-Delegationen an lokale Modelle

Was funktioniert

Qualität entsteht durch das richtige Routing.

4 Stufen
Content-QS-Pipeline
Substanz · Pattern · Grammatik · Review
RTX 5070 Ti
16 GB VRAM, lokale Inferenz
Ministral 3 14B, Qwen 3.5
4
Modelle im Produktiv-Stack
Claude · Codex · Gemini · Ministral

Lokale Modelle liefern Code, Boilerplate, Extraktion. Für Lektorat, Voice, Argumentation und Kundenkommunikation ist Claude das einzige System im Stack. Diese Grenze ist eine bewusste Design-Entscheidung.

Lessons Learned

Drei Erkenntnisse, die teuer gekauft wurden.

  • Erkenntnis 1
    Lokale Modelle für Content-Aufgaben. Ministral 3 14B trifft das Englisch-Übersetzungs-Problem: Idiome, Sprachgefühl, Argumentationsbögen fehlen. Der dokumentierte Voice-Drift in einem Blog-Post war der Beleg. Seitdem bleibt Content-Generierung bei Claude.
  • Erkenntnis 2
    Ein Routing-Muster ohne explizite Regeln. „Je nachdem“ ist kein Routing. Die Grenze zwischen Code-Aufgaben (Ministral, Codex) und Content-Aufgaben (Claude) gehört explizit dokumentiert und konsequent eingehalten.
  • Erkenntnis 3
    Rate-Limits planbar machen. Claude-Limits führen zu besseren Entscheidungen, wenn parallele Systeme bereitstehen. Gemini für Recherche, Codex für Code — das entlastet Claude für die Aufgaben mit höchster Sprachsensibilität.

Für Ihre Praxis

Was ein Stack-Audit mit mir konkret bedeutet.

Ich entwickle seit 2025 produktiv mit mehreren Modellen. Wenn Sie einen KI-Stack auditieren oder aufbauen wollen, sage ich Ihnen, welche Modelle für welche Aufgaben geeignet sind — auf Basis Ihrer Use-Cases. Das Ergebnis ist eine konkrete Routing-Empfehlung, schriftlich dokumentiert.

Bereit für eine KI-Erstberatung?

30 Minuten, kostenfrei, vertraulich.