KI-Modelle für die Technische Dokumentation im Test

Da die neuen Modelle Fable und Mythos noch immer im Heimaturlaub sind, und wegen des Grundes dahinter, schaue ich mir offiziell die einzige EU-Alternative an: Mistral! Dazu habe ich meinen Standard-Benchmark laufen lassen, den ich bei allen neuen oder interessanten Modellen laufen lasse. Die bekannten Benchmarks, die zu solchen Leaderboards führen, sind allgemein sinnvoll, bilden aber mehr einen Test im Labor als reale Anwendungen ab.

MMLU prüft Fachwissen quer durch die Disziplinen, SWE-bench lässt Modelle reale Software-Tickets aus offenen Repositories lösen, dazu kommen Tests für Mathematik und logisches Schließen. Anspruchsvolle, sauber gebaute Verfahren. Nur sagen sie mir wenig darüber, wie sich ein Modell an einem Wartungskapitel verhält, an einem Sicherheitshinweis nach dem Muster Ursache, Folge, Maßnahmen, an einer Tabelle mit Technischen Daten. Das ist mein Arbeitsalltag in der Technischen Dokumentation. Und da interessiert mich nur eines: Bleibt das Modell bei dem, was im Text steht, oder fängt es an zu schwafeln?

Welches KI-Modell taugt für die Technische Dokumentation? Diese Frage stelle ich mir in fast jedem Beratungsprojekt, und die öffentlichen KI-Vergleiche beantworten sie nicht. Also habe ich einen eigenen Maßstab gebaut, klein und meinungsstark, an Doku-Struktur aus der Praxis. Intern heißt er SC-Bench. Das erste Duell: das französische Modell Mistral gegen Anthropic Opus 4.8, als neutraler Schiedsrichter Google Gemini, blind und ohne zu wissen, welche Antwort von wem stammt. Das Ergebnis hat mich an einer Stelle überrascht.

SC-Bench v1

Mistral vs. Opus 4.8 — geprüft an einer CCMS-Betriebsanleitung

Faktentreue & Struktur

Gleichstand

Stil & Didaktik

Opus vorn (Judge 9:7)

KI-Geschlabber

beide sauber

Aufgabe	Mistral	Opus 4.8	Ergebnis
Zusammenfassung	sauber	sauber	Judge: Opus 9:7
Gegroundetes Q&A	korrekt	korrekt	Gleichstand
Halluzinations-Resistenz	bestanden	bestanden	Gleichstand
Übersetzung DE→EN	keine CLI-Ausgabe*	korrekt	ausgeklammert*
Vereinfachen für Laien	sauber	sauber + gegliedert	Judge: Opus 9:7
Strukturierte Extraktion (JSON)	valide	valide	Gleichstand

*Aufgabe 4: Werkzeug-Aussetzer über die CLI — nicht als Niederlage gewertet. n=6, opinioniert. Judge = neutraler Dritter (Gemini).

Die Übersicht oben zeigt den Stand nach Runde eins.

Gängige KI-Benchmarks nur bedingt aussagekräftig

Wenn ein Modell aus einer freien Eingabe einen Wikipedia-tauglichen Absatz baut, sagt das wenig darüber aus, wie es sich an einer modularen Topic-Struktur verhält. In der Technischen Redaktion arbeiten Sie selten mit losen Absätzen. Sie arbeiten mit Bausteinen aus einem CCMS, oft auf XML-Basis, mit klaren Pflichtfeldern, mit Sicherheitshinweisen nach festem Schema, mit Tabellen. Wer das einmal in einem modernen CCMS-Projekt auf XML-Basis gesehen hat, weiß, dass ein flüssiger Schreibstil hier nur die halbe Miete ist.

Die großen Benchmarks prüfen die allgemeine Fähigkeit eines Modells. Für die Auswahl eines Modells in der Redaktion ist das nur bedingt brauchbar. Natürlich ist anzunehmen, dass ein starkes Modell in diesen Benchmarks auch gut für Anwendungsfälle in normalen Firmen und dem Mittestand geeignet ist. Wie sieht es aber mit einem Modell aus, das in solchen Benchmarks keine Spitzenposition erreicht? Im Arena-AI Benchmark zum Beispiel, kommen die Modelle von Mistral im Bereich „Text“ erst auf den Plätzen 75 und 99. Ich wollte wissen, was passiert, wenn ein Modell unter den Bedingungen arbeiten muss, unter denen normale Firmen täglich arbeiten.

Der Korpus: ein erfundenes Gerät an einer Struktur aus dem CCMS

Als Spielfeld habe ich eine vollständige Betriebsanleitung für ein frei erfundenes Produkt geschrieben, den SC-Beraterradar SCR-200. Die Struktur dieser Anleitung habe ich dagegen aus einem laufenden CCMS-Export abgeleitet: modulare Topics, Sicherheitshinweise nach Ursache, Folge, Maßnahmen, Verfahrensanweisungen, Tabellen, Technische Daten. So sieht eine moderne Anleitung im Maschinenbau aus, wenn sie aus einem CCMS kommt.

Aus diesem Korpus habe ich sechs Aufgaben gebaut, die typische Arbeitsschritte abbilden:

Zusammenfassung eines Wartungskapitels in drei Sätzen.
Gegroundetes Q&A: eine Frage, die sich nur aus dem Text beantworten lässt.
Halluzinations-Resistenz: eine Frage zu einer Angabe, die im Text gar nicht vorkommt.
Übersetzung eines Sicherheitshinweises ins Englische.
Vereinfachung eines komplexen Absatzes für Laien.
Strukturierte Extraktion aller Sicherheitshinweise als JSON-Array nach festem Schema.

Diese Aufgabenliste erhebt keinen Anspruch auf Vollständigkeit. Sie bildet typische Arbeitsschritte ab und liegt damit näher an dem, was Sie und Ihr Team tatsächlich tun, als jeder Standard-Benchmark, den ich kenne. Wer KI in der Redaktion ernsthaft einsetzen will, muss genau hier hinschauen. Das ist auch der Grund, warum ich in meinen Beratungen so häufig auf KI in der Technischen Redaktion einführen zurückkomme: Ohne saubere Eingangs-Strukturen produziert jede KI nur teures Geschwätz.

Drei Prüfschritte

Damit das Ergebnis nicht von meiner Tageslaune abhängt, prüfen drei Instanzen parallel. Zwei davon arbeiten deterministisch und lassen sich nicht beirren. Die dritte urteilt subjektiv, bleibt dabei aber neutral.

Erstens läuft jeder Text durch meinen KI-Geschlabber-Detektor (Anm. d. R.: „KI-Geschlabber“ ist mein interner Ausdruck für alles, was als „typisch KI“ zu erkennen ist.). Der Detektor zählt Floskeln, Antithesen, Marketing-Phrasen und liefert einen Geschlabber-Wert. Niedrig ist gut. Zweitens prüft ein Referenz-Match die Faktentreue: Steht in der Antwort, was in der Anleitung steht? Wird etwas dazuerfunden? Drittens validiert ein Schema-Check, ob die strukturierte Extraktion sauber im geforderten JSON-Format landet.

Erst nach diesen drei mechanischen Prüfungen kommt der Schiedsrichter zum Zug. Ich habe Google Gemini gewählt, weil weder Mistral noch Opus sich selbst bewerten dürfen. Gemini sieht zwei anonymisierte Antworten A und B in zufälliger Reihenfolge, ohne zu wissen, von wem sie stammen. Ein fehlerfreies Verfahren verspreche ich damit nicht. Trotzdem ist es belastbarer als die meisten Vergleiche, die Sie in den Newslettern dieser Branche lesen.

Das Ergebnis: Mistral und Opus gleichauf bei der Faktentreue

Schauen wir auf die Zahlen. Beim Geschlabber-Wert liegen beide Modelle bei 0, beide im Band „low“. Sauberes Deutsch, keine Floskeln, keine Marketing-Sprache. Auch beim gegroundeten Q&A bestehen beide. Die Betriebstemperatur 5 bis 40 Grad steht so im Text, beide Modelle nennen sie korrekt. Bei der Halluzinations-Resistenz, der für die Doku vielleicht wichtigsten Disziplin, sagen beide klar: Die Information zur Garantie steht nicht im Text. Keiner erfindet etwas dazu. Bei der strukturierten Extraktion liefern beide ein gültiges JSON-Array mit allen Pflichtfeldern.

Das heißt im Klartext: Bei Faktentreue, Disziplin am Text und strukturierter Verarbeitung arbeitet das europäische Modell auf Augenhöhe. Wer wegen Datenschutz, AVV-Lage oder Souveränitäts-Argumenten auf Mistral schaut, bekommt für die Kerndisziplinen der Technischen Redaktion ein Modell, das mithält. Warum das mehr als eine Randnotiz ist, habe ich hier ausgeführt: KI wird wie Strom, und Europa hat kein eigenes Kraftwerk.

Der Abstand entsteht erst in den subjektiven Aufgaben. Gemini wertet sowohl die Zusammenfassung als auch die Vereinfachung für Opus, beide Male mit 9 zu 7 Punkten. Begründung des Schiedsrichters: glatteres, grammatikalisch flüssigeres Deutsch. Bei der Aufgabe „Vereinfachen“ gliedert Opus den Absatz zusätzlich mit Zwischenüberschriften und erklärt den Begriff Erstkonfiguration in Klammern für Laien. Diese didaktische Entscheidung macht in der Anwenderdokumentation den Unterschied.

Eine Aufgabe musste ich ausklammern. Bei der englischen Übersetzung des Sicherheitshinweises lieferte Mistral über die Kommandozeile keine Ausgabe. Der Aussetzer lag nachweislich am Werkzeug, das Modell selbst beherrscht die Aufgabe. Diese Aufgabe geht deshalb nicht in die Wertung, offen ausgewiesen und nicht als Niederlage gezählt.

Welches KI-Modell wofür: meine Empfehlung für die Redaktion

Sechs Aufgaben sind ein kleiner Test und stressen keines der Modelle. Daraus kann ich kein Universal-Ranking ableiten, und Sie sollten so eines von niemandem akzeptieren, der es Ihnen verkaufen will. Was ich aber sagen kann: Für die Kerndisziplinen der Technischen Dokumentation, also Faktentreue, Halluzinations-Resistenz und strukturierte Extraktion, sehe ich nach Runde eins keinen Grund, Mistral kategorisch auszuschließen. Wo es um Anwenderkommunikation geht, um die Vereinfachung komplexer Sachverhalte, um die Wirkung auf den Leser, liegt Opus vorn.

Für mich heißt das: Ich wähle das Modell nach der konkreten Aufgabe aus, nach Faktentreue, Struktur oder didaktischer Wirkung. Der Markenname ist dabei zweitrangig. Für strukturierte Auswertung, für ein Audit Ihrer Sicherheitshinweise, für die Befüllung von Metadaten genügt ein gut geführtes europäisches Modell. Für die kundenseitige Aufbereitung, für Einarbeitungstexte, für didaktisch geführte Anleitungen arbeitet das amerikanische Spitzenmodell derzeit präziser. Wer beides ernsthaft kombiniert, kommt günstiger und sauberer durch das Projekt als jeder, der pauschal einer einzigen Marke vertraut. Welche Architektur dahinter sinnvoll ist, beschreibe ich in Multi-LLM-Orchestrierung: Architektur statt Abo-Upgrade.

Mir geht es am Ende um die Methode. Das Ergebnis aus Runde eins ist nur der Beleg dafür. Wer in Ihrem Unternehmen über den KI-Einsatz in der Redaktion entscheidet, sollte den Vergleich an den eigenen Texten machen, an der eigenen CCMS-Struktur, an den eigenen Sicherheitshinweisen und an den Aufgaben aus dem eigenen Redaktionsalltag. Genau dafür habe ich SC-Bench gebaut.

Wenn es um die Einhaltung der DSGVO und das Thema Souveränität geht, kommen Sie an Mistral nicht vorbei. Die gute Nachricht ist: Mistral bildet eine solide Alternative, die ihre KI-Prozesse aufrecht erhält, wenn andere Modelle ausfallen.

Welches KI-Modell taugt für die Technische Dokumentation? Ich habe Mistral-Medium-3.5 und Opus 4.8 an einer CCMS-Betriebsanleitung gemessen.

Gängige KI-Benchmarks nur bedingt aussagekräftig

Der Korpus: ein erfundenes Gerät an einer Struktur aus dem CCMS

Drei Prüfschritte

Das Ergebnis: Mistral und Opus gleichauf bei der Faktentreue

Welches KI-Modell wofür: meine Empfehlung für die Redaktion

Kommentar schreiben Antwort abbrechen

Gängige KI-Benchmarks nur bedingt aussagekräftig

Der Korpus: ein erfundenes Gerät an einer Struktur aus dem CCMS

Drei Prüfschritte

Das Ergebnis: Mistral und Opus gleichauf bei der Faktentreue

Welches KI-Modell wofür: meine Empfehlung für die Redaktion

Artikel teilen

Ähnliche Beiträge

Sonnet 5 ist seit gestern da. Und für den Mittelstand verschiebt sich damit die Kostenrechnung für KI-Agenten.

KI & Doku – Wochenrückschau KW 25

Effizienzsteigerung durch strukturiertes Wissensmanagement

Kommentar schreiben Antwort abbrechen

Diese Website verwendet Cookies