Claude Fable 5: Preis, Faktor 2 und Praxistest gegen Opus 4.8

Anthropic hat am 9. Juni 2026 Claude Fable 5 freigegeben: das erste Modell aus der bisher nur intern bekannten Mythos-Klasse, die Anfang des Jahres durch ihre Treffer bei Cyber-Schwachstellenanalysen Schlagzeilen gemacht hatte. Fable 5 ist über die Claude API, AWS Bedrock, Vertex AI und Microsoft Foundry verfügbar, in den Abos Pro, Max, Team und Enterprise bis zum 22. Juni ohne Aufpreis enthalten. Ab dem 23. Juni läuft die Nutzung im Abo nur noch über Usage-Credits, bis Anthropic die Kapazitäten ausgebaut hat.

Die Schlagzeilen werden sich an den Benchmark-Zahlen abarbeiten. Praktisch wichtiger ist eine andere Zahl: Fable 5 kostet pro Token exakt das Doppelte von Claude Opus 4.8. Mit dieser Zahl sollten Sie rechnen, bevor Sie das Modell in einen produktiven Ablauf stellen.

Was Anthropic ausgeliefert hat

Fable 5 ist als claude-fable-5 erreichbar, mit 1 Mio. Token Kontextfenster und maximal 128k Token Output. Wer den vollen 1-Mio-Kontext ausnutzt, zahlt allein für den Input 10 $ pro Anfrage, bei Opus 4.8 die Hälfte. Für Agentensysteme, die Kontexte schrittweise aufbauen, ist das die eigentlich harte Größe in der Monatsrechnung.

Ein zuschaltbares Extended Thinking gibt es nicht; das Modell entscheidet selbst, wann es länger nachdenkt. Diese Denk-Tokens zählen zum Output und kosten den Output-Preis. Die 2x-Rechnung ist deshalb ein Mindestwert; wer kalkuliert, sollte einen Puffer ansetzen.

Die schärfere Variante desselben Basismodells, Claude Mythos 5, hat teilweise gelockerte Schutzmechanismen und läuft ausschließlich über Project Glasswing in Zusammenarbeit mit US-Regierungsstellen. Self-Service gibt es dort nicht. Für die produktive Nutzung im Mittelstand ist allein Fable 5 relevant.

Zu den Benchmark-Zahlen: Anthropic spricht von Bestwerten auf nahezu allen getesteten Verfahren, drei Kunden liefern in der Pressemitteilung Lob (Hex etwa meldet erstmals über 90 % auf dem eigenen Analytics-Benchmark, 10 Punkte über Opus). Das sind PR-Zitate ohne offengelegte Methodik. Eigene Messung ersetzen sie nicht.

Der stille Modellwechsel und seine Folgen für die QM-Welt

Architektonisch sitzt im Modell ein eingebauter Sicherheits-Fallback. Bei Anfragen rund um Cybersicherheit, Biologie/Chemie oder Versuche, das Modell zu destillieren, antwortet nicht Fable 5, sondern Claude Opus 4.8. Anthropic gibt an, das betreffe weniger als 5 % der Sessions; über 95 % laufen vollständig auf Fable.

Für regulierte Dokumentation (Medizinprodukte, Maschinenrichtlinie, Pharma) ist das mehr als eine Randnotiz: Ein QM-System nach ISO 13485 oder ein validiertes System nach GAMP 5 verlangt den Nachweis, welches Modell in welcher Anfrage tatsächlich geantwortet hat. Ob die API den tatsächlich antwortenden Modellnamen meldet, geht aus den bisher öffentlichen Informationen nicht hervor. Wer Fable für regulierte Dokumentation einsetzt, ohne den Modellwechsel zu protokollieren, riskiert im Audit eine Lücke.

Die 2x-Rechnung, konkret

Die offizielle Preisliste:

Modell	Input ($/Mio. Token)	Output ($/Mio. Token)
Claude Opus 4.8	5	25
Claude Fable 5	10	50

In der Claude-App steht beim Modellwechsel der Hinweis: „Fable ist das leistungsfähigste Modell und verbraucht 2x so viel wie Opus.“ Im Abo bedeutet das einen doppelten Credit-Faktor auf das Kontingent, in der API den doppelten Rechnungsposten.

Ein Beispiel aus der Doku-Praxis. Sie lassen Fable einen mittelgroßen Wartungsleitfaden überarbeiten: 40.000 Token Quellmaterial (Konstruktionsdaten, Vorgängerversion, Styleguide, Terminologie) plus 8.000 Token Output (überarbeitetes Kapitel). Mit Opus 4.8 kostet dieser Lauf 0,20 $ Input + 0,20 $ Output = 0,40 $. Mit Fable 5 sind es 0,40 $ + 0,40 $ = 0,80 $.

Skaliert auf 200 solcher Läufe im Monat: 80 $ statt 40 $. Der absolute Betrag ist überschaubar, entscheidend ist das Verhältnis zum erzielten Ergebnis. Bei einem internen Stundensatz von 70 € pro Stunde eines Tech-Redakteurs sind 5 Minuten eingesparter Korrekturaufwand pro Lauf rechnerisch 5,83 € wert; der Fable-Aufpreis liegt bei 0,40 $. Schon eine sehr kleine Zeitersparnis pro Lauf gleicht die zusätzlichen Token-Kosten aus. Sind die Ergebnisse vergleichbar gut wie bei Opus, ist Fable für diesen Arbeitsschritt die teurere Variante ohne Gegenwert.

Für lange Agentenketten verschiebt sich das Bild: Bei einem Auftrag, der 500.000 Token Kontext aufbaut und 30.000 Token Output produziert, sind es 7,50 $ (Opus) gegen 15 $ (Fable). Bei einer Fehlerquote, die einen kompletten zweiten Lauf erzwingt, ist der Aufpreis schnell wieder eingespielt.

Wer das Zeitfenster bis zum 22. Juni nutzen kann

Bis einschließlich 22. Juni läuft Fable 5 in den Abos Pro, Max und Team ohne zusätzlichen Verbrauch mit; das ist die Gelegenheit, das Modell an echten Aufgaben zu messen, ohne dass jede Iteration Geld kostet. Wer dagegen über die Claude API, AWS Bedrock, Vertex AI oder Microsoft Foundry abrechnet, zahlt seit dem 9. Juni den doppelten Satz. Klären Sie deshalb vor dem Testen, über welchen Vertragsweg Ihre Tokens tatsächlich laufen.

Wie Sie selbst testen

Vergleiche zwischen Modellen scheitern fast immer am gleichen Punkt: Die Kriterien werden erst nach dem Output festgelegt. Nehmen Sie stattdessen zwei oder drei wiederkehrende Aufgaben aus Ihrem Alltag (eine Schreibaufgabe mit viel Quellmaterial, eine Konsistenzprüfung, eine mehrstufige Rechercheaufgabe) und bewerten Sie beide Modelle mit denselben, vorab festgelegten Kriterien:

Brauchbarkeit im ersten Anlauf: Wie viel würden Sie unverändert übernehmen?
Korrekturaufwand: Wie lange dauert die Nacharbeit?
Vollständigkeit: Sind alle Anforderungen aus dem Auftrag abgedeckt?
Erfundene Fakten: Wie oft behauptet das Modell Dinge, die nicht im Material stehen?

Mehrere Durchläufe pro Aufgabe mit identischem Prompt, und idealerweise bewerten zwei Personen unabhängig voneinander.

Unser eigener Test

Wir haben beide Modelle in derselben Arbeitsumgebung (Claude Code, Mehragenten-Lauf) gegen denselben Auftrag antreten lassen: einen Migrationsplan von Word zu einem Redaktionssystem (CCMS) für einen Maschinenbauer mit 12 Produktvarianten, mit sechs harten Vorgaben von Budgetdeckel über Personalgrenze bis zum Fertigstellungstermin, jede einzeln nachzuweisen. Ein Durchlauf je Modell, also n=1; das ergibt keine Statistik, aber einen realen Eindruck.

Eine Einschränkung vorweg: Die Läufe waren nicht exakt gleich aufgebaut. Beide Modelle organisierten sich selbstständig in Agenten-Teams (das war nicht vorgegeben), Opus mit 12 Agenten, Fable mit 19, davon deutlich mehr Kontrollrunden.

Messwerte

Messgröße	Claude Fable 5	Claude Opus 4.8
Gesamtlaufzeit	62 min 29 s	14 min 41 s
Agenten im Lauf	19	12
Agenten-Neustarts	1 (ein Prüfagent blieb 814 Sekunden ohne Fortschritt)	0
Token laut Abschluss-Anzeige (gleiche Zählweise)	1,4 Mio	948.000

Die Token-Werte stammen aus derselben Abschluss-Anzeige und sind direkt vergleichbar: Faktor 1,5 bei den Token, Faktor 4 bei der Laufzeit. Die Laufzeit-Differenz mischt allerdings Modellgeschwindigkeit und Prüfumfang, denn der Fable-Lauf fuhr deutlich mehr Prüfschleifen. Rechnet man die App-Notice dazu (Fable verbraucht das Doppelte je Token aufs Kontingent), kostete der Fable-Lauf rund das Dreifache des Opus-Laufs.

Beide Läufe im Original, jeweils die Abschluss-Anzeige des Laufs:

Opus 4.8: 12/12 Agenten, 14 min 41 s, 948k Token

Fable 5: 19/19 Agenten, 1 h 2 min, 1,4 Mio Token, ein dokumentierter Neustart

Was in den Plänen auffiel

Beide Pläne hielten formal alle sechs Vorgaben ein. Der interessante Unterschied lag im Umgang mit der härtesten Vorgabe, dem Fertigstellungstermin nach 9 Monaten.

Opus 4.8 blieb vorsichtig: Es erklärte den Termin nur unter Bedingungen für haltbar und verlangte, vor einer Zusage drei Dinge beim Kunden zu prüfen, etwa die Qualität der vorhandenen Word-Dokumente. So antwortet ein erfahrener Berater, der nichts zusagt, was er nicht halten kann.

Fable 5 plante dagegen alles bis auf den letzten Euro und Arbeitstag durch und erklärte den Termin für machbar. Das liefert mehr Detail, verspricht aber auch mehr. Ein Pluspunkt kam dazu: Die zusätzlichen Kontrollrunden im Fable-Lauf entdeckten zwei Rechenfehler im eigenen Entwurf und korrigierten sie selbst.

Ob diese Unterschiede am Modell liegen oder an den zusätzlichen Kontrollrunden, lässt sich aus einem einzelnen Durchlauf nicht sagen. Festhalten lässt sich: Der teurere Lauf war gründlicher und detailreicher, der günstigere schneller und in seiner Zusage vorsichtiger.

Wofür sich der Faktor 2 plausibel rechnet

Aus der bisherigen Erfahrung mit der Opus-Klasse lässt sich grob abschätzen, wo Fable 5 wirtschaftlich Sinn ergibt:

Lange Agentenketten mit mehreren Werkzeugaufrufen, bei denen ein einziger Modellfehler den ganzen Lauf entwertet.
Aufgaben mit hohen Fehlerkosten (Compliance-Texte, sicherheitsrelevante Anweisungen, Vertragsentwürfe), bei denen eine zweite menschliche Korrekturschleife teurer ist als ein doppelt so teures Modell.
Konsistenzprüfung über ganze Produktfamilien, bei denen ein Terminologie-Bruch in einer Sprache 20 Folgedokumente und mehrere Sprachversionen betrifft.
Große Kontexte ab 300.000 Token aufwärts, bei denen das Modell wirklich alles lesen und verbinden muss, statt nur lokal auf den letzten Abschnitt zu reagieren.

Für alles andere (kurze E-Mail-Entwürfe, einfache Übersetzungen, schematische Routinearbeit) bleibt Opus 4.8 oder Sonnet die wirtschaftlichere Wahl. Wer Fable 5 reflexhaft als „neues bestes Modell“ überall einsetzt, zahlt doppelt, ohne dafür messbar bessere Ergebnisse zu bekommen.

Noch ein Detail für die Budgetplanung: Fable 5 und Opus 4.8 zählen Tokens gleich; ältere Kostenschätzungen aus der Modellgeneration vor Opus 4.7 setzen dagegen rund 30 % zu wenig Token an und gehören vor der Kalkulation aktualisiert.

Da Fable bis zum 22. Juni im Abo mitläuft, bleibt für eine ernsthafte Prüfung mit eigenen Aufgaben nur ein schmales Zeitfenster, das sich zu nutzen lohnt.

Claude Fable 5: Was der Faktor 2 für die Praxis bedeutet

Was Anthropic ausgeliefert hat

Der stille Modellwechsel und seine Folgen für die QM-Welt

Die 2x-Rechnung, konkret

Wer das Zeitfenster bis zum 22. Juni nutzen kann

Wie Sie selbst testen

Unser eigener Test

Messwerte

Was in den Plänen auffiel

Wofür sich der Faktor 2 plausibel rechnet

Ein Kommentar

Kommentar schreiben Antwort abbrechen

Was Anthropic ausgeliefert hat

Der stille Modellwechsel und seine Folgen für die QM-Welt

Die 2x-Rechnung, konkret

Wer das Zeitfenster bis zum 22. Juni nutzen kann

Wie Sie selbst testen

Unser eigener Test

Messwerte

Was in den Plänen auffiel

Wofür sich der Faktor 2 plausibel rechnet

Artikel teilen

Ähnliche Beiträge

Warum gute KI-Projekte im Mittelstand leise einschlafen.

Ihre KI hat kein Gedächtnis. Jeden Morgen fängt sie bei null an.

Digitalisierung in kleinen Unternehmen beginnt bei der Dokumentation

Kommentar schreiben Antwort abbrechen

Diese Website verwendet Cookies