Multi-Model-Check, wenn’s wirklich drauf ankommt.

How confident is the answer?

KI klingt manchmal genau dann am selbstbewusstesten, wenn sie komplett fabuliert.

KI klingt manchmal genau dann am selbstbewusstesten, wenn sie komplett fabuliert. Ein Modell kann seine eigenen Fehler nicht erkennen (Huang et al., ICLR 2024). Bei wichtigen Entscheidungen ist das gefährlich. Truth matters.

Wenn’s um die Wurscht geht, kannst du den KI-Turbo einschalten — und die besten Modelle steigen für dich in den Ring. Mehrere unabhängige Modelle prüfen sich gegenseitig. „discode kann widersprechen — sich selbst.“

Stell eine Frage, bei der’s drauf ankommt.

Judge → A wins · 3 Modelle, blind bewertet

Claude Opus 4

Der Vertrag ist kündbar: §8 erlaubt die ordentliche Kündigung mit drei Monaten Frist zum Quartalsende. Die Schriftform ist zwingend …

More...

Gemini 2.5 Pro

Eine Kündigung ist möglich. Beachte die Frist in §8 und die Formvorschrift. Eine außerordentliche Kündigung käme nur bei wichtigem Grund …

More...

GPT-5

Ja, du kannst kündigen. Schau in den Abschnitt zu Laufzeit und Fristen; sende die Kündigung am besten per Einschreiben …

More...

Trio & Judge

Wenn Falschsein Konsequenzen hat — Verträge, Recht, Fakten-Checks, Medizin — lässt du mehrere unabhängige Modelle gegeneinander antreten und von einem vierten bewerten. Das hebt die faktische Präzision von ~73 % auf ~96 % und drückt Halluzinationen von ~25 % auf unter 2 %. Langsamer und teurer als Solo — dafür belastbar.

1. Battle

Deine Frage geht parallel an drei Modelle aus drei Anbieterfamilien — wirklich verschiedene Perspektiven, nicht dreimal derselbe Trainings-Bias.

2. Judge

Ein separates Modell bewertet alle Antworten blind und in zufälliger Reihenfolge (gegen Position-Bias), findet den Konsens und wählt die stärksten Elemente.

3. Synthese

Eine finale Antwort aus dem Besten der drei. Abweichungen werden nicht versteckt, sondern markiert — du siehst, wo die Unsicherheit sitzt.

So arbeitet Trio

Drei Modelle, ein unabhängiger Schiedsrichter, eine synthetisierte Antwort — automatisch, ohne dass du etwas einstellst.

ChallengerCriticImproverRefiner

Challenger

Die erste Antwort gilt als Entwurf — denn das ist sie. Ein Modell eines anderen Anbieters liest sie und sucht gezielt nach dem, was schiefläuft: logische Lücken, fehlender Kontext, ungestützte Behauptungen.

1. Critic

Ein Modell eines anderen Anbieters prüft jede Aussage und markiert kritische Probleme, logische Lücken und fehlende Infos. Sind alle Befunde geringfügig, endet der Prozess hier.

2. Improver

Eine andere Modellfamilie verarbeitet die Kritik und schreibt eine verbesserte Version, die die Lücken direkt adressiert.

3. Refiner

Bleiben danach noch Probleme, zieht eine letzte Runde alles straff und füllt, was noch fehlt.

Die drei Challenger-Runden

Jede Runde garantiert eine andere Anbieterfamilie — damit nicht zweimal derselbe blinde Fleck prüft. Early-Exit, sobald nur noch Kleinigkeiten bleiben; die Modellsequenz ist pro Domäne optimiert (Mathe, Code, Recht, Medizin).

Ehrliche Grenzen: Für simple Fakten ist Verifikation Overkill — Trio/Challenger kosten Zeit, Geld und Rechenleistung; discode sagt das aktiv im Chat, statt Mehrverbrauch zu verkaufen. Verifikation senkt Fehler drastisch, eliminiert sie nicht. Der Confidence Score ist ein Signal, kein Garantie-Siegel.