Die beste KI — für dich

Jedes Team, das gerade mit KI baut, kennt dieselbe leise Unruhe: Nutzen wir eigentlich das richtige Modell? Das Modell, das du vor einem halben Jahr gewählt hast, war damals die klügste Wahl. Seitdem sind drei neue Anbieter gestartet, zwei bestehende haben ihre Preise halbiert, ein Frontier-Modell schiebt alle paar Wochen stillschweigend einen neuen Point Release nach, und dein Compliance-Team fängt an, spitze Fragen zu stellen, wo deine Dokumente eigentlich verarbeitet werden.

So sah es bei einem Kunden aus, für den wir seit einer Weile Software bauen — ein deutscher Handelsverband, dessen Mitglieder Holz aus der ganzen Welt importieren. Sie standen alle vor derselben Compliance-Klippe: der EU-Entwaldungsverordnung. Wenn eine Holzlieferung aus Asien, Afrika oder Südamerika ankommt, muss der Importeur gesetzlich nachweisen, dass jeder einzelne Stamm in diesem Container aus einer legalen, nachverfolgbaren, nicht-entwaldeten Quelle stammt. Dieser Nachweis nimmt die Form einer Due-Diligence-Erklärung an: ein strukturiertes Lieferkettendokument, das die Sendung über jede Transportgenehmigung, jeden Grundbucheintrag, jede GPS-Koordinate einer Plantage und jede involvierte Baumart zurück zum ursprünglichen Wald verknüpft. Das per Hand zu erstellen kostet Tage pro Sendung, über einen Ordner voll mit etwa dreißig Dokumenten in fünf Sprachen. Multipliziere das mit jeder Sendung, die jedes Mitglied jeden Monat abwickelt — und die Zahl wird schnell bedrohlich.

Der Kunde hat uns beauftragt, ein Tool zu bauen, das seine Mitglieder einsetzen können, um diesen Prozess zu automatisieren. Es nimmt die rohen PDFs und Fotos entgegen, klassifiziert jedes Dokument, zieht die für die DDS benötigten Felder heraus, liest Geokoordinaten aus Plantagenkarten (auch aus solchen, die als Handy-Screenshots von WeChat reinkommen), extrahiert Baumarten aus Forstrichtlinien und übersetzt alles in ein einziges englisches HTML-Dokument, das einreichungsfertig ist. Fünf KI-Aufgaben, die auf Tausenden von Dokumenten pro Monat für Dutzende von Importeuren laufen — alles fließt durch Google Gemini 2.5 Flash, ein einziges Frontier-Modell, das schnell ist, zuverlässig und halbwegs günstig. Es funktionierte. Aber “es funktioniert” ist nicht dasselbe wie “es ist das richtige Werkzeug für jeden Job.” Die Frage war, ob irgendein anderer Anbieter eine dieser fünf Aufgaben still und leise besser oder billiger — oder beides — macht. Und ob die Antwort die Komplexität rechtfertigt, Tasks an unterschiedliche Anbieter zu routen. Wenn Dutzende Mitglieder von derselben Pipeline abhängen, zählt die richtige Antwort mehr als bei einer Single-Tenant-App.

Also haben wir einen Bakeoff gefahren. Das ist, was wir daraus gelernt haben.

Der Aufbau

Die Testmethodik entwerfen

Die Pipeline hat fünf Dokumentenanalyse-Aufgaben — Dokumenttyp erkennen, strukturierte Felder extrahieren, Baumarten aus Forstrichtlinien ziehen, Geokoordinaten aus Plantagenkarten lesen und Dokumente in HTML übersetzen. Jede Aufgabe hat ihren eigenen Prompt, ihr eigenes Schema und ihre eigenen Fehlermodi. Ein Anbieter, der auf Rechnungen glänzt, kann bei Kartenbildern einbrechen. Ein Modell, das dichte Tabellen souverän liest, übersieht Artnamen auf einer gescannten Forstrichtlinie.

Wir wollten keine Meinungen. Wir wollten Zahlen.

Das Testset

32 echte Dokumente, direkt aus der Produktion gezogen und in drei Ordner organisiert, die exakt den drei Task-Formen entsprechen, die in Produktion laufen:

21 Feld-Dokumente — Rechnungen, Genehmigungen, E-Waybills, Vermessungsbögen, Eigentumsnachweise, Zahlungsbelege. Getestet gegen Dokumenterkennung, Feldextraktion und Übersetzung.
10 Geo-Dokumente — PDF-Karten, Plantagen-Koordinatenblätter, eine kyrillische Excel-Datei, ein WeChat-Kartenscreenshot aus China. Getestet gegen Geokoordinaten-Extraktion.
1 Forstrichtlinie — die 9-seitigen WestRock Fiber Sourcing Regulations 2024. Getestet gegen Baumarten-Extraktion.

Echte Dokumente sind hier entscheidend. Synthetische Benchmarks belohnen Modelle, die den Benchmark gesehen haben. Unser Testset war das reale Chaos, das in der Inbox eines Holzimporteurs landet: verdrehte Scans, gemischte Schriften, umbrechende Tabellen, Koordinaten, die in Kartenlegenden gedruckt sind, Dokumente, die in keine der acht Kategorien passen, die unser Klassifikator kennt.

Die Kandidaten

Sechs Anbieter, ausgewählt entlang der Achsen, die zählen: Kosten, Qualität, EU-Datenansässigkeit und architektonische Vielfalt.

Google Gemini 2.5 Flash — die Baseline. US-gehostet über Google AI Studio, multimodal, schnell.
Nebius Gemma 3 27B — ein kleineres, effizientes Open-Weight-Vision-Modell, serviert aus Finnland über Nebius Token Factory.
Nebius Qwen2.5-VL-72B — ein größeres Open-Weight-Vision-Modell auf derselben EU-Infrastruktur.
Mistral Document AI — eine ganz andere Architektur: OCR zuerst, dann läuft ein textbasiertes LLM (Mistral Small) über das extrahierte Markdown. Gehostet in Frankreich.
Claude Haiku 4.5 — der frühere Default, noch als Fallback verdrahtet. US-gehostet, Frontier-Vision, native PDF-Eingabe.
Google Gemma 4 31B — das Next-Gen-Open-Weight-Modell aus demselben Labor wie Gemma 3, serviert über Google AI Studio. Der Kandidat, auf den wir am neugierigsten waren.

Das Scoring

Jeder Lauf erzeugte eine Zahl zwischen 0 und 100 pro Task, basierend auf einem Bewertungsschema, das darauf zugeschnitten ist, was die jeweilige Aufgabe tatsächlich richtig machen muss. Dokumenterkennung wurde bewertet, ob das Ergebnis gültig und spezifisch war. Feldextraktion gewichtet — 60% dafür, wie viele Felder das Modell herauszog, 20% für Typ-Korrektheit, 20% für standardisierte Datumsformatierung. Geokoordinaten wurden auf Formatgültigkeit und Wertebereich geprüft. Baumextraktion an Artenzahl und Formatierung gemessen. Übersetzung an HTML-Struktur und Content-Länge.

Dann haben wir die Suite laufen lassen. 284 API-Aufrufe über die vier Kernanbieter in rund 90 Minuten, plus einen Follow-up-Lauf mit Gemini 2.5 Flash und Gemma 4 31B, sobald die Anbindung an Google AI Studio stand.

Das Ergebnis, das keiner erwartet hat

Hier sind die Durchschnitte über alle 71 Task-Datei-Kombinationen, geordnet gegen die Gemini-2.5-Flash-Baseline:

Rang	Anbieter	Avg / 100	vs Gemini	Fehler
1	Nebius — Gemma 3 27B	86	+3	0
2	Mistral Document AI	84	+1	0
2	Claude Haiku 4.5	84	+1	0
4	Google — Gemini 2.5 Flash (Baseline)	83	—	0
5	Nebius — Qwen2.5-VL-72B	81	−2	1
6	Google — Gemma 4 31B (nach Fixes)	~77	−6	0

Gesamtwertung mit Gemini 2.5 Flash als Baseline

Die Top-Vier liegen innerhalb von drei Punkten. Gemini 2.5 Flash — das Modell, das bereits in Produktion läuft — ist ein legitimer Default: Ein Punkt hinter Document AI und Claude, drei Punkte hinter der besten Alternative, und null Fehler über alle 71 Aufrufe — der beste Zuverlässigkeitswert im gesamten Lauf. Der einzige Anbieter, der Gemini klar schlägt, ist Gemma 3 27B auf Nebius, mit drei Punkten Vorsprung.

Gemma 4 31B, der Kandidat, mit dem wir am liebsten eine “Neuer ist besser”-Geschichte geschrieben hätten, landete auf dem letzten Platz — sechs Punkte hinter Gemini, ohne einen einzigen Task, auf dem es wirklich gewinnt. Neuer hieß diesmal nicht besser.

Für sich genommen ist die Gesamtwertung langweilig. Die Geschichte beginnt, wenn man näher rangeht.

Wo es spannend wird

Die Ergebnisse Task für Task vergleichen

Durchschnitte verstecken alles. In dem Moment, in dem wir die Ergebnisse nach Task aufschlüsselten, wurde aus der flachen Gesamtwertung eine Landschaft mit scharfen Gipfeln und Tälern.

Heatmap pro Task über alle sechs Anbieter

Feldextraktion: wo Gemini still und leise verliert

Task	Gemini 2.5 F	Gemma 3	Doc AI	Claude	Qwen2.5	Gemma 4
Feldextraktion	72	92	93	81	80	67

Das ist der Task, der den ganzen PoC lohnenswert gemacht hat. Gemini 2.5 Flash — das Modell, das schon in Produktion läuft, das auf jeder anderen Aufgabe führt oder gleichauf liegt — kommt auf 72 gegen Gemma 3’s 92 und Document AI’s 93. Ein 20-Punkte-Abstand auf dem Task, der eigentlich am meisten zählt, denn Feldextraktion ist das, was eine PDF in strukturierte Daten verwandelt, mit denen die restliche Pipeline überhaupt etwas anfangen kann.

Das Warum war interessanter als die Lücke selbst. Gemini ließ immer wieder Felder weg, die in unseren Anweisungen als optional markiert waren — obwohl sie im Dokument deutlich sichtbar waren. Es ist kein Vision-Problem — Gemini sieht die Felder. Es ist ein Interpretationsproblem. Das Modell interpretiert “optional” als “weglassen, wenn unsicher”, und auf einer echten Rechnung ist es bei ein, zwei Feldern pro Seite unsicher.

Document AI hat die dichten tabellarischen Layouts klar gewonnen. Ein Inward-Outward-Register, auf dem Claude 46 geschafft hat? Document AI 100. Eine Transportgenehmigung, auf der Claude bei 28 landete? Document AI 100. Wenn jede Zelle einer Tabelle zählt, schlägt OCR-first die Vision-first-Ansätze — denn OCR behandelt jede Zelle als vollwertiges Element, während ein Vision-LLM visuell überladene Bereiche einfach überfliegt.

Gemma 3 war das konstanteste Vision-Modell: 100 auf 12 von 21 Dateien, nie unter 46. Die Überschrift ist nicht “LLMs sind schlecht in Extraktion”, sondern “die richtige Architektur hängt davon ab, wie das Dokument aussieht — und Gemini ist nicht immer diese Architektur.” Gemma 4 31B liegt nach den Fixes bei 67 — fünf Punkte hinter Gemini, 25 hinter Gemma 3.

Baumarten: Sechser-Gleichstand an der Spitze

Task	Gemini 2.5 F	Claude	Gemma 3	Doc AI	Qwen2.5	Gemma 4
Baumarten	100	100	100	100	100	100

Jeder Anbieter kam auf unserem einzigen Forstdokument auf 100. Auf dem aktuellen Testset gibt es zu diesem Task schlicht nichts Interessantes zu sagen — was selbst ein Signal ist: das Sample ist zu klein. Ein Dokument, eine Punktzahl, nichts zum Differenzieren. Bevor man die Baumextraktion aus Qualitätsgründen an einen bestimmten Anbieter routet, wollten wir Ergebnisse über fünf bis zehn mehrseitige Forstrichtlinien sehen.

Geokoordinaten: Dreifach-Gleichstand an der Spitze

Task	Gemini 2.5 F	Claude	Qwen2.5	Gemma 3	Gemma 4	Doc AI
Geokoordinaten	100	100	100	97	97	90

Gemini 2.5 Flash, Claude und Qwen haben jede einzelne Datei getroffen — einschließlich eines kyrillischen Excel-Sheets (vorab in Texttabellen konvertiert) und eines chinesischen WeChat-Kartenscreenshots. Gemma 3 und Gemma 4 haben beide auf einem Bild 30 Punkte verloren. Document AI büßte 70 Punkte auf der chinesischen Karte ein — denn wenn Koordinaten in einer Abbildung statt als gedruckter Text liegen, hat OCR schlicht nichts zum Extrahieren.

Das ist genau die Umkehrung der Feldextraktions-Geschichte. OCR-first gewinnt bei Tabellen und verliert bei Bildern. Vision-first gewinnt bei Bildern und verliert bei überladenen Tabellen. Keine der beiden Architekturen ist grundsätzlich besser — und Gemini sitzt bei diesem Task zufällig auf der Gewinnerseite.

Übersetzung: Gemini gewinnt die Qualität, verliert die Kosten

Task	Gemini 2.5 F	Claude	Gemma 4	Doc AI	Gemma 3	Qwen2.5
Übersetzung	78	77	~77	76	75	66

Gemini 2.5 Flash führt das Feld mit 78 an. Claude liegt einen Punkt dahinter, Gemma 4 (nach dem Fix) und Document AI teilen sich ~76–77, und Gemma 3 27B steht bei 75. Effektiv ein Vierer-Gleichstand, sobald man einberechnet, wie großzügig die Bewertung ist (jedes valide HTML mit Tailwind-Klassen kommt auf 80+).

Qualität ist hier nicht die Story. Kosten sind es.

Gemini 2.5 Flash liefert im Schnitt rund 25.500 Output-Tokens pro Übersetzungsaufruf — grob 3× so viele wie Claude und 8× so viele wie Gemma 3. Bei 2,50 $ pro Million Output-Tokens kostet eine einzige Gemini-Übersetzung etwa 0,064 $ pro Dokument, was mehr ist als der komplette Vier-Task-Lauf fast aller anderen Anbieter auf demselben Dokument. Auf einem typischen Lauf verbraucht die Übersetzung allein rund 83 % aller Output-Tokens, die Gemini produziert. Nur diesen einen Task von Gemini wegzurouten halbiert die Monatsrechnung in etwa, ohne irgendetwas anderes anzufassen.

Noch ein Detail, das es sich zu notieren lohnt: Gemini 2.5 aktiviert den Reasoning-(“Thinking”-)Mode standardmäßig, was pro Aufruf 30–60 Sekunden Latenz und zusätzliche Output-Tokens draufsattelt — oben auf die ohnehin geschwätzigen Übersetzungen. Ein einzelner Dokumenterkennungs-Aufruf fiel von 118 Sekunden auf 2,7 Sekunden, sobald wir den Reasoning-Mode in den Anfrage-Einstellungen abgeschaltet haben. Defaults sind wichtig. Prüfe sie, bevor du einem Benchmark traust.

Die Kostengeschichte

Die Qualität hat uns gesagt, die Anbieter seien grob äquivalent. Die Kosten sagen etwas anderes.

Basierend auf den tatsächlichen Tokens, die wir während des Laufs beobachtet haben — keine Schätzungen, keine Listenpreise, sondern die echten Durchschnitte aus 284 Aufrufen — so viel kostet ein einseitiges Dokument über alle vier Short-Tasks pro Anbieter, gegen die Gemini-2.5-Flash-Baseline, die bereits in Produktion läuft:

Anbieter	Pro Doc.	Pro 10K Docs/Monat	vs Gemini
Google Gemini 2.5 Flash (Baseline)	$0.0301	$301	—
Claude Haiku 4.5	$0.0456	$456	1,5× teurer
Nebius Qwen2.5-VL-72B	$0.0068	$68	~4× günstiger
Mistral Document AI	$0.0051	$51	~6× günstiger
Nebius Gemma 3 27B	$0.0014	$14	~22× günstiger

Die Schlagzeile heißt billig vs. teuer, aber das nützlichere Bild ist Qualität und Kosten zusammen. Trägt man jeden Anbieter auf zwei Achsen ab — Score senkrecht, Monatsrechnung waagerecht —, hört der Sweet Spot auf, eine Diskussion zu sein:

Qualität-vs.-Kosten-Scatterplot mit Gemma 3 27B als Sweet Spot

Gemma 3 27B sitzt alleine oben links: höchste Qualität, niedrigste Kosten. Nichts anderes kommt nahe. Mistral Document AI und Claude Haiku clustern bei 84, kosten aber das Vier- bzw. Zweiunddreißigfache. Gemini 2.5 Flash, die Baseline, steht im Niemandsland — drei Punkte hinter Gemma 3 und rund zwanzigmal so teuer. Selbst Gemma 4 31B landet weit unten links: günstig, aber sechs Punkte dahinter.

Gemma 3 27B ist rund 22× günstiger als Gemini 2.5 Flash auf der tatsächlichen Workload. Nicht im Listenpreis — auf den Tokens, die wir wirklich verbrennen, wenn echte Rechnungen und Forstrichtlinien durchlaufen. Bei zehntausend Dokumenten im Monat sinkt die Rechnung von 301 $ auf 14 $. Zwei Effekte treiben die Lücke: Gemma verarbeitet Bilder etwa sechsmal effizienter als Gemini oder Qwen, und Nebius verlangt ungefähr ein Achtel von Geminis Token-Preis. Diese Effekte potenzieren sich.

Claude Haiku, das vorherige Produktionsmodell, kostet auf demselben Workload tatsächlich 1,5× mehr als Gemini. Die alte Erzählung “Claude ist teuer, die Alternativen sind günstig” hat das still untertrieben — die übersetzungslastigen Kosten wurden nicht getrennt betrachtet, und Gemini ist ohnehin schon die günstigere Frontier-Option.

Die versteckten Gemini-Übersetzungskosten. Auf einem typischen Dokument verschlingt die Übersetzung allein rund 83 % von Geminis gesamten Output-Tokens — etwa 25.500 von 30.700 Output-Tokens pro Dokument. Zu Geminis Output-Preis kostet dieser eine Task ~0,064 $ pro Dokument, mehr als bei manchen Anbietern der gesamte Vier-Task-Lauf. Nur die Übersetzung weg von Gemini zu routen — zu Gemma 3 27B bei ~0,001 $ pro Call — bringt die Monatsrechnung von ~301 $ auf rund 60–80 $, ohne einen einzigen der Short-Tasks anzufassen. Es ist der mit Abstand hebelstärkste Eingriff auf dieser Liste.

Die Frage der Datenresidenz

Wenn man Handelsdokumente verarbeitet — Rechnungen, Genehmigungen, Eigentumsnachweise —, handhabt man geschäftssensible Daten, die unter die DSGVO fallen können. Wohin diese Daten geschickt werden, ist relevant, und für europäische Unternehmen wird es zunehmend eine harte Anforderung statt nur ein Nice-to-have.

Jeder API-Aufruf in dieser Pipeline schickt ein vollständiges Dokumentenbild an ein Drittanbieter-Modell. Das bedeutet: Das Dokument verlässt die eigene Infrastruktur und landet auf fremden Servern. Unter der DSGVO braucht diese Übermittlung eine Rechtsgrundlage, und Übermittlungen außerhalb der EU erfordern zusätzliche Garantien wie Standardvertragsklauseln. Je mehr Anbieter man nutzt, desto mehr Auftragsverarbeitungsverträge braucht man. Je weiter die Daten reisen, desto mehr Compliance-Oberfläche exponiert man.

So steht es um jeden Anbieter in unserem Test:

Anbieter	Datenstandort	DSGVO-freundlich?
Nebius (Gemma 3 27B)	Finnland	Ja
Nebius (Qwen2.5-VL)	Finnland	Ja
Mistral Document AI	Frankreich	Ja
Google Gemini 2.5 Flash	USA	Zusätzliche Schritte
Claude Haiku 4.5	USA	Zusätzliche Schritte
Google Gemma 4 31B	USA	Zusätzliche Schritte

Die drei EU-gehosteten Optionen — beide Nebius-Modelle und Mistral — halten die Daten standardmäßig innerhalb des Europäischen Wirtschaftsraums. Keine zusätzlichen Übermittlungsvereinbarungen, keine Abhängigkeit von Angemessenheitsbeschlüssen, die vor Gericht angefochten werden könnten. Für die US-gehosteten Anbieter braucht man mindestens Standardvertragsklauseln, und die Rechtsabteilung möchte möglicherweise zusätzlich ein Transfer Impact Assessment.

Das ist nicht hypothetisch. Das Schrems-II-Urteil hat bereits ein US-EU-Datentransfer-Framework für ungültig erklärt, und sein Nachfolger — das EU-US Data Privacy Framework — steht unter fortlaufender juristischer Prüfung. Auf EU-gehostete Anbieter zu bauen bedeutet eine Sache weniger, die bricht, falls sich die Rechtslage erneut verschiebt.

Der praktische Vorteil: Die EU-gehosteten Optionen sind zufällig auch die günstigsten. Gemma 3 27B auf Nebius ist sowohl der am besten bewertete als auch der DSGVO-unkomplizierteste Anbieter im gesamten Test. Man muss hier nicht zwischen Compliance und Kosten wählen — beides zeigt in dieselbe Richtung.

Was wir für sie gebaut haben

Jeden Task an den passenden Anbieter zuordnen

Die Empfehlung war nicht “schalte Gemini ab.” Sie war feiner, und die bestehende Architektur hat das überhaupt erst möglich gemacht.

Die KI-Schicht war so gebaut, dass jeder Task seine eigene Modell-Konfiguration nutzt — das Modell für Feldextraktion ist unabhängig vom Modell für Übersetzung, und beide lassen sich pro Organisation überschreiben. Einen Anbieter zu tauschen ist keine Codeänderung. Es ist eine Config-Änderung. Das bedeutete, wir konnten Gemini als Default belassen und nur die zwei Tasks wegrouten, bei denen es Qualität oder Geld verliert:

Task	Auf Gemini belassen?	Aktion	Warum
Dokumenttypen erkennen	Ja	Keine Änderung	Gemini gewinnt mit 88/100, unter 3 Sekunden Latenz, null Fehler
Strukturierte Felder extrahieren	Nein	An Mistral Document AI oder Gemma 3 27B routen	Gemini 72 gegen 92–93. 20 Punkte Qualitätslücke bei dichten, tabellarischen Dokumenten.
Geokoordinaten aus Karten lesen	Ja	Keine Änderung	Gemini gleichauf bei 100/100
Baumarten extrahieren	Ja (vorläufig)	Mit mehr Forstdokumenten gegenprüfen	Alle liegen bei 100 auf dem einzigen Testdokument. Braucht mehr Samples zur echten Differenzierung.
Dokumente übersetzen	Vielleicht	Bei Skalierung Gemma 3 27B prüfen	Gemini gewinnt die Qualität (78), kostet aber ~7× mehr pro Übersetzung wegen wortreicher Ausgabe

Wenn der Kunde statt einer Routing-Config eine Single-Provider-Alternative wollte, wäre Gemma 3 27B auf Nebius die sicherste — höchster Gesamtdurchschnitt, auf jedem Task konkurrenzfähig, keine katastrophalen Ausfälle, ~22× günstiger als die Gemini-Baseline, EU-gehostet. Aber das haben wir nicht empfohlen. Wir haben empfohlen, Gemini zu behalten, die Feldextraktion ab Tag eins an einen Spezialisten zu routen und die Übersetzungskosten zu überprüfen, sobald echtes Volumen messbar wird. Das Ziel war nicht, einen Kostenwettbewerb zu gewinnen. Das Ziel war, aufzuhören, zwanzig Punkte auf dem wichtigsten Task der Pipeline zu verlieren.

Claude bleibt als Fallback für jeden Task verdrahtet. Rollouts sollten umkehrbar bleiben.

Was wir gelernt haben (und du nutzen kannst)

Lektionen aus dem Bakeoff

Vier Dinge, und alle vier lassen sich auf den nächsten Bakeoff übertragen, den du fährst.

Durchschnitte lügen. Teste auf deinen eigenen Daten. Die Leaderboards, die Anbieter veröffentlichen, sind Benchmarks. Benchmarks sind nicht deine Dokumente. Unsere Gesamtspanne betrug fünf Punkte — bedeutungslos. Unsere Spanne pro Task betrug elf — der ganze Grund, überhaupt zu wechseln. Die einzige Möglichkeit, das zu sehen, ist, jeden Task separat auf echten Inputs zu bewerten.

Architektur zählt mehr als Modellgröße. Qwen2.5-VL-72B ist fast dreimal so groß wie Gemma 3 27B. Gemma hat es auf vier von fünf Tasks geschlagen. Document AI ist nicht einmal ein Vision-Modell — es liest zuerst den Text aus dem Dokument und analysiert ihn dann — und hat jedes Vision-Modell bei der Feldextraktion geschlagen. Die richtige Architektur für die Dokumentform schlägt rohe Modellkapazität jedes Mal.

Prüfe die Defaults, bevor du einem Benchmark traust. Gemini 2.5 Flash aktiviert seinen Reasoning-Mode standardmäßig. Ein einzelner Dokumenterkennungs-Aufruf fiel von 118 Sekunden auf 2,7 Sekunden, sobald wir diese eine Einstellung umgelegt haben. Hätten wir das nicht gefangen, hätte Gemini vierzigmal langsamer gewirkt, als es tatsächlich ist — und wir hätten einen ganz anderen Artikel geschrieben. Wenn etwas zehnmal langsamer oder halb so genau aussieht, wie der Benchmark versprochen hat, liegt die Antwort meistens in einer Konfigurationseinstellung, nicht im Modell selbst.

Kosten und Qualität sind keine Gegenkräfte — aber sie verstecken sich voreinander. Gemini 2.5 Flash ist auf vier unserer fünf Tasks günstig und zahlt auf dem fünften still und leise eine Luxuslimousine ab. Der Frontier-Modell-Aufschlag ist real, aber er ist nicht einheitlich: Geminis Übersetzungskosten pro Dokument sind rund siebenmal so hoch wie bei Gemma 3, für einen Punkt Qualitätsvorsprung auf einer Bewertung, die nicht einmal die Übersetzungsgenauigkeit misst. Die einzige Möglichkeit, das zu sehen, ist, Kosten pro Task aufzuschlüsseln — genauso, wie wir es mit der Qualität gemacht haben.

Der leise Teil

Es gibt eine Version dieser Geschichte, in der wir sagen: “Schalt alles auf Gemma, spar 22×, fertig.” Das wäre die sauberere Schlagzeile gewesen. Es wäre auch falsch gewesen — denn Gemini ist nach wie vor die beste Wahl für Dokumenterkennung und Geokoordinaten, denn einen Task an einen Spezialisten zu routen spart den Großteil des Geldes, ohne den Rest der Pipeline anzufassen, und denn der Forst-Task steht immer noch auf einem einzigen Testdokument, auf das wir keine tragenden Entscheidungen stützen würden.

Das echte Ergebnis ist nicht “hier ist die beste KI.” Es ist “so findest du die beste KI für dich” — und das ist fast nie ein einzelnes Modell, sondern fast immer eine Routing-Entscheidung, abgesichert durch einen Nachmittag strukturierter Tests auf Dokumenten, die tatsächlich zählen. Manchmal behält der Amtsinhaber den Job. Manchmal behält der Amtsinhaber den Job für vier von fünf Tasks, und der Gewinn liegt in dem einen, den du still herausschält.

Wenn du auf eine KI-Rechnung starrst, die sich zu groß anfühlt, oder auf eine Compliance-Frage, die sich zu spitz anfühlt, oder auf den Verdacht, dass einer deiner Tasks dich zwanzig Qualitätspunkte kostet, die du nicht auf dem Schirm hattest — dann ist dieser Nachmittag vermutlich gut investiert.

Dasselbe für euren Stack?

Wir fahren diese Bakeoffs end-to-end — echte Dokumente, Scoring pro Task, ehrliche Zahlen und eine Routing-Architektur, die ihr tatsächlich ausliefern könnt. Meldet euch und erzählt uns, was bei euch heute läuft.

Dieser Bakeoff wurde für GDHolz durchgeführt, den deutschen Holzhandelsverband, im Rahmen ihrer Pipeline zur Einhaltung der EU-Entwaldungsverordnung.

lass uns gemeinsam etwas bauen