Wie genau ist KI-Transkription?

Question

Accepted Answer

Bei sauberem Studio-Audio erreicht KI heute 95-98 % Genauigkeit (Wortfehlerrate 2-5 %); bei Lärm, Dialekt oder mehreren Sprechern können es nur 70-85 % sein.

Genauigkeit wird in der Branche als Wortfehlerrate (Word Error Rate, WER) gemessen – das Verhältnis aus eingefügten, ersetzten und gelöschten Wörtern zur Gesamtzahl der Wörter im Referenztranskript. Eine WER von 5 % bedeutet, dass 5 % der Wörter falsch sind, also 95 % Genauigkeit.

Reale Benchmarks (2026):
- Sauberes Studio-Audio, einzelner Sprecher, Standardsprache: WER 2-5 % (Genauigkeit 95-98 %).
- Podcast-Aufnahme, gute Mikros, 2-3 Sprecher: WER 5-8 %.
- Meeting-Aufzeichnung, mittlere Tonqualität, überlappende Stimmen: WER 10-15 %.
- Telefonat, kompressionsverlustige Aufnahme, Dialekt: WER 15-25 %.
- Live-Konzert, Lärm im Hintergrund, schreiender Sprecher: WER 30 % und mehr.

Menschliche Transkribenten erreichen bei optimaler Qualität WER 2-4 %, fallen bei schlechter Aufnahme aber ebenfalls auf 10-15 % zurück – KI ist hier inzwischen konkurrenzfähig.

Was die Genauigkeit nach unten zieht:
- Hintergrundgeräusche (Lüfter, Straßenlärm, Hall)
- Überlappende Sprecher (wenn zwei gleichzeitig reden)
- Starke Dialekte ohne dialektspezifisches Training (Schweizerdeutsch ist berüchtigt)
- Fachjargon, Eigennamen, Produktnamen – ohne Custom Vocabulary erkennt das Modell „Aspirin" gut, aber „Pembrolizumab" oder den Namen deines Kunden meist nicht.
- Sehr schnelle, genuschelte oder geflüsterte Sprache.

Was die Genauigkeit hebt:
- Gute Mikros (XLR-Mikro statt Laptop-Mikro hebt WER spürbar).
- Eine Custom Vocabulary mit Fachbegriffen und Eigennamen.
- Das richtige Modell: DeepScript Premium nutzt ein größeres, langsameres Modell mit DACH-Dialekt-Optimierung (CH/AT/DE) – etwa 30 % weniger Fehler als Standard auf österreichischem und Schweizer Audio.
- Nachbearbeitung durch einen Menschen für Anwendungsfälle wie Rechtsprotokolle oder publizierte Untertitel.

Faustregel: Wenn dir jemand „99 % Genauigkeit" verspricht ohne dabei das Test-Set zu nennen, ist die Zahl Marketing. Verlässliche Anbieter geben den WER auf öffentlichen Benchmarks (Common Voice, LibriSpeech) an, nicht eine geglättete Marketing-Prozentzahl.

Wie genau ist KI-Transkription?

Verwandte Fragen

Frage offen geblieben?