Wie genau ist KI-Transkription?
Kurzantwort
Bei sauberem Studio-Audio erreicht KI heute 95-98 % Genauigkeit (Wortfehlerrate 2-5 %); bei Lärm, Dialekt oder mehreren Sprechern können es nur 70-85 % sein.
Genauigkeit wird in der Branche als Wortfehlerrate (Word Error Rate, WER) gemessen — das Verhältnis aus eingefügten, ersetzten und gelöschten Wörtern zur Gesamtzahl der Wörter im Referenztranskript. Eine WER von 5 % bedeutet, dass 5 % der Wörter falsch sind, also 95 % Genauigkeit.
Reale Benchmarks (2026): - Sauberes Studio-Audio, einzelner Sprecher, Standardsprache: WER 2-5 % (Genauigkeit 95-98 %). - Podcast-Aufnahme, gute Mikros, 2-3 Sprecher: WER 5-8 %. - Meeting-Aufzeichnung, mittlere Tonqualität, überlappende Stimmen: WER 10-15 %. - Telefonat, kompressionsverlustige Aufnahme, Dialekt: WER 15-25 %. - Live-Konzert, Lärm im Hintergrund, schreiender Sprecher: WER 30 % und mehr.
Menschliche Transkribenten erreichen bei optimaler Qualität WER 2-4 %, fallen bei schlechter Aufnahme aber ebenfalls auf 10-15 % zurück — KI ist hier inzwischen konkurrenzfähig.
Was die Genauigkeit nach unten zieht: - Hintergrundgeräusche (Lüfter, Straßenlärm, Hall) - Überlappende Sprecher (wenn zwei gleichzeitig reden) - Starke Dialekte ohne dialektspezifisches Training (Schweizerdeutsch ist berüchtigt) - Fachjargon, Eigennamen, Produktnamen — ohne Custom Vocabulary erkennt das Modell „Aspirin" gut, aber „Pembrolizumab" oder den Namen deines Kunden meist nicht. - Sehr schnelle, genuschelte oder geflüsterte Sprache.
Was die Genauigkeit hebt: - Gute Mikros (XLR-Mikro statt Laptop-Mikro hebt WER spürbar). - Eine Custom Vocabulary mit Fachbegriffen und Eigennamen. - Das richtige Modell: DeepScript Premium nutzt ein größeres, langsameres Modell mit DACH-Dialekt-Optimierung (CH/AT/DE) — etwa 30 % weniger Fehler als Standard auf österreichischem und Schweizer Audio. - Nachbearbeitung durch einen Menschen für Anwendungsfälle wie Rechtsprotokolle oder publizierte Untertitel.
Faustregel: Wenn dir jemand „99 % Genauigkeit" verspricht ohne dabei das Test-Set zu nennen, ist die Zahl Marketing. Verlässliche Anbieter geben den WER auf öffentlichen Benchmarks (Common Voice, LibriSpeech) an, nicht eine geglättete Marketing-Prozentzahl.
Verwandte Fragen
Frage offen geblieben?
Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.