Was ist automatische Transkription?
Kurzantwort
Automatische Transkription ist die KI-gestützte Umwandlung von gesprochener Sprache in geschriebenen Text — sekundenschnell, ohne dass ein Mensch mittippt.
Automatische Transkription bezeichnet den Prozess, bei dem ein Computerprogramm gesprochene Sprache aus einer Audio- oder Videodatei in geschriebenen Text umwandelt. Statt dass ein Mensch das Gesagte abhört und abtippt, übernimmt ein KI-Modell — typischerweise basierend auf neuronalen Netzen wie Whisper, Wav2Vec oder Conformer — diese Arbeit in wenigen Sekunden bis Minuten.
Technisch laufen dabei mehrere Schritte parallel ab. Das Audio wird in kleine Zeitfenster zerlegt, in ein Spektrogramm umgewandelt und durch ein Akustikmodell geschickt, das Laute und Phoneme erkennt. Ein Sprachmodell setzt aus diesen Phonemen wahrscheinliche Wörter und Sätze zusammen — dabei spielen Kontext, Grammatik und Wortschatz eine große Rolle. Moderne End-to-End-Modelle vereinen Akustik- und Sprachmodell in einem einzigen neuronalen Netz und liefern oft Zeitstempel pro Wort sowie Sprecher-Trennung (Diarisierung) direkt mit.
Im Vergleich zur menschlichen Transkription ist die automatische Variante deutlich schneller (eine Stunde Audio wird oft in 1-3 Minuten verarbeitet) und günstiger — gute Anbieter liegen bei 0,18-0,30 € pro Stunde, während manuelle Transkription 60-120 € pro Stunde kostet. Bei sauberen Aufnahmen mit klarer Aussprache erreichen die besten Systeme heute Wortfehlerraten unter 5 %, also Genauigkeiten von 95 % und mehr.
Wo automatische Transkription weiter Grenzen hat: starke Dialekte (Schweizerdeutsch, breites Bairisch), überlappende Sprecher, Fachjargon ohne Custom-Vocabulary, schlechte Audioqualität und sehr leise Stimmen. Für höchste Genauigkeit — etwa in Gerichts-Protokollen oder klinischer Dokumentation — wird automatische Transkription deshalb oft als erste Stufe genutzt und anschließend von einem Menschen Korrektur gelesen.
DeepScript nutzt eine Whisper-kompatible Engine, betreibt sie aber komplett auf eigenen Servern in Deutschland — kein Auslagern an US-Cloud-APIs.
Verwandte Fragen
Frage offen geblieben?
Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.