DeepScript
Frage

Wie lange dauert es, eine Stunde Audio zu transkribieren?

Kurzantwort

Eine KI braucht für eine Stunde Audio typischerweise 1-3 Minuten, ein menschlicher Transkribent 4-6 Stunden plus Korrektur.

Die Bearbeitungszeit hängt vor allem davon ab, ob ein Mensch oder eine KI arbeitet — und welche Modellgröße eingesetzt wird.

Automatische KI-Transkription: Eine 60-minütige Audiodatei wird mit moderner GPU-Infrastruktur in 1-3 Minuten verarbeitet. Größere Modelle (Whisper Large v3, oder Premium-Tier-Modelle mit höherer Genauigkeit) brauchen etwas länger — etwa 3-5 Minuten pro Stunde Audio. Wenn der Anbieter eine Queue mit vielen anderen Jobs hat, kann sich die Wartezeit verlängern. Anbieter wie DeepScript betreiben eine Priority Queue für Premium-Jobs, sodass diese vor Standard-Jobs verarbeitet werden.

Menschliche Transkription: Ein professioneller Transkribent schafft etwa 15 Minuten Audio pro Stunde Arbeitszeit. Eine Stunde Audio braucht also 3-5 Stunden bei klarer Aufnahme — und 6-8 Stunden, wenn das Material schwierig ist (mehrere Sprecher, Dialekt, Fachjargon, schlechte Tonqualität). Plus typischerweise 24-48 Stunden Vorlauf, weil Aufträge in einer Warteschlange landen.

Hybrid-Ansatz: Viele professionelle Anbieter nutzen KI als ersten Durchgang und lassen einen Menschen anschließend korrigieren. Das spart Zeit (etwa 1-2 Stunden pro Audiostunde statt 4-6) bei sehr hoher Endgenauigkeit. Übliche Lieferzeiten: 24 Stunden für Standard, 4-6 Stunden mit Express-Aufpreis.

Was die Zeit verlängert: lange Pausen werden meist trotzdem verarbeitet (kein Zeitvorteil), schlechte Tonqualität braucht mehr Modellrechenzeit, sehr viele kurze Dateien sind oft langsamer als wenige große (Overhead pro Job). Bei Live-Transkription via WebSocket-Streaming ist die Latenz ein anderer Faktor: gute Systeme liefern Zwischenergebnisse innerhalb von 300-800 Millisekunden, finale Ergebnisse nach 1-2 Sekunden.

Faustregel: Für eine Stunde Audio einen halben bis ganzen Tag einplanen, wenn ein Mensch beteiligt ist. Für reine KI-Transkription: Kaffee holen reicht.

Verwandte Fragen

Frage offen geblieben?

Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.

Wie lange dauert es, eine Stunde Audio zu transkribieren? | DeepScript