Fragen & Antworten

Klare Antworten auf häufige Fragen zur Transkription

Reale Fragen, die Leute zu automatischer Transkription stellen – von DSGVO und Schweigepflicht bis zu API-Patterns und Schweizerdeutsch. Substantielle Antworten, keine Marketing-Floskeln.

Grundlagen

Was ist automatische Transkription?
Automatische Transkription ist die KI-gestützte Umwandlung von gesprochener Sprache in geschriebenen Text – sekundenschnell, ohne dass ein Mensch mittippt.
Was ist der Unterschied zwischen Transkription, Untertiteln und Captions?
Transkription ist der reine Text, Captions blenden ihn synchron im Video ein, Subtitles übersetzen ihn zusätzlich in andere Sprachen.
Wie lange dauert es, eine Stunde Audio zu transkribieren?
Eine KI braucht für eine Stunde Audio typischerweise 1-3 Minuten, ein menschlicher Transkribent 4-6 Stunden plus Korrektur.

Genauigkeit & Qualität

Wie genau ist KI-Transkription?
Bei sauberem Studio-Audio erreicht KI heute 95-98 % Genauigkeit (Wortfehlerrate 2-5 %); bei Lärm, Dialekt oder mehreren Sprechern können es nur 70-85 % sein.
Wie kann ich die Genauigkeit meiner Transkription verbessern?
Bessere Mikros, weniger Hall, Custom Vocabulary für Fachbegriffe, Premium-Modell und sauberes Sprecher-Setup heben die Genauigkeit oft um 5-15 Prozentpunkte.

DSGVO & Recht

Ist KI-Transkription DSGVO-konform?
Ja, aber nur mit AV-Vertrag nach Art. 28 DSGVO, EU-Datenstandort, klarem Verbot der Trainingsnutzung und definierten Löschfristen – sonst nicht.
Ist es legal, ein Meeting zu transkribieren?
In Deutschland nur mit Einwilligung aller Beteiligten – § 201 StGB stellt das heimliche Aufzeichnen des nicht-öffentlich gesprochenen Worts unter Strafe.
Wo werden meine Audio-Dateien beim Transkribieren gespeichert?
Das hängt vom Anbieter ab – und ist die wichtigste Frage. Seriöse EU-Anbieter speichern in deutschen oder EU-Rechenzentren; US-Cloud-APIs in den USA.
Werden meine Audio-Dateien zum Training von KI-Modellen verwendet?
Bei manchen US-Anbietern ja, sofern du nicht aktiv widersprichst. Seriöse Anbieter schließen es vertraglich aus – frag nach und prüfe die AGB.
Darf ich Patientengespräche oder medizinische Aufnahmen transkribieren lassen?
Ja, aber unter strengen Auflagen: Art. 9 DSGVO (Gesundheitsdaten), § 203 StGB (ärztliche Schweigepflicht), AVV mit "Berufsgeheimnisträger"-Klausel – und EU-Datenstandort.

Anleitungen

Wie transkribiere ich ein Interview richtig?
Saubere Aufnahme + KI-Erstdurchgang + 30-60 Minuten Nachbearbeitung pro Interview-Stunde liefert publikationsreife Transkripte in einem Bruchteil der Zeit.
Wie füge ich Zeitstempel zu einem Transkript hinzu?
Moderne KI-Transkription liefert Zeitstempel pro Wort automatisch mit; für Lesefluss reichen Marker alle 30-60 Sekunden oder bei Sprecherwechsel.
Welches Export-Format soll ich für meine Transkription wählen?
TXT zum Lesen, SRT für YouTube und LinkedIn, VTT für HTML5-Webvideos, JSON für Code und Weiterverarbeitung – passe das Format an den Anwendungsfall an.
Was ist Custom Vocabulary und wann brauche ich es?
Eine Wortliste, die dem Modell vor der Transkription Fachbegriffe und Eigennamen mitgibt – sie hebt die Erkennung dieser Begriffe oft von 30 % auf 95 %.

Entwickler

Welche Transkriptions-API ist die beste für Entwickler?
Hängt vom Use Case ab: AssemblyAI für US-Workflows, Deepgram für niedrige Latenz, OpenAI Whisper für Vielsprachigkeit, DeepScript für DSGVO und EU-Datenstandort.
Soll ich Webhooks oder Polling für eine Transkriptions-API nutzen?
Webhooks für die Hauptzustellung, Polling als Backup – die robusteste Production-Konfiguration. Polling allein verschwendet Requests, Webhooks allein riskieren verlorene Events.
Soll ich Whisper selbst hosten oder eine API nutzen?
Unter 500 Audiostunden/Monat fast immer eine Managed-API; darüber kann Self-Hosting günstiger werden, aber nur mit GPU-Erfahrung und DevOps-Budget.
Wie funktioniert Live-Transkription technisch?
Audio wird in kleinen Chunks per WebSocket gestreamt; das Modell liefert Zwischenergebnisse in 300-800ms und finalisiert sie nach jeder Sprechpause.

Sprachen & Dialekte

Kann KI Schweizerdeutsch transkribieren?
Eingeschränkt: dialektspezialisierte Modelle erreichen 75-85 % Genauigkeit, allgemeine Modelle oft unter 50 %. Output ist meist auf Hochdeutsch normalisiert, nicht in Mundart-Schrift.
Wie viele Sprachen unterstützt KI-Transkription?
Die besten Modelle (Whisper, AssemblyAI, DeepScript) decken 99 Sprachen ab – die Qualität reicht aber von exzellent bei den Top 10 bis kaum brauchbar bei seltenen Sprachen.

Klare Antworten auf häufige Fragen zur Transkription

Grundlagen

Was ist automatische Transkription?

Was ist der Unterschied zwischen Transkription, Untertiteln und Captions?

Wie lange dauert es, eine Stunde Audio zu transkribieren?

Genauigkeit & Qualität

Wie genau ist KI-Transkription?

Wie kann ich die Genauigkeit meiner Transkription verbessern?

DSGVO & Recht

Ist KI-Transkription DSGVO-konform?

Ist es legal, ein Meeting zu transkribieren?

Wo werden meine Audio-Dateien beim Transkribieren gespeichert?

Werden meine Audio-Dateien zum Training von KI-Modellen verwendet?

Darf ich Patientengespräche oder medizinische Aufnahmen transkribieren lassen?

Anleitungen

Wie transkribiere ich ein Interview richtig?

Wie füge ich Zeitstempel zu einem Transkript hinzu?

Welches Export-Format soll ich für meine Transkription wählen?

Was ist Custom Vocabulary und wann brauche ich es?

Entwickler

Welche Transkriptions-API ist die beste für Entwickler?

Soll ich Webhooks oder Polling für eine Transkriptions-API nutzen?

Soll ich Whisper selbst hosten oder eine API nutzen?

Wie funktioniert Live-Transkription technisch?

Sprachen & Dialekte

Kann KI Schweizerdeutsch transkribieren?

Wie viele Sprachen unterstützt KI-Transkription?