guides

Interviews professionell transkribieren: Der komplette Workflow für Journalisten und Forscher

Vom Aufnahmegerät bis zum zitierfähigen Transkript: Schritt-für-Schritt-Anleitung für Journalisten, Wissenschaftler und alle, die Interviews dokumentieren – inklusive Praxistipps und Tool-Stack.

DeepScript TeamMay 5, 20268 min de lecture

Interviews professionell transkribieren: Der komplette Workflow für Journalisten und Forscher

Ein gut transkribiertes Interview ist die halbe Recherche. Es lässt sich durchsuchen, zitieren, mit Kollegen teilen, in Datenbanken indexieren und Jahre später wiederfinden. Eine schlechte Transkription dagegen ist Müll – wörtlich: man wirft sie weg und macht die Arbeit zweimal.

Dieser Artikel beschreibt den Workflow, mit dem Journalisten, Wissenschaftler und Mitarbeiter qualitativer Sozialforschung Interviews effizient transkribieren – von der Vorbereitung über die Aufnahme bis zur fertigen, zitierfähigen Textversion.

Vor dem Interview: Audio-Qualität sichern

Die wichtigste Entscheidung für die Transkription wird vor dem Interview getroffen, nicht danach. Eine Aufnahme mit gutem Mikrofon und ruhigem Hintergrund ist mit jedem modernen Werkzeug fast fehlerfrei zu transkribieren. Eine Aufnahme aus dem Smartphone-Lautsprecher in einem belebten Café liefert nur Mühsal – egal welche Software man danach einsetzt.

Die Mikrofon-Hierarchie

Schlecht: Smartphone-Mikro im Hosentaschen-Modus, Laptop-Mikro mit 1m Abstand, Konferenzmikrofon im großen Raum mit nur einem Sprecher in der Ferne.

Akzeptabel: Smartphone direkt vor dem Sprecher (max. 30cm), USB-Headset, eingebautes Mikrofon eines hochwertigen Notebook bei ruhiger Umgebung.

Gut: Lavalier-Mikrofon (am Hemd geklemmt), tragbares Aufnahmegerät (Zoom H1, Tascam DR-05), Studio-USB-Mikrofon (Shure MV7, Rode NT-USB).

Optimal: Ein eigenes Lavalier-Mikrofon pro Sprecher mit getrennter Spur. Das ist der Goldstandard und trennt nicht nur die Sprecher technisch sauber, sondern erlaubt auch saubere Sprecher-Diarization durch die Transkriptions-Software.

Aufnahmeumgebung

Ein typisches Forschungsinterview wird in einem Wohnzimmer, Büro oder Café geführt – und die wenigsten dieser Räume sind akustisch ideal. Was hilft:

Glatte Wände sind schlecht. Vorhänge, Bücherregale und Sofas dämpfen Reflexionen.
Klimaanlagen, Kühlschränke und Lüfter sind die häufigsten unbemerkten Killer. Vor dem Interview ausschalten, wenn möglich.
Cafés funktionieren mit Lavalier-Mikro nahe am Sprecher. Mit Smartphone-Mikro auf dem Tisch wird das Audio durch Hintergrundgespräche unbrauchbar.
Telefoninterviews über VoIP (Zoom, Teams, Google Meet) liefern oft besseres Audio als ein billiges externes Mikrofon – die Plattformen haben gute Rauschunterdrückung eingebaut.

Aufnahmeformat und Backup

Aufnahme im verlustfreien Format (WAV) oder hochbitratigem MP3 (mindestens 128 kbps). Verlustbehaftete Formate mit niedriger Bitrate erzeugen Artefakte, die Modelle als „Worte" interpretieren – und damit Fehler.

Immer parallel auf zwei Geräten aufnehmen, wenn das Interview wichtig ist. Eine 30-minütige Aufnahme zu verlieren, weil das Aufnahmegerät unterwegs ausgeschaltet wurde, ist ein Albtraum, dem man durch ein Backup-Smartphone leicht aus dem Weg geht.

Während des Interviews: Sprache fürs Transkript

Ein paar Praktiken machen die spätere Transkription dramatisch einfacher:

Zu Beginn alle Sprecher namentlich vorstellen. „Heute spreche ich mit Frau Dr. Schmidt, Professorin für Psychologie in Heidelberg." Das gibt dem Modell – und Ihnen – einen klaren Anker.

Eigennamen einmal buchstabieren. „Jürgen Müller – J-Ü-R-G-E-N M-Ü-L-L-E-R." Das taucht im Transkript auf, kann aber auch zur Custom Vocabulary für die Engine werden.

Lange Stille vermeiden. Auch ein „Hm, ja" hilft dem Modell, Sprecherwechsel zu erkennen. Komplette Pausen können zu Sprecher-Verwechslungen führen.

Nicht durcheinander reden. Crosstalk ist der größte Feind der Diarization. Wenn jemand unterbricht, kurz pausieren und sauber zu Ende sprechen lassen.

Themenübergänge benennen. „Lassen Sie uns zum nächsten Punkt kommen – das Thema Datenschutz." Das ist gut für den Zuhörer, aber auch für die spätere Suche im Transkript.

Nach dem Interview: Transkription erstellen

Schritt 1: Datei aufbereiten

Aufnahme aus dem Aufnahmegerät auf den Computer übertragen. Falls Sie zwei Spuren haben (Sprecher A und B getrennt), beide zu einer Stereo-Datei zusammenmischen – die meisten Transkriptions-APIs erkennen Sprecher besser, wenn sie in unterschiedlichen Stereo-Kanälen vorliegen.

Wenn die Datei sehr lang ist (über zwei Stunden), nicht splitten – moderne APIs handhaben auch lange Dateien problemlos. Splitten zerschneidet den Kontext und macht es schwerer, Sprecher konsistent zu nummerieren.

Schritt 2: Transkription generieren

Bei Aufnahmen mit Hochdeutsch und sauberem Audio reicht das Standard-Modell. Bei dialektaler Sprache, mehreren Sprechern oder schwierigem Hintergrund das Premium-Modell.

In DeepScript:

Datei auf deepscript.com/upload hochladen.
Modell wählen (Standard für €0,18/h oder Premium für €0,27/h).
Sprache explizit setzen – Auto-Detection ist okay, aber explizit ist sicherer.
Wenn Sie eine Liste von Eigennamen oder Fachbegriffen haben, als Custom Vocabulary anlegen.
Upload starten. Die Transkription läuft im Hintergrund; bei einem 60-minütigen Interview rechnen Sie mit 5–10 Minuten Verarbeitung.

Schritt 3: Erste Sichtung

Nach Abschluss erscheint die Transkription mit Sprecher-Trennung und Zeitstempeln. Lesen Sie zunächst die ersten 5 Minuten und das letzte Drittel – das gibt Ihnen einen Eindruck, wie sauber die Transkription geworden ist.

Wenn Sie sehen, dass die Engine bestimmte Wörter konsequent falsch erkennt, fügen Sie diese zur Custom Vocabulary hinzu und transkribieren neu. Das spart langfristig Zeit, wenn Sie viele ähnliche Interviews führen.

Schritt 4: Korrektur

Es gibt zwei Korrektur-Strategien:

Inline-Korrektur im DeepScript-Editor: Direkt im Browser mit Audio-Sync – anklicken, korrigieren, zur nächsten Stelle springen. Gut für mittellange Interviews und schnelle Bereinigung.

Export und externe Bearbeitung: TXT, DOCX oder SRT herunterladen und in Word, Google Docs oder einem Journalismus-Tool wie Trint weiterbearbeiten. Gut bei sehr langen Interviews oder wenn mehrere Personen parallel korrigieren.

Faustregel für die Korrekturzeit:

Hochdeutsch, sauberes Audio: ~10 Minuten Korrektur pro 60 Minuten Aufnahme.
Dialektal eingefärbtes Deutsch, mittelmäßiges Audio: ~30–45 Minuten pro 60 Minuten.
Stark dialektal, schwieriges Audio: 60–90 Minuten pro 60 Minuten.

Im Vergleich: Eine komplett manuelle Transkription dauert typisch 4–6 Stunden pro 60 Minuten Aufnahme. Selbst bei schwierigem Material spart die maschinelle Transkription mit Korrektur 70 % der Zeit.

Schritt 5: Zitierfähig machen

Für Journalismus und Wissenschaft reicht eine reine Transkription nicht. Sie brauchen ein zitierfähiges Dokument:

Header mit Metadaten. Gesprächspartner, Datum, Ort, Dauer, Aufnahmemedium. Das ist Pflicht in der Wissenschaft, sinnvoll im Journalismus.

Zeitstempel an Absatzanfängen. Erlaubt Querverweise vom Transkript zur Aufnahme – wichtig für Verifikation und Faktenchecks.

Einheitliche Sprecher-Bezeichnungen. „Sprecher 1" durch „Schmidt" ersetzen, „Sprecher 2" durch „Interviewer". DeepScript erlaubt das im Editor mit einem Klick – die gewählte Bezeichnung wird auf alle Vorkommen angewendet.

Anonymisierung wenn nötig. Bei Forschungsinterviews mit Probanden: Klarnamen durch Pseudonyme ersetzen, Ortsangaben verallgemeinern. DeepScript hat eine Suchen-und-Ersetzen-Funktion im Editor – schnell und vollständig.

Spezial-Workflows

Anonymisierte Forschung

Bei qualitativer Sozialforschung muss das Material oft anonymisiert werden, bevor es in Datenbanken oder Publikationen geht. Workflow:

Vollständige Transkription erstellen.
Im Editor alle direkten Identifikatoren (Namen, Orte, Firmen) durch konsistente Pseudonyme ersetzen.
Den Original-Audio-File separat archivieren mit Zugriffsbeschränkung. Das anonymisierte Transkript wird das Arbeitsmaterial.
Bei Bedarf: zweite Lese-Person prüft auf indirekte Identifikatoren (Berufsbeschreibungen, die nur auf eine Person passen, etc.).

DeepScripts 30-Tage-Auto-Löschung ist hier hilfreich: das Original-Audio liegt nicht unbegrenzt auf Servern. Die Transkription bleibt erhalten, das Quell-Audio verschwindet automatisch.

Mehrsprachige Interviews

Bei Interviews, die zwischen Sprachen wechseln (z.B. Deutsch und Englisch in Wirtschafts-Kontexten), Auto-Detection abschalten und die dominierende Sprache explizit setzen. Die meisten Engines wechseln zwar im Verlauf, aber der Wechsel ist nicht immer sauber.

Eine Alternative: Transkription in der einen Sprache erstellen, mit DeepScripts eingebauter Übersetzung in die andere Sprache übersetzen, beide Versionen parallel halten.

Anonyme Quellen-Interviews (Investigative Recherche)

Bei sensiblen Quellen ist die Frage „Wo liegt das Audio während der Transkription?" oft die wichtigste. Lokale Whisper-Installation auf einem Air-Gapped-Rechner ist die paranoidste Option. DeepScript mit AVV ist die pragmatische Option für die meisten Recherchen – Audio bleibt in deutschen Rechenzentren, kein Training auf Daten, automatische Löschung.

Bei extremer Sensibilität: Audio nach erfolgter Transkription manuell sofort löschen im Dashboard, statt auf die 30-Tage-Auto-Löschung zu warten.

Lange Audios (Konferenzen, Hearings, Aufzeichnungen über mehrere Stunden)

Konferenzen mit mehreren Stunden Audio sind technisch keine Hürde – DeepScript verarbeitet Dateien bis 500 MB. Praktischer Tipp: Bei Konferenzen mit vielen Sprechern lohnt es, die Sprecherliste vorab als Custom Vocabulary anzulegen, damit Eigennamen sauber transkribiert werden.

Tool-Stack: Was wir empfehlen

Aufnahme:

Lavalier: Rode SmartLav+ (~70 €) oder DJI Mic 2 (~280 € für Sender-Empfänger-Set).
Tragbares Aufnahmegerät: Zoom H1n (~120 €) oder Tascam DR-05X (~110 €).
Studio-Mikrofon: Shure MV7 (~280 €).

Transkription:

DeepScript für DACH-Inhalte und allgemeine Aufnahmen mit DSGVO-Anforderungen.
Lokales Whisper (whisper.cpp oder Faster-Whisper) für maximale Datensouveränität, wenn Sie GPU-Leistung haben und keine API benutzen wollen.

Korrektur:

DeepScript-Editor inline für mittellange Interviews.
Word oder Google Docs für längere Dokumente und kollaborative Bearbeitung.
Trint oder Otter.ai-Editoren, wenn Sie deren Workflow bereits nutzen – das transkribierte Material lässt sich aus DeepScript als DOCX exportieren und dort weiterbearbeiten.

Archivierung:

Original-Audio in einem separaten Ordner, idealerweise verschlüsselt (Cryptomator, VeraCrypt) bei sensiblen Inhalten.
Transkriptionen mit konsistenter Namenskonvention: JJJJ-MM-TT_Gesprächspartner_Thema.docx.

Die häufigsten Fehler

Aufnahmegerät zu weit weg. Mehr als 50cm Abstand zum Sprecher und das Audio wird mittelmäßig. Mehr als 1m und es wird unbrauchbar.

Keine Backup-Aufnahme. Eine zweite Aufnahme auf dem Smartphone parallel zum Hauptgerät kostet nichts und rettet manchmal das ganze Interview.

Auto-Detection bei Mehrsprachigkeit. Die Engine wechselt nicht immer zuverlässig. Sprache explizit setzen.

Nach der Transkription nicht prüfen. Eine 90 %-Transkription ist toll, aber 10 % Fehler sind 10 % Fehler. Mindestens eine Stichprobenkontrolle pro Interview.

Original-Audio wegwerfen. Die Transkription ist das Arbeitsmaterial, aber das Audio ist die Quelle. Bei Zweifeln, Zitaten, Streitigkeiten brauchen Sie das Original. Mindestens für die Dauer der Veröffentlichung archivieren.

Fazit

Ein professioneller Transkriptions-Workflow ist kein Hexenwerk – er besteht aus drei Säulen: gute Aufnahme, passender Anbieter und systematische Korrektur. Wer in jede dieser Säulen 20 Minuten Vorarbeit investiert, spart pro Interview Stunden an Mühsal.

Für deutschsprachige Interviews mit DSGVO-Anforderungen ist DeepScript die naheliegende Wahl: Server in Deutschland, Sprechertrennung und Custom Vocabulary in jedem Tier, Auto-Löschung als Default. Drei kostenlose Transkriptionen direkt nach der Registrierung, keine Kreditkarte. Probieren Sie es mit Ihrem nächsten Interview: deepscript.com.

InterviewJournalismusForschungTranskriptionWorkflow

Interviews professionell transkribieren: Der komplette Workflow für Journalisten und Forscher

Interviews professionell transkribieren: Der komplette Workflow für Journalisten und Forscher

Vor dem Interview: Audio-Qualität sichern

Die Mikrofon-Hierarchie

Aufnahmeumgebung

Aufnahmeformat und Backup

Während des Interviews: Sprache fürs Transkript

Nach dem Interview: Transkription erstellen

Schritt 1: Datei aufbereiten

Schritt 2: Transkription generieren

Schritt 3: Erste Sichtung

Schritt 4: Korrektur

Schritt 5: Zitierfähig machen

Spezial-Workflows

Anonymisierte Forschung

Mehrsprachige Interviews

Anonyme Quellen-Interviews (Investigative Recherche)

Lange Audios (Konferenzen, Hearings, Aufzeichnungen über mehrere Stunden)

Tool-Stack: Was wir empfehlen

Die häufigsten Fehler

Fazit

Articles liés

Schweizerdeutsch, Bayrisch, Wienerisch: Dialekte zuverlässig transkribieren

Transkription & Datenschutz: Was Unternehmen wissen müssen

Vous voulez essayer ?