Produkt

Sprechertrennung in jeder Transkription – nicht nur im teuersten Tarif

Automatische Antwort auf die Frage „Wer hat was gesagt?“ – für Meetings, Interviews, Podcasts und Fokusgruppen.

Kostenlos testen Preise ansehen

3 Transkriptionen gratis · keine Kreditkarte · Daten in Deutschland

app.deepscript.com/transcriptions

Sprecher-Timeline

Sprecher 1

Sprecher 2

Sprecher 3

kickoff-meeting.mp3

Premium

Sprecher 100:04

Schön, dass es mit dem Termin geklappt hat.

Sprecher 200:09

Sehr gerne. Sollen wir direkt starten?

Sprecher 100:13

Ja – ich nehme das Gespräch auf, ist das ok?

12:48

Speaker Diarization (Sprechertrennung) ist die automatische Identifikation, welcher Sprecher zu welchem Zeitpunkt spricht. Bei DeepScript ist sie in beiden Tarifen inklusive – Standard wie Premium. Viele Wettbewerber stellen Diarization erst im Enterprise-Tarif bereit oder rechnen sie separat ab. Wir halten das für falsch: Eine Transkription ohne Sprecherzuordnung ist bei Meetings und Interviews fast wertlos. Premium bietet eine feinere Granularität – vor allem bei Stimmen, die sich ähneln, oder wenn überlappend gesprochen wird. Standard liefert solide 2–6 Sprecher, Premium skaliert problemlos auf 10+.

Belege

Woran wir das festmachen

Inklusive in Standard und Premium

Keine Aufpreis-Falle, kein „nur im Enterprise-Tarif“. Sprechertrennung läuft in jeder Transkription.

Wort-Level-Granularität

Jedes einzelne Wort trägt ein Speaker-Label – nicht nur ganze Sätze. Sprecherwechsel mitten im Satz werden erkannt.

Typisch 2 bis 10+ Sprecher

Auch große Runden – Vorstandssitzungen, Panels, Fokusgruppen – werden zuverlässig getrennt.

Im Editor umbenennbar

„Sprecher 1“ → „Dr. Meier“ in einem Klick. Die Umbenennung wird auf alle Vorkommnisse angewandt.

In der Praxis

Was das konkret heißt

Automatische Antwort auf die Frage „Wer hat was gesagt?“ – für Meetings, Interviews, Podcasts und Fokusgruppen.

Wort-Timestamps inkl. Speaker-Label im JSON-Export – direkt nutzbar für NVivo, MAXQDA und andere qualitative Analyse-Tools.
SRT/VTT-Untertitel mit Sprecher-Präfix: jeder Untertitel beginnt mit dem Sprecher-Namen, z. B. „Dr. Meier: …“
Im Editor synchronisiert mit dem Audio-Player – klick auf ein Wort, springe zur Stelle, höre die Originalstimme.
Anonyme Sprecher bleiben anonym: Du musst keinen einzigen Namen vergeben, „Sprecher 1/2/3“ ist ein gültiger Endzustand.
Premium-Modell besser bei überlappendem Sprechen (Cross-Talk) und ähnlich klingenden Stimmen (z. B. zwei junge Frauen).

app.deepscript.com/transcriptions

Sprecher-Timeline

Sprecher 1

Sprecher 2

Sprecher 3

kickoff-meeting.mp3

Premium

Sprecher 100:04

Schön, dass es mit dem Termin geklappt hat.

Sprecher 200:09

Sehr gerne. Sollen wir direkt starten?

Sprecher 100:13

Ja – ich nehme das Gespräch auf, ist das ok?

12:48

So nutzt du es

In wenigen Schritten startklar

1
1. Mehrkanal-Audio hochladen
Meeting-Aufzeichnung, Interview, Podcast – jedes Format mit mehreren Sprechern. Mono oder Stereo, das Modell erkennt selbst, wann jemand wechselt.
2
2. Transkription mit Speaker-Labels erhalten
Ergebnis im Editor zeigt jede Aussage mit Sprecher-Präfix: „Sprecher 1: Guten Morgen. Sprecher 2: Hallo zusammen.“ Sprecher-Anzahl steht im Header.
3
3. Sprecher umbenennen
Klick auf „Sprecher 1“ → echter Name. Wird automatisch auf alle Stellen im Transkript angewandt. Keine separaten Stimmen-Modelle nötig.
4
4. Mit Sprecher-Labels exportieren
SRT/VTT für Untertitel, JSON für Downstream-Pipelines, TXT für reine Lesefassung. Sprecher bleibt in allen Formaten erhalten.

FAQ

Häufige Fragen

Wie viele Sprecher kann das Modell unterscheiden?+

Typischerweise 2 bis 10+. Bei mehr als 10 sehr ähnlich klingenden Stimmen (z. B. eine reine Schulklasse) kann es zu Verwechslungen kommen. Für Vorstandssitzungen, Panels und Fokusgruppen ist die Grenze in der Praxis kein Thema.

Was passiert bei überlappendem Sprechen?+

Bei Cross-Talk ordnet das Modell die dominante Stimme zu und kennzeichnet die Stelle mit niedrigem Confidence-Score. Premium ist hier merklich besser als Standard. Im Editor erkennst Du betroffene Stellen am Confidence-Coloring.

Muss ich die Sprecher vorher anlernen?+

Nein. Diarization läuft ohne Voice-Enrollment – das Modell trennt die Sprecher rein anhand der Audio-Eigenschaften, nicht anhand vorab hinterlegter Stimmprofile. Datenschutz-Vorteil: Es werden keine biometrischen Stimm-Modelle gespeichert.

Kommen die Speaker-Labels auch in Untertitel-Dateien?+

Ja. SRT- und VTT-Export schreibt vor jedem Untertitel den Sprecher-Namen: „Dr. Meier: Lassen Sie uns starten.“ Wenn Du die Sprecher umbenannt hast, erscheinen die echten Namen, sonst „Sprecher 1/2/3“.

Eignet sich das für qualitative Forschung mit NVivo oder MAXQDA?+

Ja. Der JSON-Export enthält pro Wort `start`, `end`, `confidence` und `speaker`. Importieren in NVivo/MAXQDA über deren JSON- bzw. Plain-Text-mit-Sprechermarkern-Workflow. Wenn Du einen spezifischen Export brauchst, sag Bescheid.

Überzeug dich selbst

Lade eine Datei hoch und sieh das Ergebnis in Minuten. Drei Transkriptionen kostenlos, ohne Kreditkarte.

Kostenlos testen Alle Features