DeepScript
Produkt

Die genaueste Transkription für deutschsprachige Dialekte

Wir haben uns auf eine Sache spezialisiert: Audio aus dem DACH-Raum. Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch — wo generische Modelle raten, hören wir hin.

3 Transkriptionen gratis · keine Kreditkarte · Daten in Deutschland

app.deepscript.com
kickoff-meeting.mp3
Premium
Sprecher 100:04

Schön, dass es mit dem Termin geklappt hat.

Sprecher 200:09

Sehr gerne. Sollen wir direkt starten?

Sprecher 100:13

Ja ich nehme das Gespräch auf, ist das ok?

12:48

Die meisten Transkriptionsdienste nutzen ein generisches multilinguales Modell, das alle 99 Sprachen halbwegs gleich behandelt. Bei reinem Hochdeutsch reicht das. Sobald aber ein Berner Kunde nuschelt, eine Wienerin schnellspricht oder ein bayerisches Meeting kippt, kollabiert die Genauigkeit. DeepScript geht den anderen Weg: Das Premium-Modell ist auf über 50.000 Stunden DACH-Audio nachtrainiert — Material aus echten Geschäftsmeetings, Interviews und Podcasts. Dieser Datensatz stammt aus der Heritage der Aliru GmbH, die zuvor Sally (sally.io) als KI-Meeting-Assistent betrieben hat. Das Ergebnis: ~3–5 % Word Error Rate auf sauberem Deutsch, dort wo Whisper-large generisch bei 7–9 % liegt.

Belege

Woran wir das festmachen

Über 50.000 Stunden DACH-Audio im Training

Echte Meetings, Interviews und Telefonate aus Deutschland, Österreich und der Schweiz — kein synthetisches Audio.

~3–5 % WER auf klarem Deutsch (Premium)

Gemessen gegen kuratiertes Hochdeutsch-Test-Set. Generic Whisper-large liegt im selben Test bei 7–9 %.

Heritage: Sally (sally.io)

Aliru GmbH baut seit Jahren Meeting-KI für DACH-Unternehmen. Diese Erfahrung steckt im DeepScript-Modell.

ISO 27001 / 9001 / 14001 zertifiziert

Informationssicherheit, Qualitätsmanagement und Umweltmanagement — drei Zertifikate, ein Betrieb.

Server in Nürnberg & Falkenstein

Eigene Hetzner-Hardware in deutschen Rechenzentren. Kein US-Cloud-Subdienstleister im Transkriptionspfad.

In der Praxis

Was das konkret heißt

Wir haben uns auf eine Sache spezialisiert: Audio aus dem DACH-Raum. Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch — wo generische Modelle raten, hören wir hin.

  • Dialekt-Erkennung für Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch und Sächsisch — wo generische Modelle ins Englische rutschen, bleiben wir im Kontext.
  • Sprechertrennung (Speaker Diarization) in beiden Tarifen inklusive. Standard erkennt zuverlässig 2–6 Sprecher, Premium auch nahe beieinander liegende Stimmen.
  • Custom Vocabulary für Eigennamen, Fachbegriffe und firmenspezifische Akronyme — boostet die Erkennung von „Schwarz-Schilling“ oder „MRT-T1-gewichtet“ messbar.
  • 99 Sprachen verfügbar (Auto-Detect plus manuelle Auswahl), DACH-Sprachen sind in Genauigkeit und Latenz priorisiert.
  • Wort-Timestamps mit Confidence-Score je Wort — sichtbar im Editor, exportierbar als JSON für Downstream-Pipelines.
app.deepscript.com
Fasse die Kundengespräche der letzten Woche zusammen.
Ich habe 7 Transkripte über MCP abgerufen. Die drei wichtigsten Themen: Preis-Feedback, Feature-Wunsch Export-API und zwei Verlängerungen.via deepscript-mcp · 7 Quellen

So nutzt du es

In wenigen Schritten startklar

  1. 1

    1. Modell wählen

    Standard (0,18 €/h) für saubere Aufnahmen und Alltagsgespräche. Premium (0,27 €/h) für Dialekt, Lärm, viele Sprecher oder wenn die Transkription zitierfähig sein muss.

  2. 2

    2. Vocabulary anlegen (optional)

    Eigennamen, Produktnamen, Fachbegriffe als Liste hinterlegen. Dieselbe Vocabulary wird auf alle Transkriptionen dieses Projekts angewandt.

  3. 3

    3. Hochladen oder live aufnehmen

    Audio- oder Videodatei per Drag & Drop, oder Live-Transkription über das Mikrofon. Premium läuft in der Priority Queue.

  4. 4

    4. Ergebnis prüfen und exportieren

    Im Editor: Sprecher-Labels umbenennen, einzelne Wörter klicken, Confidence-Coloring nutzen. Export als TXT, SRT, VTT oder JSON.

FAQ

Häufige Fragen

Wie ist DeepScript besser als generisches Whisper?+

Generisches Whisper-large ist auf einer breiten Mischung aus 99 Sprachen trainiert — durchschnittlich gut, in keiner Sprache exzellent. Wir nehmen dieselbe Architektur und trainieren sie auf über 50.000 Stunden DACH-spezifischem Audio nach. Bei klarem Deutsch sehen wir damit ~3–5 % WER, generic Whisper-large liegt im selben Test bei 7–9 %. Bei Dialekten ist der Abstand noch deutlicher.

Wieso der DACH-Fokus?+

Aliru GmbH hat vor DeepScript jahrelang Sally (sally.io) betrieben, einen KI-Meeting-Assistenten mit überwiegend deutschsprachigen Kunden. Daraus entstanden ein Trainings-Korpus und Erfahrung, die generische Anbieter schlicht nicht haben. Wir bauen das Produkt, das wir selbst gebraucht haben.

Habe ich für Englisch dieselbe Qualität?+

Englisch ist über die Whisper-Basis erstklassig unterstützt — WER liegt typischerweise bei 4–6 % auf sauberen Aufnahmen. Unsere Feinjustierung verbessert es nicht messbar (Englisch war im Original-Whisper bereits dominant). Wir sind in DACH besser, in Englisch ungefähr gleichauf mit den großen Anbietern.

Was bedeutet Speaker Diarization konkret?+

Pro Wort wird zusätzlich zur Transkription ein Sprecher-Label vergeben („Sprecher 1“, „Sprecher 2“ …). Im Editor lassen sich die Labels in echte Namen umbenennen. In SRT/VTT-Exporten erscheinen sie als Präfix vor jedem Untertitel, in JSON als Feld pro Wort. Du kannst die Labels jederzeit selbst korrigieren.

Wie unterscheidet sich Premium von Standard?+

Drei Dinge: (1) das DACH-Feintuning ist nur im Premium-Modell aktiv — Standard nutzt eine schlankere Variante; (2) Premium läuft in einer Priority Queue mit niedrigerer Wartezeit; (3) die Sprechertrennung ist feiner abgestimmt für ähnlich klingende Stimmen. Standard kostet 0,18 €/h, Premium 0,27 €/h.

Überzeug dich selbst

Lade eine Datei hoch und sieh das Ergebnis in Minuten. Drei Transkriptionen kostenlos, ohne Kreditkarte.

Beste Transkription für DACH-Dialekte — DeepScript | DeepScript