Die genaueste Transkription für deutschsprachige Dialekte
Wir haben uns auf eine Sache spezialisiert: Audio aus dem DACH-Raum. Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch — wo generische Modelle raten, hören wir hin.
3 Transkriptionen gratis · keine Kreditkarte · Daten in Deutschland
Schön, dass es mit dem Termin geklappt hat.
Sehr gerne. Sollen wir direkt starten?
Ja — ich nehme das Gespräch auf, ist das ok?
Die meisten Transkriptionsdienste nutzen ein generisches multilinguales Modell, das alle 99 Sprachen halbwegs gleich behandelt. Bei reinem Hochdeutsch reicht das. Sobald aber ein Berner Kunde nuschelt, eine Wienerin schnellspricht oder ein bayerisches Meeting kippt, kollabiert die Genauigkeit. DeepScript geht den anderen Weg: Das Premium-Modell ist auf über 50.000 Stunden DACH-Audio nachtrainiert — Material aus echten Geschäftsmeetings, Interviews und Podcasts. Dieser Datensatz stammt aus der Heritage der Aliru GmbH, die zuvor Sally (sally.io) als KI-Meeting-Assistent betrieben hat. Das Ergebnis: ~3–5 % Word Error Rate auf sauberem Deutsch, dort wo Whisper-large generisch bei 7–9 % liegt.
Belege
Woran wir das festmachen
Über 50.000 Stunden DACH-Audio im Training
Echte Meetings, Interviews und Telefonate aus Deutschland, Österreich und der Schweiz — kein synthetisches Audio.
~3–5 % WER auf klarem Deutsch (Premium)
Gemessen gegen kuratiertes Hochdeutsch-Test-Set. Generic Whisper-large liegt im selben Test bei 7–9 %.
Heritage: Sally (sally.io)
Aliru GmbH baut seit Jahren Meeting-KI für DACH-Unternehmen. Diese Erfahrung steckt im DeepScript-Modell.
ISO 27001 / 9001 / 14001 zertifiziert
Informationssicherheit, Qualitätsmanagement und Umweltmanagement — drei Zertifikate, ein Betrieb.
Server in Nürnberg & Falkenstein
Eigene Hetzner-Hardware in deutschen Rechenzentren. Kein US-Cloud-Subdienstleister im Transkriptionspfad.
In der Praxis
Was das konkret heißt
Wir haben uns auf eine Sache spezialisiert: Audio aus dem DACH-Raum. Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch — wo generische Modelle raten, hören wir hin.
- Dialekt-Erkennung für Schwiizerdütsch, Bairisch, Wienerisch, Plattdeutsch und Sächsisch — wo generische Modelle ins Englische rutschen, bleiben wir im Kontext.
- Sprechertrennung (Speaker Diarization) in beiden Tarifen inklusive. Standard erkennt zuverlässig 2–6 Sprecher, Premium auch nahe beieinander liegende Stimmen.
- Custom Vocabulary für Eigennamen, Fachbegriffe und firmenspezifische Akronyme — boostet die Erkennung von „Schwarz-Schilling“ oder „MRT-T1-gewichtet“ messbar.
- 99 Sprachen verfügbar (Auto-Detect plus manuelle Auswahl), DACH-Sprachen sind in Genauigkeit und Latenz priorisiert.
- Wort-Timestamps mit Confidence-Score je Wort — sichtbar im Editor, exportierbar als JSON für Downstream-Pipelines.
So nutzt du es
In wenigen Schritten startklar
- 1
1. Modell wählen
Standard (0,18 €/h) für saubere Aufnahmen und Alltagsgespräche. Premium (0,27 €/h) für Dialekt, Lärm, viele Sprecher oder wenn die Transkription zitierfähig sein muss.
- 2
2. Vocabulary anlegen (optional)
Eigennamen, Produktnamen, Fachbegriffe als Liste hinterlegen. Dieselbe Vocabulary wird auf alle Transkriptionen dieses Projekts angewandt.
- 3
3. Hochladen oder live aufnehmen
Audio- oder Videodatei per Drag & Drop, oder Live-Transkription über das Mikrofon. Premium läuft in der Priority Queue.
- 4
4. Ergebnis prüfen und exportieren
Im Editor: Sprecher-Labels umbenennen, einzelne Wörter klicken, Confidence-Coloring nutzen. Export als TXT, SRT, VTT oder JSON.
FAQ
Häufige Fragen
Wie ist DeepScript besser als generisches Whisper?+
Generisches Whisper-large ist auf einer breiten Mischung aus 99 Sprachen trainiert — durchschnittlich gut, in keiner Sprache exzellent. Wir nehmen dieselbe Architektur und trainieren sie auf über 50.000 Stunden DACH-spezifischem Audio nach. Bei klarem Deutsch sehen wir damit ~3–5 % WER, generic Whisper-large liegt im selben Test bei 7–9 %. Bei Dialekten ist der Abstand noch deutlicher.
Wieso der DACH-Fokus?+
Aliru GmbH hat vor DeepScript jahrelang Sally (sally.io) betrieben, einen KI-Meeting-Assistenten mit überwiegend deutschsprachigen Kunden. Daraus entstanden ein Trainings-Korpus und Erfahrung, die generische Anbieter schlicht nicht haben. Wir bauen das Produkt, das wir selbst gebraucht haben.
Habe ich für Englisch dieselbe Qualität?+
Englisch ist über die Whisper-Basis erstklassig unterstützt — WER liegt typischerweise bei 4–6 % auf sauberen Aufnahmen. Unsere Feinjustierung verbessert es nicht messbar (Englisch war im Original-Whisper bereits dominant). Wir sind in DACH besser, in Englisch ungefähr gleichauf mit den großen Anbietern.
Was bedeutet Speaker Diarization konkret?+
Pro Wort wird zusätzlich zur Transkription ein Sprecher-Label vergeben („Sprecher 1“, „Sprecher 2“ …). Im Editor lassen sich die Labels in echte Namen umbenennen. In SRT/VTT-Exporten erscheinen sie als Präfix vor jedem Untertitel, in JSON als Feld pro Wort. Du kannst die Labels jederzeit selbst korrigieren.
Wie unterscheidet sich Premium von Standard?+
Drei Dinge: (1) das DACH-Feintuning ist nur im Premium-Modell aktiv — Standard nutzt eine schlankere Variante; (2) Premium läuft in einer Priority Queue mit niedrigerer Wartezeit; (3) die Sprechertrennung ist feiner abgestimmt für ähnlich klingende Stimmen. Standard kostet 0,18 €/h, Premium 0,27 €/h.
Überzeug dich selbst
Lade eine Datei hoch und sieh das Ergebnis in Minuten. Drei Transkriptionen kostenlos, ohne Kreditkarte.