Question 1

Wie ist DeepScript besser als generisches Whisper?

Accepted Answer

Generisches Whisper-large ist auf einer breiten Mischung aus 99 Sprachen trainiert – durchschnittlich gut, in keiner Sprache exzellent. Wir nehmen dieselbe Architektur und trainieren sie auf über 50.000 Stunden DACH-spezifischem Audio nach. Bei klarem Deutsch sehen wir damit ~3–5 % WER, generic Whisper-large liegt im selben Test bei 7–9 %. Bei Dialekten ist der Abstand noch deutlicher.

Question 2

Wieso der DACH-Fokus?

Accepted Answer

Aliru GmbH hat vor DeepScript jahrelang Sally (sally.io) betrieben, einen KI-Meeting-Assistenten mit überwiegend deutschsprachigen Kunden. Daraus entstanden ein Trainings-Korpus und Erfahrung, die generische Anbieter schlicht nicht haben. Wir bauen das Produkt, das wir selbst gebraucht haben.

Question 3

Habe ich für Englisch dieselbe Qualität?

Accepted Answer

Englisch ist über die Whisper-Basis erstklassig unterstützt – WER liegt typischerweise bei 4–6 % auf sauberen Aufnahmen. Unsere Feinjustierung verbessert es nicht messbar (Englisch war im Original-Whisper bereits dominant). Wir sind in DACH besser, in Englisch ungefähr gleichauf mit den großen Anbietern.

Question 4

Was bedeutet Speaker Diarization konkret?

Accepted Answer

Pro Wort wird zusätzlich zur Transkription ein Sprecher-Label vergeben („Sprecher 1“, „Sprecher 2“ …). Im Editor lassen sich die Labels in echte Namen umbenennen. In SRT/VTT-Exporten erscheinen sie als Präfix vor jedem Untertitel, in JSON als Feld pro Wort. Du kannst die Labels jederzeit selbst korrigieren.

Question 5

Wie unterscheidet sich Premium von Standard?

Accepted Answer

Drei Dinge: (1) das DACH-Feintuning ist nur im Premium-Modell aktiv – Standard nutzt eine schlankere Variante; (2) Premium läuft in einer Priority Queue mit niedrigerer Wartezeit; (3) die Sprechertrennung ist feiner abgestimmt für ähnlich klingende Stimmen. Standard kostet 0,18 €/h, Premium 0,27 €/h.

Die genaueste Transkription für deutschsprachige Dialekte

Woran wir das festmachen

Über 50.000 Stunden DACH-Audio im Training

~3–5 % WER auf klarem Deutsch (Premium)

Heritage: Sally (sally.io)

ISO 27001 / 9001 / 14001 zertifiziert

Server in Nürnberg & Falkenstein

Was das konkret heißt

In wenigen Schritten startklar

1. Modell wählen

2. Vocabulary anlegen (optional)

3. Hochladen oder live aufnehmen

4. Ergebnis prüfen und exportieren

Häufige Fragen

Überzeug dich selbst