DeepScript
Frage

Was ist Custom Vocabulary und wann brauche ich es?

Kurzantwort

Eine Wortliste, die dem Modell vor der Transkription Fachbegriffe und Eigennamen mitgibt — sie hebt die Erkennung dieser Begriffe oft von 30 % auf 95 %.

Vorname-Nachname von Kollegen, Produktbezeichnungen, Akronyme, medizinische und juristische Fachbegriffe — all diese Wörter kennt ein Standard-Sprachmodell entweder gar nicht oder nicht in der richtigen Schreibweise. Das Modell rät dann phonetisch ähnliche Alternativen. „Müller-Lüdenscheidt" wird zu „Müller Lütemschmidt", „Pembrolizumab" wird zu „Pemberlitsu Map".

Custom Vocabulary (manchmal: „Hot Words", „Word Boosting", „Pronunciation Dictionary") löst das. Du hinterlegst vor der Transkription eine Liste mit Wörtern, die für deinen Kontext wichtig sind. Das Modell gewichtet diese Wörter bei der Erkennung höher.

Wann du es brauchst - Du arbeitest in einem Fachgebiet mit eigenem Vokabular (Medizin, Recht, Pharma, IT, Industrie). - Du transkribierst Interviews mit wiederkehrenden Personen (Kunden, Forschungspartner). - Dein Unternehmen hat Produktnamen, die nicht im allgemeinen Wortschatz sind. - Du arbeitest mit Marken oder Firmen mit ungewöhnlicher Schreibung.

Wann du es nicht brauchst - Allgemeine Gespräche ohne Fachvokabular. - Aufnahmen mit nur einer kurzen Person und gängigen Worten.

So baust du eine gute Liste auf 1. Sammle 20-50 Begriffe pro Domäne — nicht mehr, sonst „lernt" das Modell zu viel und macht andere Fehler. 2. Schreibe sie in der finalen Schreibweise (mit korrekten Umlauten, Bindestrichen, Großschreibung). 3. Bei sehr seltenen Wörtern: phonetische Variante mitgeben, falls der Anbieter das unterstützt (z.B. „GDPR | DSGVO"). 4. Aktualisiere die Liste, wenn neue Begriffe regelmäßig auftauchen.

Bei DeepScript Im Upload-Schritt kannst du entweder eine bereits gespeicherte Vocabulary auswählen oder inline eine kommagetrennte Liste eingeben. Über die API: Field `vocabularyId` (gespeicherte Liste) oder `vocabulary` (Inline-Array) im POST /v1/transcriptions Request. Für Bestandskunden lohnt sich, einmal ein zentrales Glossar in der UI anzulegen und es für alle Folgejobs zu verwenden.

Realer Effekt In unseren internen Benchmarks hebt eine gut gepflegte Custom Vocabulary die Erkennungsrate domänenspezifischer Begriffe von ~30 % auf ~95 %. Bei medizinischen Transkriptionen ist das oft der entscheidende Hebel zwischen unbrauchbar und produktionsreif.

Verwandte Fragen

Frage offen geblieben?

Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.

Custom Vocabulary in der Transkription — wann und wofür? | DeepScript