DeepScript
guides

Schweizerdeutsch, Bayrisch, Wienerisch: Dialekte zuverlässig transkribieren

Warum die meisten Transkriptions-APIs an DACH-Dialekten scheitern und wie Sie trotzdem zu sauberen Texten kommen – inklusive Vergleich, Praxis-Tipps und Custom-Vocabulary-Strategie.

DeepScript TeamMay 5, 20267 min de lecture

Schweizerdeutsch, Bayrisch, Wienerisch: Dialekte zuverlässig transkribieren

Wer im DACH-Raum transkribiert, kennt das Problem: Ein Interview aus Zürich, ein Gespräch aus München oder eine Aufzeichnung aus Wien wird in eine Transkriptions-API gefüttert – und das Ergebnis ist entweder Hochdeutsch (das so nie gesprochen wurde) oder Kauderwelsch. Die großen US-APIs sind auf BBC-Englisch und Newsroom-Deutsch trainiert, nicht auf das, was tatsächlich an deutschen Esstischen, in Schweizer Sitzungszimmern oder österreichischen Cafés gesprochen wird.

Dieser Artikel erklärt, warum Dialekt-Transkription technisch schwierig ist, welche Anbieter wie gut damit umgehen und wie Sie auch in schwierigen Fällen zu sauberen Ergebnissen kommen.

Warum Dialekte so schwer zu transkribieren sind

Eine Transkriptions-Engine ist im Kern ein neuronales Netz, das Audiosignale auf Texteinheiten abbildet. Das Modell hat während des Trainings Millionen Stunden Sprache gehört – überwiegend in der Standardvarietät der Zielsprache. Für Deutsch heißt das: Tagesschau-Deutsch, Newsroom-Aussprache, gepflegtes Hochdeutsch.

Sobald ein Sprecher davon abweicht, passieren drei Dinge gleichzeitig:

1. Phonetische Verschiebungen. Im Bayrischen wird das harte „k" oft zum weichen „ch" („Milch" statt „Milk"), im Schwäbischen verschwindet das End-„e" („i hab gsagt"). Die Engine kennt diese Phoneme zwar – sie hört sie aber im falschen Kontext und schreibt das, was sie aus dem Training kennt.

2. Lexikalische Eigenheiten. „Grüezi", „Servus", „Jausen", „Bub", „Schaffe" – Wörter, die in der Standardvarietät nicht existieren oder eine andere Bedeutung haben. Wenn das Modell diese Wörter im Training kaum gehört hat, ersetzt es sie durch das, was am ehesten passt: meistens etwas Falsches.

3. Grammatik-Variationen. Bayrisch hat einen anderen Satzbau als Hochdeutsch („wenn ich gewusst hätte, wäre ich gekommen" → „wenn i des gwusst hätt, war i kemma"). Das Modell, das auf Hochdeutsch trainiert ist, „korrigiert" die Grammatik beim Transkribieren – und produziert damit etwas, das semantisch falsch wird.

Das Ergebnis: Bei reinem Schweizerdeutsch sinkt die Wortgenauigkeit selbst der besten US-APIs auf 50–70 %. Bei mittelstark dialektal eingefärbtem Deutsch (z.B. Münchner Standardsprache) liegen die Werte zwischen 80 und 90 %, je nach Anbieter.

Wie verschiedene Anbieter mit DACH-Dialekten umgehen

OpenAI Whisper (Open-Source-Modell)

Whisper ist das bekannteste Open-Source-Modell und Grundlage vieler kommerzieller APIs. Es wurde auf 680.000 Stunden mehrsprachigem Audio trainiert – davon ein nennenswerter, aber nicht riesiger Teil Deutsch. Bei Hochdeutsch liefert Whisper gute Ergebnisse (~94 %). Bei Schweizerdeutsch fällt die Genauigkeit auf etwa 60–70 %, bei stark bayrisch oder österreichisch eingefärbtem Deutsch auf 75–85 %.

Stärke: Open-Source, lokal lauffähig. Schwäche: Kein Fine-Tuning auf DACH-Varietäten, keine Custom-Vocabulary-Funktion.

Google Speech-to-Text

Google bietet ein eigenes Sprachmodell für „Deutsch (Schweiz)" – das ist ehrenwert, aber primär auf Schweizer Hochdeutsch trainiert (also was im Schweizer Fernsehen gesprochen wird), nicht auf echtes Schweizerdeutsch („Mundart"). Bei klassischen Mundart-Interviews kommt das Modell schnell an Grenzen.

Stärke: Mehrere regionale Varianten, gute API. Schwäche: „Schweiz" ≠ „Schweizerdeutsch", Datenverarbeitung primär in den USA.

AssemblyAI Universal-2

Universal-2 ist auf Generalisierung trainiert, nicht auf Dialekte. Bei deutschen Aufnahmen liefert es solide Ergebnisse für Hochdeutsch, hat aber keinen expliziten Schwerpunkt auf DACH. Custom-Vocabulary („boost words") hilft bei Eigennamen, nicht bei Phonetik.

Stärke: Hohe Generalisierungs-Genauigkeit, gute API. Schwäche: Keine spezifische Dialekt-Optimierung, US-Server.

DeepScript Premium

DeepScript wurde für den DACH-Markt gebaut. Das Premium-Modell ist auf österreichische, schweizerische und süddeutsche Aufnahmen feinabgestimmt – es hat mehr Münchner Stadtviertel-Talk und Berner Sitzungs-Audio gehört als jedes Modell, das auf einer Standard-Cloud-API läuft. Für stark dialektal eingefärbte Aufnahmen liegen wir typischerweise 5–15 Prozentpunkte über generalistischen US-APIs.

Stärke: DACH-Dialekt-Optimierung, eigene Server in Deutschland, Custom Vocabulary in jedem Tier. Schwäche: Kleinere Sprachenabdeckung jenseits Europas.

So holen Sie das Maximum aus Dialekt-Aufnahmen heraus

Egal welchen Anbieter Sie nutzen – diese Praktiken machen den Unterschied zwischen 70 % und 95 % Genauigkeit:

1. Custom Vocabulary aktiv nutzen

Eigennamen, Fachbegriffe und dialektale Wörter, die im Material vorkommen, gehören in die Custom Vocabulary. Beispiele für Mundart-Aufnahmen:

  • Schweizerdeutsch: Grüezi, Sitzig, Vorstand (mit langem „a"), Velo, Znacht
  • Bayrisch: Grüß Gott, Pfiat di, Servus, Brotzeit, Maß
  • Österreichisch: Jause, Erdäpfel, Marille, Kassa, Sackerl

Selbst eine Liste von 30–50 Wörtern senkt die Fehlerrate bei häufig vorkommenden Begriffen drastisch.

2. Premium-Modell wählen, wenn der Dialekt stark ist

Bei Standardsprache reicht das Standard-Modell. Bei klar dialektal eingefärbten Aufnahmen – vor allem bei Mundart-Interviews – lohnt das Premium-Modell. Der Aufpreis von 0,18 € auf 0,27 € pro Stunde rechtfertigt sich bei einem 60-minütigen Interview mit einer einzigen ersparten halben Stunde Nachbearbeitung.

3. Audio-Qualität ist der größte Hebel

Selbst die beste Engine kämpft, wenn das Audio schlecht ist. Achten Sie auf:

  • Mikrofonabstand: 15–30 cm bei Headsets, 50–80 cm bei Standmikrofonen.
  • Hintergrundgeräusche: Kühlschränke, Klimaanlagen und Verkehrslärm sind die häufigsten Killer. Aufnahmegerät weg vom Lärm.
  • Bitrate: Mindestens 64 kbps MP3, besser 128 kbps. Lieber WAV als komprimierter Anrufmitschnitt.
  • Mehrsprecher-Aufnahmen: Wenn möglich, jedem Sprecher ein eigenes Mikrofon. Das verbessert sowohl die Transkription als auch die Sprechertrennung.

4. Sprache explizit setzen

Auto-Detection funktioniert gut bei klaren Sprachen, ist aber bei Schweizerdeutsch unzuverlässig – die Engine vermutet manchmal Niederländisch oder Skandinavisch. Setzen Sie die Sprache explizit auf „Deutsch" (oder „Deutsch (Schweiz)" / „Deutsch (Österreich)" wenn der Anbieter das anbietet).

5. Speaker Diarization einschalten

Bei Mehrsprecher-Interviews mit Dialekt schaltet die Sprechertrennung nicht nur die Lesbarkeit hoch – sie verbessert auch die Wortgenauigkeit, weil das Modell pro Sprecher kontextbezogen anpasst. DeepScript hat Diarization in jedem Tier kostenlos dabei.

Was tun, wenn die Transkription unbrauchbar ist?

Manchmal ist das Material so schwierig, dass auch das beste Modell scheitert: Mundart aus dem Wallis, Steirisch im hintersten Tal, Plattdeutsch von einer 90-jährigen Erzählerin. In solchen Fällen helfen pragmatische Workflows:

Erst transkribieren, dann zweistufig korrigieren. Eine maschinelle Transkription mit 70 % Genauigkeit ist trotzdem schneller zu korrigieren als eine komplett manuelle Transkription. Zwei Personen lesen parallel: eine korrigiert die Wörter, eine die Grammatik und Interpunktion.

In Hochdeutsch übersetzen lassen. DeepScript hat Auto-Übersetzung in 16 Sprachen eingebaut. Bei stark dialektaler Aufnahme kann es sinnvoll sein, zusätzlich eine Hochdeutsch-Version zu erzeugen – als „klare Lese-Version" neben dem dialektalen Original. Das erleichtert Suchen, Zitieren und Weitergabe.

Hybrider Ansatz für Forschung. Bei wissenschaftlichen Interviews mit dialektaler Sprache: Maschinelle Transkription als Erstentwurf, dann manuelle Bereinigung. Sie sparen typisch 60–70 % der Zeit gegenüber einer komplett manuellen Transkription.

Praxis-Beispiel: Bürgerinterview im Allgäu

Ein Forscher transkribiert 15 Interviews mit Allgäuer Bauern für eine ethnografische Studie. Sprache: Allgäuerisch (eine Variante des Bayrisch-Alemannischen). Aufnahmen: Lavalier-Mikrofon, ruhiges Wohnzimmer, hohe Qualität.

Erster Versuch (Whisper Large via API): 78 % Wortgenauigkeit. Eigennamen vertauscht, Mundart-Verben oft falsch interpretiert. Manuelle Nacharbeit pro Interview: ~3 Stunden.

Zweiter Versuch (DeepScript Premium + Custom Vocabulary mit 40 Allgäuer Begriffen): 91 % Wortgenauigkeit. Eigennamen sauber, Verben überwiegend korrekt. Manuelle Nacharbeit pro Interview: ~45 Minuten.

Die Zeitersparnis allein über alle 15 Interviews: ~30 Stunden. Bei 0,27 €/Stunde Audio kostet das 15 × ca. 0,30 € = unter 5 € Anbieterkosten. Die Mathematik ist eindeutig.

Fazit

DACH-Dialekte sind kein Nischenproblem. Wer im deutschsprachigen Raum transkribiert – als Forscher, Journalist, Anwalt, Mediziner oder Personalverantwortlicher – wird zwangsläufig auf dialektal eingefärbte Aufnahmen treffen. Generalistische US-APIs liefern hier mittelmäßige Ergebnisse, die viel Nachbearbeitung erfordern.

Drei Punkte machen den Unterschied:

  1. Anbieter wählen, der DACH versteht. Spezifische Optimierung schlägt Generalisierung – sowohl bei der Engine als auch bei der Datenverarbeitung in der EU.
  2. Custom Vocabulary konsequent einsetzen. Eigennamen und dialektale Wörter aktiv beifügen, statt darauf zu hoffen, dass die Engine sie errät.
  3. Audio-Qualität ernst nehmen. Selbst das beste Modell scheitert an einer Aufnahme aus dem Hosentaschen-Mikro.

DeepScript hat all das im Premium-Tier eingebaut: Dialekt-Optimierung für Bayrisch, Schweizerdeutsch und Österreichisch, Custom Vocabulary inklusive (auch im Standard-Tier), Server in Deutschland, AVV digital signierbar. Probieren Sie es mit drei kostenlosen Transkriptionen: deepscript.com/free-transcription.

SchweizerdeutschBayrischDialektTranskriptionDACH

Vous voulez essayer ?

Trois transcriptions gratuites, sans carte bancaire. Vos données restent en Allemagne.

Schweizerdeutsch, Bayrisch, Wienerisch: Dialekte zuverlässig transkribieren | DeepScript