Wie viele Sprachen unterstützt KI-Transkription?
Kurzantwort
Die besten Modelle (Whisper, AssemblyAI, DeepScript) decken 99 Sprachen ab — die Qualität reicht aber von exzellent bei den Top 10 bis kaum brauchbar bei seltenen Sprachen.
Die Antwort hängt davon ab, was du unter „unterstützt" verstehst. Die meisten modernen Modelle behaupten 99+ Sprachen, aber die Qualität ist alles andere als gleichmäßig.
Tier 1 — exzellent (WER 3-7 %) Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Chinesisch (Mandarin), Russisch. Diese Sprachen haben jeweils zehntausende Stunden Trainingsmaterial. Hier liefert moderne KI nahezu menschliche Qualität bei sauberem Audio.
Tier 2 — sehr gut (WER 7-12 %) Polnisch, Koreanisch, Türkisch, Arabisch (Standard), Schwedisch, Dänisch, Finnisch, Norwegisch, Tschechisch, Griechisch, Hebräisch, Ukrainisch. Solide für die meisten Anwendungsfälle, leichte Nachkorrektur sinnvoll.
Tier 3 — brauchbar (WER 12-20 %) Viele indische Sprachen (Hindi, Tamil, Telugu, Bengali), Vietnamesisch, Thai, Indonesisch, südosteuropäische Sprachen (Kroatisch, Serbisch, Slowakisch, Slowenisch, Bulgarisch, Rumänisch, Ungarisch), baltische Sprachen (Litauisch, Lettisch, Estnisch).
Tier 4 — eingeschränkt (WER > 20 %) Seltene Sprachen mit wenig Trainingsmaterial — viele afrikanische Sprachen, Suaheli (außer Standard-Swahili), Amharisch, kleine indigene Sprachen. Auch starke Dialekte fallen hier rein (Schweizerdeutsch, breites Bairisch).
Sprachen-Erkennung (Auto-Detect) Die meisten Modelle erkennen die Sprache automatisch aus den ersten 30 Sekunden des Audios. Das funktioniert für die Top 30 sehr zuverlässig, fällt bei seltenen Sprachen oder kurzen Aufnahmen aber auf falsche Sprache zurück. Wenn du die Sprache kennst, gib sie explizit an — schlägt Auto-Detect immer.
Mehrsprachige Aufnahmen Bei Aufnahmen mit Sprachwechseln (z.B. deutsches Interview, in dem ein englisches Zitat eingebaut ist) gibt es zwei Modi: - Transkription beibehalten: Modell transkribiert jedes Sprachsegment in seiner Originalsprache. Tier-1-Modelle können das, viele andere nicht. - Übersetzung: Modell übersetzt alles nach Zielsprache. Whisper hat dafür den `task=translate`-Modus, der alles nach Englisch übersetzt.
DeepScript-Sprachen Wir unterstützen 99 Sprachen. Im UI siehst du eine Drop-Down-Liste mit allen, bei der API ist es der `language`-Parameter als ISO 639-1 Code (`de`, `en`, `fr`, `it`, `es`, `pl`, `nl`, …). Für DACH-Märkte ist Premium-Modell mit DACH-Tuning besonders relevant — siehe die Frage zu Schweizerdeutsch.
Praktischer Hinweis „99 Sprachen" ist ein Marketing-Wert — er sagt nichts darüber aus, wie gut die einzelne Sprache funktioniert. Wenn du eine selten unterstützte Sprache brauchst, fordere ein konkretes Beispiel-Audio vom Anbieter und prüfe das Ergebnis selbst. Verlass dich nicht auf eine Tabelle mit grünen Häkchen.
Verwandte Fragen
Frage offen geblieben?
Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.