Question 1

En quoi DeepScript est-il meilleur que Whisper générique ?

Accepted Answer

Whisper-large générique est entraîné sur un large mélange de 99 langues – correct en moyenne, excellent dans aucune. Nous reprenons la même architecture et poursuivons l'entraînement sur plus de 50 000 heures d'audio spécifique au DACH. Sur de l'allemand clair, cela nous donne ~3–5 % de WER, là où Whisper-large générique mesure 7–9 % sur le même jeu. L'écart se creuse nettement sur les dialectes.

Question 2

Pourquoi se concentrer sur le DACH ?

Accepted Answer

Avant DeepScript, Aliru GmbH a exploité pendant des années Sally (sally.io), un assistant de réunion IA avec une clientèle majoritairement germanophone. Cela a produit un corpus d'entraînement et une expérience opérationnelle que les fournisseurs génériques n'ont tout simplement pas. Nous construisons le produit dont nous avions nous-mêmes besoin.

Question 3

Ai-je la même qualité pour l'anglais ?

Accepted Answer

L'anglais est excellemment pris en charge via la base Whisper – le WER se situe généralement entre 4 et 6 % sur des enregistrements clairs. Notre affinage ne l'améliore pas de manière mesurable (l'anglais dominait déjà l'entraînement Whisper d'origine). Nous sommes meilleurs sur le DACH ; en anglais, nous sommes à peu près au niveau des grands fournisseurs.

Question 4

Que signifie concrètement la Speaker Diarization ?

Accepted Answer

Chaque mot reçoit, en plus de sa transcription, une étiquette de locuteur (« Locuteur 1 », « Locuteur 2 » …). Dans l'éditeur, vous pouvez renommer les étiquettes en vrais noms. Dans les exports SRT/VTT, elles apparaissent en préfixe avant chaque sous-titre ; en JSON, comme un champ sur chaque mot. Vous pouvez corriger n'importe quelle étiquette à tout moment.

Question 5

En quoi Premium diffère-t-il de Standard ?

Accepted Answer

Trois choses : (1) l'affinage DACH n'est actif que dans le modèle Premium – Standard utilise une variante plus légère ; (2) Premium passe dans une file prioritaire avec des temps d'attente plus courts ; (3) la Speaker Diarization est réglée plus finement pour les voix qui se ressemblent. Standard coûte 0,18 €/h, Premium 0,27 €/h.

La transcription la plus précise pour les dialectes germanophones

Sur quoi nous nous appuyons

Plus de 50 000 heures d'audio DACH à l'entraînement

~3–5 % de WER sur de l'allemand clair (Premium)

Héritage : Sally (sally.io)

Certifié ISO 27001 / 9001 / 14001

Serveurs à Nuremberg et Falkenstein

Ce que cela signifie concrètement

Opérationnel en quelques étapes

1. Choisir un modèle

2. Créer un Custom Vocabulary (facultatif)

3. Importer ou enregistrer en direct

4. Vérifier et exporter

Questions fréquentes

Jugez-en par vous-même