Werden meine Audio-Dateien zum Training von KI-Modellen verwendet?
Kurzantwort
Bei manchen US-Anbietern ja, sofern du nicht aktiv widersprichst. Seriöse Anbieter schließen es vertraglich aus — frag nach und prüfe die AGB.
Die Antwort hängt fundamental vom Anbieter ab und entscheidet, wie sicher deine Daten wirklich sind. Drei typische Modelle:
1. Standard-Training auf Kundendaten (Opt-out). Manche US-Cloud-Anbieter nutzen Kundendaten zum Trainieren ihrer Modelle, sofern du nicht aktiv widersprichst. OpenAI hatte das bei der ChatGPT-API zunächst aktiviert, später für die API standardmäßig ausgeschaltet — bei anderen Anbietern ist die Lage uneinheitlich. Auch Speech-to-Text-Provider verwenden Customer-Audio oft als „Verbesserungs-Signal" für ihre Akustik- und Sprachmodelle.
2. Opt-in zum Training. Andere Anbieter trainieren standardmäßig nicht auf Kundendaten, aber locken mit Rabatten („Aktiviere Data Sharing für 30 % Rabatt"). Das ist transparenter, aber gefährlich, weil Mitarbeiter in einer Firma das Häkchen unbedacht setzen können.
3. Vertraglicher Ausschluss. Seriöse Anbieter schließen Trainingsnutzung in den Standard-AGB und im AVV explizit aus. DSGVO Art. 28 Abs. 3 lit. a verlangt ohnehin, dass der Auftragsverarbeiter Daten nur auf dokumentierte Weisung des Verantwortlichen verarbeitet — Training für eigene Zwecke wäre ein Verstoß.
Warum das relevant ist: Wenn dein Audio in Trainingsdaten einfließt, können bei seltenen Aussagen Reidentifikations-Risiken entstehen. Bekanntes Beispiel sind LLMs, die Privatdaten aus Trainingstexten zurückgeben (Membership-Inference- und Memorization-Attacks). Bei Speech-Modellen ist das Risiko geringer, aber nicht null — Stimmproben sind biometrische Daten.
So prüfst du es: - AGB nach „Training", „Improvement", „Machine Learning", „Customer Data" durchsuchen. - Privacy Policy nach „Used to improve our service" suchen — typische Schwammigkeit. - AVV-Vorlage anfragen und auf Klausel achten, die Trainingsnutzung explizit verbietet. - Bei Fortune-500-Anbietern: Compliance-Sheet mit Kunden-spezifischer Bestätigung anfragen.
DeepScript trainiert keine Modelle auf Kundendaten. Wir nutzen ein vortrainiertes Whisper-kompatibles Modell und finetunen ausschließlich auf öffentlich lizenzierten Datensätzen (Common Voice, LibriSpeech, freie deutsche Korpora). Diese Garantie steht im AVV und in den AGB.
Verwandte Fragen
Frage offen geblieben?
Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.