Werden meine Audio-Dateien zum Training von KI-Modellen verwendet?

Question

Accepted Answer

Bei manchen US-Anbietern ja, sofern du nicht aktiv widersprichst. Seriöse Anbieter schließen es vertraglich aus – frag nach und prüfe die AGB.

Die Antwort hängt fundamental vom Anbieter ab und entscheidet, wie sicher deine Daten wirklich sind. Drei typische Modelle:

1. **Standard-Training auf Kundendaten** (Opt-out). Manche US-Cloud-Anbieter nutzen Kundendaten zum Trainieren ihrer Modelle, sofern du nicht aktiv widersprichst. OpenAI hatte das bei der ChatGPT-API zunächst aktiviert, später für die API standardmäßig ausgeschaltet – bei anderen Anbietern ist die Lage uneinheitlich. Auch Speech-to-Text-Provider verwenden Customer-Audio oft als „Verbesserungs-Signal" für ihre Akustik- und Sprachmodelle.

2. **Opt-in zum Training**. Andere Anbieter trainieren standardmäßig nicht auf Kundendaten, aber locken mit Rabatten („Aktiviere Data Sharing für 30 % Rabatt"). Das ist transparenter, aber gefährlich, weil Mitarbeiter in einer Firma das Häkchen unbedacht setzen können.

3. **Vertraglicher Ausschluss**. Seriöse Anbieter schließen Trainingsnutzung in den Standard-AGB und im AVV explizit aus. DSGVO Art. 28 Abs. 3 lit. a verlangt ohnehin, dass der Auftragsverarbeiter Daten nur auf dokumentierte Weisung des Verantwortlichen verarbeitet – Training für eigene Zwecke wäre ein Verstoß.

Warum das relevant ist: Wenn dein Audio in Trainingsdaten einfließt, können bei seltenen Aussagen Reidentifikations-Risiken entstehen. Bekanntes Beispiel sind LLMs, die Privatdaten aus Trainingstexten zurückgeben (Membership-Inference- und Memorization-Attacks). Bei Speech-Modellen ist das Risiko geringer, aber nicht null – Stimmproben sind biometrische Daten.

So prüfst du es:
- AGB nach „Training", „Improvement", „Machine Learning", „Customer Data" durchsuchen.
- Privacy Policy nach „Used to improve our service" suchen – typische Schwammigkeit.
- AVV-Vorlage anfragen und auf Klausel achten, die Trainingsnutzung explizit verbietet.
- Bei Fortune-500-Anbietern: Compliance-Sheet mit Kunden-spezifischer Bestätigung anfragen.

DeepScript trainiert keine Modelle auf Kundendaten. Wir nutzen ein vortrainiertes Whisper-kompatibles Modell und finetunen ausschließlich auf öffentlich lizenzierten Datensätzen (Common Voice, LibriSpeech, freie deutsche Korpora). Diese Garantie steht im AVV und in den AGB.

Werden meine Audio-Dateien zum Training von KI-Modellen verwendet?

Verwandte Fragen

Frage offen geblieben?