DeepScript
Frage

Soll ich Whisper selbst hosten oder eine API nutzen?

Kurzantwort

Unter 500 Audiostunden/Monat fast immer eine Managed-API; darüber kann Self-Hosting günstiger werden, aber nur mit GPU-Erfahrung und DevOps-Budget.

Whisper ist Open Source — du kannst es kostenlos auf eigener Hardware laufen lassen. Klingt verlockend, hat aber Tücken. Hier eine ehrliche Rechnung.

Was du brauchst, um Whisper zu hosten - GPU: für Whisper-Large mindestens 10 GB VRAM. Eine RTX 4090 (~1.800 €) oder eine A100 in der Cloud (~2 €/h Spot). - Docker, NVIDIA Container Toolkit, eventuell Kubernetes. - Job-Queue (Redis + BullMQ, Sidekiq, Celery). - File-Storage für Audio (S3-kompatibel, oder lokal mit Backup). - Monitoring (Prometheus, Grafana, Sentry). - Skalierungs-Logik bei Lastspitzen. - Eventuelle Anpassungen: WhisperX für Diarisierung, eigene API um Whisper herum.

Was Whisper nicht out-of-the-box kann - Speaker Diarization (braucht WhisperX oder pyannote.audio). - Echtzeit-Streaming (braucht Faster-Whisper + Custom-Code). - Word-Level-Timestamps in einigen Varianten ungenau. - Webhooks, Rate Limits, Multi-Tenant — alles selbst bauen. - DSGVO-Compliance — du bist Verantwortlicher, kein Anbieter haftet mit.

Kostenrechnung bei 500h/Monat - DeepScript Standard: 500h × 0,18 € = 90 €/Monat. - Self-Hosted auf Hetzner GPU-Server (GEX44 mit RTX 6000 ADA, ~700 €/Monat): 700 € + Stromaufschlag, plus DevOps-Zeit. - Self-Hosted in AWS (g5.xlarge, ~ 1,00 $/h Spot, 24/7): ~720 $/Monat plus Storage und Network Egress.

Wann Self-Hosting Sinn macht - Du transkribierst > 2000 h/Monat und hast die Skalierungs-Last über Monate stabil. - Du hast GPU-Infrastruktur ohnehin im Haus (ML-Forschung, Game-Server-Reste). - Du brauchst extreme Daten-Souveränität (z.B. Air-Gapped-Umgebung für Behörden). - Du fine-tunest Whisper auf deine Domain — eine API erlaubt das selten.

Wann eine API gewinnt - < 500h/Monat: API ist günstiger, einfacher, schneller einsatzbereit. - Du brauchst Diarisierung, Custom Vocabulary, Webhooks ohne sie zu bauen. - Du brauchst SLA und 24/7 Support. - Du brauchst eine schriftliche DSGVO-Compliance (AVV, Sub-Auftragsverarbeiter-Liste). - Du willst dich auf dein Produkt konzentrieren, nicht auf GPU-Treiber.

Hybrid-Variante Manche Teams nutzen DeepScript für DSGVO-relevante Kundendaten und Self-Hosted Whisper für interne, unkritische Workloads. Saubere Kostenoptimierung — falls die DevOps-Kapazität da ist.

Faustregel Wenn du nicht schon ein Team mit GPU-Erfahrung hast: API. Wenn doch und das Volumen passt: Self-Host. Aber rechne ehrlich — die meisten unterschätzen die laufenden Betriebskosten und überschätzen die Einsparung.

Verwandte Fragen

Frage offen geblieben?

Drei Transkriptionen kostenlos zum Ausprobieren. Oder schreib uns eine Mail — wir antworten innerhalb von 24 Stunden, auch zu Compliance-Fragen.

Whisper selbst hosten oder API nutzen? Entscheidungs-Hilfe | DeepScript