¿Cuánto tiempo se tarda en transcribir una hora de audio?

Question

Accepted Answer

Una IA suele tardar 1-3 minutos en una hora de audio; un transcriptor humano experto necesita 4-6 horas más la revisión.

El tiempo de entrega depende sobre todo de si el trabajo lo hace una persona o una IA – y del tamaño del modelo empleado.

Transcripción con IA: un archivo de audio de 60 minutos se procesa en 1-3 minutos en una infraestructura GPU moderna. Los modelos más grandes (Whisper Large v3 o los modelos premium optimizados para la precisión) tardan un poco más – unos 3-5 minutos por hora de audio. Si el proveedor tiene una cola ocupada, tu espera puede aumentar. Proveedores como DeepScript usan una cola prioritaria para los trabajos premium, que se adelantan así a los estándar.

Transcripción humana: un transcriptor experto procesa unos 15 minutos de audio por hora de tecleo. Una hora de audio requiere por tanto 3-5 horas de trabajo humano con material limpio – y 6-8 horas cuando es difícil (varios hablantes, dialecto, jerga, audio deficiente). Súmale 24-48 horas de espera por cola/reserva, ya que el trabajo permanece en una lista.

Enfoque híbrido: muchos servicios profesionales usan la IA como primera pasada y dejan que una persona lo revise. Eso reduce el tiempo humano a 1-2 horas por hora de audio, con una precisión casi humana. Tiempos típicos: 24 horas en estándar, 4-6 horas con recargo de urgencia.

Qué lo ralentiza: los silencios largos se procesan igualmente (sin ahorro de tiempo); la mala calidad de audio obliga a pasadas de modelo más largas; muchos archivos pequeños suelen ser más lentos que pocos grandes, por la sobrecarga por trabajo. Para la transcripción en directo por WebSocket, la latencia es otra métrica: los buenos sistemas devuelven resultados intermedios en 300-800 ms y texto final en 1-2 segundos.

Regla general: calcula de medio día a un día entero por hora de audio cuando interviene una persona. Para la transcripción puramente con IA: en lo que te preparas un café, ya está lista.

¿Cuánto tiempo se tarda en transcribir una hora de audio?

Preguntas relacionadas

¿Te queda alguna pregunta?