¿Cómo añado marcas de tiempo a un transcript?

Question

Accepted Answer

La transcripción moderna con IA aporta automáticamente marcas de tiempo por palabra; para la legibilidad bastan marcadores cada 30-60 segundos o en los cambios de hablante.

Las marcas de tiempo son pequeños anclajes que vinculan cada sección de texto con un instante exacto del audio. Hacen que los transcripts sean navegables – puedes saltar a cualquier momento, verificar una cita contra el audio original o sincronizar subtítulos con precisión.

**¿Qué granularidad necesitas?**

1. **Marcas de tiempo por palabra** (cada palabra individualmente). Formato como `[00:01:23.450] Hola`. Necesario para la creación de subtítulos, la edición de voz, el resaltado tipo karaoke. Los modelos de IA modernos las aportan automáticamente – DeepScript incluye una por palabra en la exportación JSON.

2. **Marcas de tiempo por frase o segmento**. Formato como `[00:01:23] Hola, bienvenido al programa.` Útil para generar subtítulos para sordos (SRT/VTT) y para reproductores interactivos donde se puede hacer clic en las frases.

3. **Marcas de tiempo por bloques** (cada 30-60 segundos). Formato como `[00:01:00] (cambio de tema) Ahora hablamos de …`. Común en investigación cualitativa y periodismo – legible para personas sin recargar el transcript.

4. **Marcas de tiempo al cambiar de hablante**. Formato como `[00:01:23] Entrevistador: …` y `[00:01:35] Maria: …`. Útil para entrevistas con una alternancia clara.

**Convenciones de formato**
- HH:MM:SS (horas:minutos:segundos) es el estándar. Para clips cortos basta MM:SS.
- Separadores: dos puntos entre las unidades, punto o coma antes de los milisegundos (SRT usa coma, VTT usa punto – muchas herramientas se equivocan).
- Formato entre corchetes `[00:01:23]` para texto plano; `00:00:01,500 --> 00:00:05,000` para SRT.

**Generarlas automáticamente**

Añadir marcas de tiempo a mano es un trabajo tedioso – sáltatelo. Cualquier herramienta de transcripción moderna las aporta. Con DeepScript:
- Exportación TXT: marcas de tiempo por bloques cada 30 segundos
- Exportación SRT/VTT: marcas de tiempo por frase con inicio/fin
- Exportación JSON: marcas de tiempo por palabra con `start`, `end`, `confidence` por palabra

**Posprocesamiento**
Las marcas de tiempo de la IA tienen una precisión de ±200 ms. El subtitulado de difusión suele exigir ±50 ms – herramientas como Aegisub o Subtitle Edit permiten el ajuste fino. Para investigación y periodismo, la precisión de la IA es más que suficiente.

**Consejo**
Para entrevistas, lo mejor son marcas de tiempo por bloques en el transcript visible más un JSON con marcas de tiempo por palabra por si necesitas una navegación más fina más adelante.

¿Cómo añado marcas de tiempo a un transcript?

Preguntas relacionadas

¿Te queda alguna pregunta?