Pytania i odpowiedzi

Jasne odpowiedzi na częste pytania o transkrypcję

Prawdziwe pytania, które ludzie zadają o automatyczną transkrypcję – od RODO i tajemnicy zawodowej po wzorce API i język szwajcarsko-niemiecki. Konkretne odpowiedzi, bez marketingowych frazesów.

Podstawy

Czym jest automatyczna transkrypcja?
Automatyczna transkrypcja to oparta na SI zamiana mowy na tekst pisany – w kilka sekund, bez udziału osoby przepisującej.
Jaka jest różnica między transkrypcją, napisami dla niesłyszących a napisami?
Transkrypcja to czysty tekst; napisy dla niesłyszących wyświetlają go zsynchronizowane z wideo; napisy dodatkowo tłumaczą go na inny język.
Ile czasu zajmuje transkrypcja godziny nagrania?
SI zwykle potrzebuje 1-3 minut na godzinę nagrania; wykwalifikowany transkrybent potrzebuje 4-6 godzin plus korekta.

Dokładność i jakość

Jak dokładna jest transkrypcja SI?
Na czystym nagraniu studyjnym SI osiąga dziś 95-98% dokładności (współczynnik błędu słów 2-5%); przy hałasie, dialekcie lub wielu mówcach może spaść do 70-85%.
Jak mogę poprawić dokładność mojej transkrypcji?
Lepsze mikrofony, mniej pogłosu, Custom Vocabulary dla żargonu, model premium i uporządkowane ustawienie mówców zwykle podnoszą dokładność o 5-15 punktów procentowych.

Zgodność i prawo

Czy transkrypcja SI jest zgodna z RODO?
Tak, ale tylko z umową powierzenia przetwarzania (DPA) na podstawie Art. 28 RODO, przechowywaniem danych w UE, wyraźnym zakazem wykorzystania do trenowania i określonymi terminami usuwania – w przeciwnym razie nie.
Czy transkrypcja spotkania jest legalna?
W Niemczech tylko za zgodą wszystkich uczestników – § 201 StGB penalizuje potajemne nagrywanie słowa wypowiedzianego w warunkach niepublicznych.
Gdzie są przechowywane moje pliki audio podczas transkrypcji?
To zależy od dostawcy – i jest to najważniejsze pytanie. Poważni dostawcy z UE przechowują dane w niemieckich lub unijnych centrach danych; amerykańskie API w chmurze – w USA.
Czy moje pliki audio są wykorzystywane do trenowania modeli SI?
U niektórych dostawców z USA tak, o ile aktywnie się nie sprzeciwisz. Poważni dostawcy wykluczają to umownie – zapytaj i sprawdź regulamin.
Czy mogę zlecić transkrypcję rozmów z pacjentami lub nagrań medycznych?
Tak, ale pod rygorystycznymi warunkami: Art. 9 RODO (dane o zdrowiu), § 203 StGB (tajemnica lekarska), DPA z klauzulą poufności – i przechowywanie danych w UE.

Poradniki

Jak prawidłowo transkrybować wywiad?
Czyste nagranie + pierwszy przebieg SI + 30-60 minut redakcji na godzinę wywiadu daje gotowe do publikacji transkrypcje w ułamku czasu.
Jak dodać znaczniki czasu do transkrypcji?
Nowoczesna transkrypcja SI automatycznie dostarcza znaczniki czasu na słowo; dla płynności czytania wystarczą znaczniki co 30-60 sekund lub przy zmianie mówcy.
Który format eksportu wybrać dla mojej transkrypcji?
TXT do czytania, SRT na YouTube i LinkedIn, VTT do webowych wideo HTML5, JSON do kodu i dalszego przetwarzania – dopasuj format do przypadku użycia.
Czym jest Custom Vocabulary i kiedy jej potrzebuję?
Lista słów przekazywana modelowi przed transkrypcją z żargonem i nazwami własnymi – często podnosi rozpoznawanie tych terminów z 30% do 95%.

Programiści

Które API do transkrypcji jest najlepsze dla programistów?
Zależy od przypadku użycia: AssemblyAI do przepływów z USA, Deepgram do niskich opóźnień, OpenAI Whisper do wielojęzyczności, DeepScript do RODO i przechowywania danych w UE.
Czy do API transkrypcji używać webhooków czy pollingu?
Webhooki do głównego dostarczania, polling jako backup – najsolidniejsza konfiguracja produkcyjna. Sam polling marnuje żądania; same webhooki ryzykują utratą zdarzeń.
Czy hostować Whisper samodzielnie, czy użyć API?
Poniżej ~500 godzin audio/miesiąc zarządzane API niemal zawsze wygrywa; powyżej self-hosting może być tańszy, ale tylko z doświadczeniem w GPU i budżetem DevOps.
Jak technicznie działa transkrypcja na żywo?
Audio jest strumieniowane w małych chunkach przez WebSocket; model zwraca wyniki pośrednie w 300-800 ms i finalizuje je po każdej pauzie w mowie.

Języki i dialekty

Czy SI potrafi transkrybować szwajcarski niemiecki?
Częściowo: modele wyspecjalizowane w dialekcie osiągają 75-85% dokładności, modele ogólne często poniżej 50%. Wynik jest zwykle normalizowany do standardowego niemieckiego, a nie zapisywany w dialekcie.
Ile języków obsługuje transkrypcja SI?
Najlepsze modele (Whisper, AssemblyAI, DeepScript) obejmują 99 języków – ale jakość waha się od doskonałej dla pierwszej dziesiątki po ledwo użyteczną dla rzadkich języków.

Jasne odpowiedzi na częste pytania o transkrypcję

Podstawy

Czym jest automatyczna transkrypcja?

Jaka jest różnica między transkrypcją, napisami dla niesłyszących a napisami?

Ile czasu zajmuje transkrypcja godziny nagrania?

Dokładność i jakość

Jak dokładna jest transkrypcja SI?

Jak mogę poprawić dokładność mojej transkrypcji?

Zgodność i prawo

Czy transkrypcja SI jest zgodna z RODO?

Czy transkrypcja spotkania jest legalna?

Gdzie są przechowywane moje pliki audio podczas transkrypcji?

Czy moje pliki audio są wykorzystywane do trenowania modeli SI?

Czy mogę zlecić transkrypcję rozmów z pacjentami lub nagrań medycznych?

Poradniki

Jak prawidłowo transkrybować wywiad?

Jak dodać znaczniki czasu do transkrypcji?

Który format eksportu wybrać dla mojej transkrypcji?

Czym jest Custom Vocabulary i kiedy jej potrzebuję?

Programiści

Które API do transkrypcji jest najlepsze dla programistów?

Czy do API transkrypcji używać webhooków czy pollingu?

Czy hostować Whisper samodzielnie, czy użyć API?

Jak technicznie działa transkrypcja na żywo?

Języki i dialekty

Czy SI potrafi transkrybować szwajcarski niemiecki?

Ile języków obsługuje transkrypcja SI?