Wpływ warunków nagrania na wyniki analizy akustycznej

Testy praktyczne wpływu warunków nagrywania

Autor: dr inż. Marcin Just (DiagNova Technologies)

Po syntetycznym określeniu wpływu zakłóceń na wyniki analiz i wyznaczeniu charakterystyk wybranych konfiguracji sprzętowych przeprowadzony został test w warunkach rzeczywistych. Jego głównym celem było zbadanie wpływu błędów popełnionych w realnym procesie nagrania (głównie zła odległość mikrofonu od ust) na końcowe rezultaty analiz i praktyczne określenie zależności pomiędzy charakterystykami sprzętu a wynikami obliczeń.

Metodologia

W celu uzyskania maksymalnej powtarzalności, jako źródło dźwięku zastosowano monitor studyjny Yamaha HS50M. Zmieniały się jedynie zestawy nagrywające i odległość pomiędzy głośnikami a mikrofonem w zakresie 6–50 cm. Dla każdego zestawu odtwarzane były czterokrotnie dwie wzorcowe próbki głosu zastosowane wcześniej w testach syntetycznych. Pomieszczenie nagraniowe było wyciszoną komorą bezechową. Nie zastosowano ekranowania elektromagnetycznego i nie wyeliminowano wpływu sieci oświetleniowej. Miało to symulować najlepsze warunki nagraniowe osiągalne w zwykłym pomieszczeniu bez zastosowania drogiego ekranowania elektromagnetycznego, bez eliminacji sieci oświetleniowej i innego pracującego w pomieszczeniu sprzętu. We wszystkich przypadkach użyty został ten sam sprzęt co w poprzednich badaniach, dołożone zostały jedynie dodatkowe kombinacje elementów. We wszystkich przypadkach częstotliwość próbkowania wynosiła 22050 Hz, a rozdzielczość 16 bitów.

Wyniki

Na rys. 7 przedstawiono względne zmiany parametrów analizy akustycznej w zależności od zastosowania różnych zestawów sprzętowych. Każde pionowe pasmo wykresu obrazuje wyniki dla poszczególnych kombinacji mikrofonu, wzmacniacza i karty dźwiękowej. Dla każdego zestawu nagrania wykonywane były czterokrotnie dla próbki głosu męskiego i czterokrotnie dla próbki głosu kobiecego, dlatego każde pasmo jest czterokolumnowe. W każdym paśmie kolumna z lewej strony przedstawia wyniki dla nagrania przeprowadzonego przy najmniejszej odległości między mikrofonem a głośnikami (około 6 cm), z optymalnym wysterowaniem. Z prawej strony pasma nagrania przeprowadzonego z odległości około 50 cm bez uzyskania odpowiedniego wysterowania i narażając się na większy wpływ zakłóceń. Kolumny środkowe stanowią etapy pośrednie.

W idealnym przypadku pasmo powinno być w kolorze zielonym, co oznacza brak różnicy w stosunku do parametrów dla przebiegu wzorcowego. Kolory niebieskie przedstawiają obniżenie wartości parametrów, a kolory czerwone – podwyższenie.

Rys. 7. Porównanie wpływu błędów podczas procesu nagrywania na wyniki analiz dla sześciu zestawów sprzętowych: kolor czerwony – zawyżenie wyników analiz, niebieski – zaniżenie

Opisy pod rysunkiem dotyczą wszystkich pozostałych wykresów i oznaczają:

  • intbw – wbudowana karta dźwiękowa bez dodatkowego przedwzmacniacza,
  • intwz – wbudowana karta dźwiękowa z dodatkowym przedwzmacniaczem mikrofonowym (Behringer Mic200),
  • sblive – zewnętrzna karta dźwiękowa (USB) Creative External Live!,
  • mpre – zewnętrzny interfejs audio MobilePRE firmy M-Audio,
  • komp – najprostszy elektretowy mikrofon komputerowy,
  • m8500 – średniej klasy wokalny mikrofon dynamiczny,
  • b1 – studyjny mikrofon pojemnościowy Behringer B1.

W przypadku kobiet rodzaj użytego sprzętu ma stosunkowo niewielki wpływ na wyniki analiz, jedynie w przypadku wbudowanej karty dźwiękowej (pasma A i B) należy odnotować nieznaczne podniesienie wartości parametrów z grupy Jitter i U2H dla najmniej prawidłowo przeprowadzonych nagrań (największa odległość). Dla mężczyzn użyty sprzęt ma stosunkowo duże znaczenie. Jedynie nagrania przeprowadzone przy użyciu najlepszego sprzętu (kolumny I oraz L) analizowane były poprawnie, bez względu na jakość samego procesu nagrywania. Zmianie ulegały przede wszystkim parametry z grupy Jitter i U2H, co można tłumaczyć wpływem zakłóceń z sieci oświetleniowej (50 Hz) w połączeniu z niższą częstotliwością podstawową u mężczyzn.

Przykładowe wyniki dla najlepszego użytego zestawu nagrywającego dla nagrania wzorcowego oraz z najmniejszej i największej odległości przedstawiono w formie graficznej w tabeli 1.

Tabela 1. Wykresy przedstawiające zmiany w wyznaczanych wartościach parametrów w zależności od jakości procesu nagraniowego dla najlepszego zestawu nagrywającego – widoczne małe zmiany wartości parametrów przy zachowanym ich wzajemnym stosunku

Odtwarzanie nagranie wzorcowe Nagrania testowe
najlepiej przeprowadzone najgorzej przeprowadzone

Wyniki dla najgorszego użytego zestawu nagrywającego dla nagrania wzorcowego oraz nagrań z najmniejszej i największej odległości przedstawiono w formie graficznej w tabeli 2.

Tabela 2. Wykresy przedstawiające zmiany w wyznaczanych wartościach parametrów w zależności od jakości procesu nagraniowego dla najgorszego zestawu nagrywającego – widoczne zarówno znaczne zmiany wartości parametrów, jak i zmiany ich wzajemnego stosunku

Odtwarzanie nagranie wzorcowe Nagrania testowe
najlepiej przeprowadzone najgorzej przeprowadzone

Szczegółowo zbadano wpływ użytego w czasie nagrań sprzętu jedynie na wartości kilku wybranych parametrów – najczęściej wykorzystywanych w praktyce klinicznej – z grupy Jittera, Shimmera oraz parametr NHR. Rysunek 8 przedstawia przekrój poziomy przez rys. 7 dla parametru Jitter.

Dla nagrania z największej odległości odnotowano znaczące podniesienie się wartości parametru Jitter – zarówno dla kobiet, jak i dla mężczyzn. Zjawisko to jest zależne od jakości sprzętu nagrywającego. Tylko dla najlepszych zestawów jest praktycznie pomijalne. Dla potencjalnie najlepszego przypadku – nagrania z najmniejszej odległości – mierzone wartości parametru Jitter są nieznacznie zaniżone dla wszystkich zestawów poza jednym, wykorzystującym mikrofon studyjny. Optymalne okazują się nagrania z drugich serii (odległość rzędu 10 cm). Pozostałe parametry z grupy Jittera i Shimmera zachowują się w sposób zbliżony do samego Jittera. Nieco inaczej zachowuje się parametr NHR (przedstawiony na rys. 9). W jego przypadku wartości parametrów przy nagraniach ze zbyt małej odległości są wyraźnie zaniżone. W przypadku najprostszego zestawu (mikrofon komputerowy podłączony do wbudowanej karty) wartości parametru zaniżone są bardzo poważnie i praktycznie niezależnie od odległości między mikrofonem a głośnikami. Wszystkie te zjawiska dobrze wiążą się z parametrami sprzętu.

Zaniżanie parametrów analizy akustycznej (szczególnie NHR) w przypadku zbyt małej odległości, szczególnie widoczne dla mikrofonów dynamicznych, tłumaczą deklarowane przez producentów zmiany charakterystyki przenoszenia tych mikrofonów dla źródeł dźwięku w bliskiej odległości. Przy zastosowaniu tych mikrofonów, w trakcie nagrania głosu, należy zachować większą odległość pomiędzy ustami a mikrofonem. Mikrofony komputerowe mają często ograniczone pasmo przenoszenia w zakresie wysokich częstotliwości, co powoduje stałe zaniżanie wartości parametru NHR, niezależnie od warunków nagrania. Tylko studyjny mikrofon pojemnościowy zapewnia maksymalną stałość uzyskiwanych wyników bez względu na błędy powstałe w czasie procesu nagrywania.

Rys. 8. Przekrój poziomy przez rysunek 7 dla parametru Jitter

Rys. 9. Przekrój poziomy przez rysunek 7 dla parametru NHR