Wpływ warunków nagrania na wyniki analizy akustycznej

Testy praktyczne z udziałem pacjentów

Autor: dr inż. Marcin Just (DiagNova Technologies)

Weryfikacją wyników badań był test wykonany w warunkach zapewniających optymalne wykorzystanie walorów każdego mikrofonu. Pozwolił on ostatecznie określić przydatność danego mikrofonu do przeprowadzania badań narządu głosu. Wykorzystany został najlepszy wzmacniacz mikrofonowy.

Metodologia

Do testów użyto dedykowanego interfejsu audio MobilePRE, pełniącego jednocześnie funkcję przedwzmacniacza mikrofonowego i wysokiej klasy karty dźwiekowej, oraz pięciu mikrofonów:

  • miniaturowego mikrofonu pojemnościowego,
  • klasycznego (taniego) mikrofonu komputerowego (mikrofon pojemnościowy – elektretowy),
  • taniego mikrofonu dynamicznego – TDM 205 (użyteczne pasmo wg. producenta 80–12000 Hz),
  • wokalnego mikrofonu dynamicznego tzw. „entry level” – Shure C607N (użyteczne pasmo wg. producenta 60–12000 Hz),
  • klasycznego wokalnego mikrofonu dynamicznego – Behringer XM8500 (użyteczne pasmo 50–12000 Hz).

Dodatkowo wykonano próbę analizy próbek nagrywanych przy pomocy dyktafonu na klasyczne kasety magnetofonowe. Próba ta miała na celu ocenę wiarygodności tej metody archiwizacji próbek głosu.

Mikrofonem odniesienia był studyjny mikrofon pojemnościowy Behringer B-1. Nagrania odbywały się jednocześnie (rejestracja dwukanałowa) przy użyciu mikrofonu referencyjnego i testowanego.

Poziom nagrania ustawiony był optymalnie, częstotliwość próbkowania 22050 Hz, rozdzielczość 16 bitów, zaś odległość pomiędzy ustami nagrywanej osoby a mikrofonem została dobrana tak, aby uniknąć niekorzystnego wpływu zmiany charakterystyki mikrofonów dynamicznych. Nagrania wykonano w pomieszczeniu wyciszonym, wytłumionym oraz ekranowanym, przy pomocy komputera przenośnego, aby wyeliminować zakłócenia elektromagnetyczne (w tym i przydźwięk sieciowy). Dzięki temu wpływ mikrofonów na nagranie został praktycznie ograniczony do różnic w charakterystykach częstotliwościowych.

Dla mikrofonów przeprowadzono testy praktyczne (nagranie i analiza próbki głosu). W nagraniach uczestniczyło 13 osób (6 mężczyzn i 7 kobiet):

  • 6 osób bez zaobserwowanych anomalii w głosie i bez zdiagnozowanych stanów patologicznych krtani,
  • 2 osoby o wyjątkowo niskim głosie,
  • 2 osoby generujące głos z użyciem protezy,
  • 3 osoby ze zdiagnozowanym stanem patologicznym krtani, powodującym zaburzenia głosu.

Ostatecznie materiał podzielono na trzy grupy:

  • głosy „bez anomalii” – prawidłowe (6),
  • głosy „niskie” – o wyjątkowo niskiej częstotliwości (3),
  • głosy „patologiczne” – u osób z zaburzeniami głosu (4).

Do analizy użyto nagrań przedłużonej fonacji głoski „a”. Nagrania próbki dla pojedynczego testu zostały jednocześnie przy pomocy specjalnie napisanego do tego celu programu komputerowego odpowiednio przesunięte w czasie i „okrojone”, tak aby wyeliminować różnice w odległości mikrofonów od pacjenta i uzyskać maksymalne ich podobieństwo (w znaczeniu korelacji). Na rys. 10 zamieszczono okno programu, a na rys. 11 przykładowe przebiegi sygnału dźwiękowego (próbki głosu), nagranego równocześnie z dwóch mikrofonów po synchronizacji czasowej.

automatyczna synchronizacja czasowa dwóch przebiegów

Rys. 10. Wynik automatycznej synchronizacji czasowej dwóch przebiegów

programu do synchronizowania czasowego przebiegów nagrywanych z wielu źródeł

Rys. 11. Okno programu do synchronizowania czasowego przebiegów nagrywanych z wielu źródeł

Analizy wykonywane były automatycznie, ingerencja operatora, polegająca na wstępnym oszacowaniu częstotliwości podstawowej, dotyczyła jedynie przypadków niskich częstotliwości i była identyczna dla wszystkich próbek. Porównywane były bezpośrednio tylko dwie próbki – testowa i referencyjna, wyznaczając stosunek odpowiednich parametrów wygenerowanych dla tych dwóch próbek.

Wyniki

Rysunek 12 przedstawia względne zmiany parametrów akustycznych dla wszystkich testowanych mikrofonów.

Względne zmiany wartości wyznaczanych parametrów akustycznych
Względne zmiany wartości wyznaczanych parametrów akustycznych
Względne zmiany wartości wyznaczanych parametrów akustycznych

Rys. 12. Względne zmiany wartości wyznaczanych parametrów akustycznych dla różnych typów głosów i różnych mikrofonów

Trzy poziome pasy obrazują zmiany wartości parametrów odpowiednio w grupach głosów patologicznych, niskich i zdrowych. Kolor żółty wskazuje na zawyżenie wyników analizy, niebieski na zaniżenie. Kolor zielony przedstawia brak różnicy pomiędzy mikrofonem testowanym a referencyjnym. Na wykresach nie umieszczono wyników analiz próbek, rejestrowanych za pomocą magnetofonu, ponieważ w ich przypadku zmiany parametrów znacznie przekraczały zmiany rejestrowane przy użyciu najgorszych mikrofonów.

Z wykresów wynika, że po ograniczeniu wpływu mikrofonów jedynie do zmian charakterystyki częstotliwościowej, w głosach normalnych niekorzystny wpływ ma jedynie najtańszy mikrofon dynamiczny. Jego bardzo mała czułość powoduje zwiększenie znaczenia szumu przedwzmacniaczy, co przejawia się podniesieniem wartości niektórych parametrów.

W głosach „patologicznych” minimalnie niekorzystny wpływ na nagrania zaobserwowano dla tanich mikrofonów pojemnościowych (komputerowy i miniaturowy) – ze względu na pewne ograniczenie pasma przenoszenia w zakresie wysokich częstotliwości, zaniżają one wartości niektórych parametrów. Dodatkowo, brak zabezpieczającej gąbki chroniącej przed bezpośrednim dmuchaniem w mikrofon może w pewnym stopniu wpływać na wybrane parametry związane ze stabilnością głosu (dwa „piki” dla „polawew” i R2HDev na wykresie głosów patologicznych dla mikrofonu komputerowego). Dla głosów o bardzo niskiej częstotliwości podstawowej negatywny wpływ na nagranie ma większość badanych mikrofonów, poza najlepszym, profesjonalnym mikrofonem dynamicznym. Poza ostatnim przypadkiem oraz najtańszym, dostępnym na rynku, mikrofonem dynamicznym, pozostałe wady nagrania, związane z charakterystyką częstotliwościową, mogą być wyeliminowane na etapie obliczeń numerycznych, przy wyznaczaniu parametrów analizy akustycznej.

Problemy związane z analizą przebiegów o najniższych częstotliwościach wynikają prawdopodobnie z wystąpienia częstotliwości podstawowej poniżej dolnego progu charakterystyki częstotliwościowej mikrofonów, co uniemożliwia jej poprawne wyznaczenie. Na rys. 13 przedstawiono przykładowe różnice w wyznaczonych wykresach częstotliwości podstawowej dla tej samej próbki głosu, nagranej mikrofonem studyjnym i mikrofonem dynamicznym.

Porównanie wykresów częstotliwości dla głosu protezowego nagranego dwoma typami mikrofonów
Porównanie wykresów częstotliwości dla głosu protezowego nagranego dwoma typami mikrofonów

Rys. 13. Porównanie wykresów częstotliwości dla głosu protezowego nagranego dwoma typami mikrofonów; po lewej: wyższej klasy mikrofon dynamiczny, po prawej: prawidłowy wykres uzyskany dzięki studyjnemu mikrofonowi pojemnościowemu

Próbki z mikrofonu studyjnego często wykazywały niestety obecność dodatkowych składowych bardzo niskiej częstotliwości utrudniających analizę (rys. 14) i pogarszających jej wyniki. Przy użyciu tego typu mikrofonu należy zwrócić uwagę na jego dobrą stabilizację.

Składowe bardzo niskiej częstotliwości

Rys. 14. Składowe bardzo niskiej częstotliwości rejestrowane przez studyjny mikrofon pojemnościowy

Wnioski

  • Analiza sygnału nagranego uprzednio na taśmę magnetofonową powinna być poprzedzona skontrolowaniem sprzętu, gdyż otrzymane wyniki mogą być znacznie zmienione i nie nadawać się do dalszej analizy.
  • Mikrofon miniaturowy i najtańszy mikrofon dynamiczny nie powinny być wykorzystywane do celów diagnostycznych.
  • Mikrofon komputerowy w połączeniu z dobrym wzmacniaczem całkowicie spełnia swoją funkcję, gdy wykorzystany jest do analizy głosów o „normalnych” częstotliwościach podstawowych w dobrych warunkach lokalowych (wyciszone, ekranowane pomieszczenie). Dotyczy to również najtańszego mikrofonu dynamicznego. Obserwowane we wcześniejszych testach ograniczenie górnej częstotliwości granicznej wiąże się prawdopodobnie głównie z ograniczeniem przedwzmacniacza wbudowanej karty muzycznej. Wskazane jest użycie dodatkowej gąbki zabezpieczającej przed „dodatkowym wydechem poprzedzającym fonację” i wymiana kabla połączeniowego na lepiej ekranowany.
  • Do analizy głosów o częstotliwości podstawowej F0 < 100 Hz wykorzystywać należy najlepsze mikrofony dynamiczne (o jak najniższej dolnej granicy pasma przenoszenia) lub (co należałoby zalecić) wysokiej klasy pojemnościowe mikrofony studyjne. Zaskakująco dobrze sprawują się tu mikrofony komputerowe (zjawisko to wyjaśnia podobieństwo zasady ich działania do mikrofonu studyjnego).
  • Prawidłowe wykorzystanie mikrofonów studyjnych wymaga dobrej znajomości techniki akustycznej, doskonałego zamocowania mikrofonu i dużej staranności. Stosowanie go w codziennej praktyce do analizy głosów o F0 > 100 Hz wydaje się być niewskazane i może prowadzić przy złym jego mocowaniu do otrzymania gorszych wyników analizy akustycznej głosu.