DiagNova | Zasoby

Analiza parametryczna

Autor: dr inż. Marcin Just (DiagNova Technologies)

Analiza parametryczna jest najbardziej obiektywną formą analizy sygnału mowy. Jej główną wadą jest wrażliwość większości parametrów na błędy w wyznaczeniu częstotliwości podstawowej. Na szczęście błędy powodują zwykle duże podniesienie wartości parametrów w przypadku ich małej wartości i stosunkowo nieznaczne obniżenie w przypadku dużej wartości. Nie prowadzi to do najgorszego typu pomyłek w kwalifikacji pacjentów – zaklasyfikowaniu chorego jako zdrowego.

Parametry krótkookresowe wyznaczane w module analizy diagnostycznej programu DiagnoScope Specjalista

Tabela 1. Parametry krótkookresowe wyznaczane w module analizy akustycznej

Nazwa parametru	Opis użytkowy
KeyF0	Częstotliwość, wokół której poszukiwana jest częstotliwość podstawowa.
F0	Częstotliwość podstawowa uśredniona po długości całej próbki.
F1, F2, F3, F4	Częstotliwości formantów.
E	Energia jednego okresu podstawowego, uśredniona po długości całej próbki. Parametr ma wartość praktyczną tylko po zastosowaniu kalibracji toru nagrywającego.
A0	Amplituda składowej odpowiadającej częstotliwości podstawowej, uśredniona po długości całej próbki. Parametr ma wartość praktyczną tylko po zastosowaniu kalibracji toru nagrywającego.
Voiced	Miara prawdopodobieństwa fonacji.
SimpleQ	Uproszczona miara jakości głosu (miara zaburzeń struktury harmonicznej).
Q	Parametr określający graniczną częstotliwość, powyżej której składowe nieharmoniczne (głównie szumy) zaczynają być porównywalne ze składowymi harmonicznymi.
Jitt (Jitter)	Obliczany w sposób klasyczny, jako względna różnica długości sąsiednich okresów podstawowych uśredniania po długości całej próbki.
RAP	Pokrewna miary nieregularności długości okresów podstawowych (pochodna parametru Jitter).
PPQ	Pokrewna miary nieregularności długości okresów podstawowych (pochodna parametru Jitter).
Shimm (Shimmer)	Obliczany w sposób klasyczny, jako względna różnica amplitudy sąsiednich okresów podstawowych uśredniana po długości całej próbki.
APQ	Pokrewna miary nieregularności amplitudy okresów podstawowych (pochodna parametru Shimmer).
HPQ (harmonic perturbation quotient)	Parametr określający stałość kształtu okresów podstawowych. Z założenia niewrażliwy na różnice długości okresów podstawowych. Parametr określający rozrzut współczynników fourierowskich widma uzyskiwanego dla pojedynczych okresów podstawowych T0 w zakresie do 8000 Hz.
HPQh	Jak HPQ, ale jedynie dla składowych powyżej 2400 Hz.
RHPQ (residual harmonic perturbation quotient)	Jak HPQ, ale analiza wykonywana dla odtworzonego z mikrofonowego sygnału pobudzenia.
RHPQh	Jak RHPQ, ale jedynie dla składowych powyżej 2400 Hz (do 8000 Hz).
R2H (residual to harmonic)	Parametr określający dynamikę zamknięcia fałdów głosowych – wrażliwy na małe zmiany organiczne. Parametr określający stosunek współczynników fourierowskich poszczególnych okresów T0 z przebiegu sygnału z mikrofonu do tych samych współczynników dla odtworzonego sygnału pierwotnego.
U2H (unharmonic to harmonic)	Parametr określający stosunek amplitud części nieharmonicznej widma wygenerowanego dla 4 okresów podstawowych do części harmonicznej – określa zarówno poziom zakłóceń, jak i zniekształceń. Parametr najbardziej ogólny, liczony dla wszystkich składowych widma poniżej 1800 Hz. Z daną składową harmoniczną porównywane są zawsze składowe nieharmoniczne leżące w jej bezpośrednim otoczeniu, co pozwala w dużym stopniu uniezależnić się od wpływu różnych charakterystyk używanych mikrofonów.
U2Hl	Jak U2H, ale liczony dla otoczenia 4 najniższych składowych harmonicznych (czyli do częstotliwości 4F0, gdzie F0 jest uśrednione dla grup 4 kolejnych okresów podstawowych). W większym stopniu wrażliwy na zniekształcenia przebiegu (nierównomierności, asymetrie w pracy fałdów głosowych).
U2Hh	Jak U2H, ale dla górnej części widma (od 1800 Hz do 8000 Hz) – określa raczej poziom zakłóceń.
S2H (subharmonic to harmonic)	Jak U2Hl, ale jako składowe nieharmoniczne uwzględniane są tylko częstotliwości połówkowe, (0,5F0, 1,5F0, 2,5F0, …). Zwiększa to dodatkowo wrażliwość parametru na często spotykane zaburzenia symetrii pracy fałdów głosowych.
NHR	Parametr określający stosunek sumy amplitud części nieharmonicznej widma wygenerowanego dla 4 okresów podstawowych do części harmonicznej – określa głównie poziom szumów. Suma części harmonicznej obejmuje wszystkie częstotliwości harmoniczne do 1800 Hz, suma części nieharmonicznej – od 1800 Hz do 8000 Hz. Ze względu na sposób obliczania, parametr jest wrażliwy na zmianę charakterystyki mikrofonu i może podlegać dodatkowej kompensacji wagowej. Użyta procedura kompensacji nie działa na zmiany wywołane zbyt bliskim umiejscowieniem mikrofonu w stosunku do ust osoby badanej. Bezpieczna minimalna odległość to około 10 cm.
Yg	Automatycznie wyznaczany współczynnik Yanagihary. Wartość ciągła z zakresu 0–4.

Dla każdego parametru dostępna jest jego wartość średnia dla całego badanego przedziału oraz jego odchylenie standardowe, określające jego zmienność w czasie fonacji. Odchylenie standardowe jest szeroko wykorzystywane praktycznie jedynie w przypadku trzech parametrów F0, A0 oraz E. W przypadku dwóch ostatnich parametrów jego wyznaczanie jest celowe nawet bez kalibracji toru nagrywającego.

Grupy parametrów krótkookresowych w module analizy diagnostycznej programu DiagnoScope Specjalista

Parametry można połączyć w grupy ze względu na podobieństwo liczenia lub podobną funkcję. Upraszcza to znacznie nawigowanie w ich gąszczu.

Wyodrębnić można następujące grupy parametrów:

Parametry mierzące charakter głosu (cechy nie będące bezpośrednim wyznacznikiem patologii): F0, F1, F2, F3, F4 (częstotliwość podstawowa oraz częstotliwości formantów).
Parametry bezpośrednio mierzące zaburzenia długości okresów podstawowych (grupa jittera): jitter i pochodne (RAP, PPQ).
Parametry bezpośrednio mierzące wahania amplitudy dla kolejnych okresów : shimmer i pochodne (APQ).
Parametry badające zmiany kształtu okresów podstawowych: HPQ i pochodne (HPQh, RHPQ, RHPQh).
Parametry mierzące efektywność w generowaniu rozbudowanej struktury formantowej (zależne od wieli czynników, w tym od dynamiki zamykania fałdów głosowych): R2H.
Parametry określające strukturę harmoniczną: U2H i pochodne (U2Hl, U2Hh), S2H, YG, Q.
Parametry szumowe: NHR, U2Hh, w mniejszym stopniu YG oraz Q.
Parametry określające stabilność fonacji: odchylenie standardowe F0, odchylenie standardowe amplitudy i/lub energii, współczynnik braku fonacji (NoPhonCoef), współczynnik przerw fonacji (BreaksCoef), głębokość modulacji częstotliwości podstawowej (F0ModDepth), głębokość modulacji energii (EModDepth). Można tu wyodrębnić podgrupę określającą drżenie głosu (F0ModDepth i EModDepth).
Parametry wydolnościowe: Czas fonacji (PhonTime), Rzeczywisty czas fonacji (TruePhonTime), Współczynnik wydolności (PerfCoef), Średnia wydolność (AveragePerf).

Uproszczone powiązanie parametrów z zaburzeniami głosu:

Wysoki poziom szumów (skorelowane parametry – NHR, U2Hh, HPQh, YG, Q, grupa jitter, słabiej, ale jednak shimmer);
Nierównomiernej długości okresy podstawowe (skorelowane parametry – grupa jitter, U2Hl ,U2H, S2H, słabiej HPQ, grupa shimmer i Yg);
Zróżnicowanie okresów podstawowych pod względem kształtu (intensywności formantów) (skorelowane parametry – grupa shimmer, HPQ, U2H, słabiej jitter);
Uboga struktura formantowa (R2H, NHR).

Od powiązania parametrów z zaburzeniami do diagnostyki jeszcze daleka droga. Najważniejsze jest tu uwzględnianie wszystkich parametrów jednocześnie – nie można opierać diagnozy na podwyższonej wartości jednego parametru!

Wspomnieć należy również o istotnej ogólnej zasadzie diagnostycznej – regule trzech parametrów. Za niepokojący uznać należy fakt przekroczenia wartości uznanych za normatywne przez parametry z trzech grup.

Parametry długookresowe wyznaczane w module analizy wydolnościowej programu DiagnoScope Specjalista

Dla modułu analizy wydolności głosu charakterystyczne są parametry takie jak czas fonacji, rzeczywisty czas fonacji, czy współczynnik wydolności (tabela 2).

Tabela 2. Parametry długookresowe wyznaczane w module analizy wydolnościowej

Nazwa parametru	Opis użytkowy
Czas fonacji (PhonTime)	Łączna długość wszystkich przedziałów czasu zaznaczonych na etapie „Przedział analizy” (dolny wykres) jako zawierające fonację; w obecnej wersji jest to zawsze jeden przedział.
Rzeczywisty czas fonacji (TruePhonTime)	Łączna długość wszystkich okresów podstawowych zawartych wewnątrz przedziałów oznaczonych jako zawierające fonację, dla których wartość parametru Voiced jest nie mniejsza od wartości minimalnej ustawionej na etapie „Przedział analizy” (pozioma linia na dolnym wykresie).
Współczynnik braku fonacji (NoPhonCoef)	Stosunek łącznej długości okresów podstawowych oznaczonych jako fonacja, a mających wartość parametru Voiced poniżej minimalnej, do czasu fonacji.
Współczynnik przerw fonacji (BreaksCoef)	Stosunek liczby przerw fonacji, tj. ciągłych przedziałów z wartością parametru Voiced poniżej minimalnej wewnątrz przedziałów oznaczonych jako fonacja, do połowy łącznej liczby okresów podstawowych (tj. największej możliwej liczby przerw).
Współczynnik wydolności (PerfCoef)	Parametr liczbowy zależny od jakości głosu wyrażonej przez wartości trzech parametrów krótkookresowych (Jitter, U2H, NHR) podczas rzeczywistej fonacji oraz od czasu fonacji (wartość tym wyższa, im „lepszy” głos i im dłuższa fonacja). Dla każdego okresu podstawowego, dla którego wartość parametru Voiced jest nie mniejsza od wartości minimalnej, wyznaczana jest wartość chwilowa parametrów krótkookresowych w odniesieniu do normy.
Średnia wydolność (AveragePerf)	Współczynnik wydolności podzielony przez rzeczywisty czas fonacji, stanowi miarę przeciętnej jakości głosu wyrażonej przez wartości trzech parametrów krótkookresowych (Jitter, U2H, NHR) w całym zakresie rzeczywistej fonacji.
Odchylenie standardowe częstotliwości podstawowej (F0StDev)	Odchylenie standardowe parametru F0 wyznaczone po wszystkich okresach podstawowych, dla których wartość parametru Voiced jest nie mniejsza od wartości minimalnej.
Odchylenie standardowe energii (EStDev)	Odchylenie standardowe parametru E wyznaczone po wszystkich okresach podstawowych, dla których wartość parametru Voiced jest nie mniejsza od wartości minimalnej.
Głębokość modulacji częstotliwości podstawowej (F0ModDepth)	Częstotliwość największej składowej widma parametru F0 z przedziału od 1 Hz do 20 Hz, wyznaczona łącznie dla przedziałów zawierających fonację.
Głębokość modulacji energii (EModDepth)	Wartość największej składowej widma parametru E z przedziału od 1 Hz do 20 Hz, podzielona przez średnią wartość parametru E (składową stałą), wyznaczona łącznie dla przedziałów zawierających fonację.

Parametry specyficzne wyznaczane w module analizy segmentowej mowy programu DiagnoScope Specjalista

W module analizy głosu śpiewaczego wyświetlane są wszystkie znane parametry akustyczne oraz dodatkowe parametry specyficzne wyznaczane tylko w analizie niepłynności mowy (tabela 3).

Tabela 3. Parametry specyficzne wyznaczane w module analizy segmentowej mowy

Nazwa parametru	Opis użytkowy
Średnia długość segmentu	Średnia długość wszystkich analizowanych segmentów w próbce; opisana w ms.
Minimalna długość segmentu	Najmniejsza długość segmentu ze wszystkich analizowanych segmentów w próbce; opisana w ms.
Maksymalna długość segmentu	Największa długość segmentu ze wszystkich analizowanych segmentów w próbce; opisana w ms.
Odch std. długości segmentu	Odchylenie standardowe długości segmentu wyznaczane po wszystkich analizowanych segmentach; opisana w ms.
Średnia długość odstępu między segmentami	Średnia długość odstępu między segmentami, czyli długość mierzona pomiędzy początkiem jednego segmentu a początkiem następnego; opisana w ms.
Minimalna długość odstępu między segmentami	Najmniejsza długość odstępu między segmentami, czyli najmniejsza długość mierzona pomiędzy początkiem jednego segmentu a początkiem następnego; opisana w ms.
Maksymalna długość odstępu między segmentami	Największa długość odstępu między segmentami, czyli największa długość mierzona pomiędzy początkiem jednego segmentu a początkiem następnego; opisana w ms.
Odch std. długości odstępu między segmentami	Odchylenie standardowe długości odstępu między segmentami, czyli długości mierzonej pomiędzy początkiem jednego segmentu a początkiem następnego wyznaczane po wszystkich analizowanych odległościach pomiędzy segmentami; opisana w ms.
Jitter długości odstępu między segmentami	Krótkookresowe odchylenie; względna różnica długości sąsiednich odstępów między segmentami, czyli sąsiednich długości między początkiem jednego segmentu a początkiem następnego uśredniona po długości sąsiednich odstępów między segmentami; opisany w %.

Parametry śpiewacze wyznaczane w module analizy głosu śpiewaczego programu DiagnoScope Specjalista

W module analizy głosu śpiewaczego wyświetlane są wszystkie znane parametry akustyczne oraz parametry charakterystyczne tylko dla analizy śpiewaków w funkcji częstotliwości podstawowej F0 (tabela 4).

Tabela 4. Parametry śpiewacze wyznaczane w module analizy głosu śpiewaczego

Nazwa parametru	Opis użytkowy
MonotonicKeyF0	Przekształcony profil F0, aby był monotoniczny (rosnący lub malejący).
F0Diff	Różnica pomiędzy chwilową wartością F0 a profilem F0.
F0DiffAbs	Wartość bezwzględna F0Diff.
F0DiffVibr	Różnica pomiędzy chwilową wartością F0 a profilem F0 z dodatkowym algorytmem, który usuwa z przebiegu F0 wibrato (domyślnie kształt sinusoidalny).
F0DiffVibrAbs	Wartość bezwzględna F0DiffVibr.
fc	Opisuje jasność barwy dźwięku; „środek masy” widma (spectral centroid); średnia ważona, w której wartości amplitudy dla kolejnych próbek widma są wagami dla uśrednionych wartości częstotliwości.
fc/f0	Opisuje jasność barwy dźwięku; stosunek fc do tonu podstawowego; wielkość niemianowana.

Long-Term Average Spectrum (LTAS) jest to rodzaj widma, które pozwala uzyskać informację, jaka część całkowitej energii sygnału jest przenoszona w konkretnym paśmie częstotliwości. To widmo długoterminowe jest funkcją średniej mocy sygnału w funkcji częstotliwości.

Tabela 5. Parametry LTAS wyznaczane w module analizy głosu śpiewaczego

Nazwa parametru	Opis użytkowy
SPR (Singing Power Ratio)	Stosunek energii najwyższego piku w paśmie 2-4 kHz do najwyższego piku w paśmie 0-2 kHz (im wyższe SPR tym głos lepiej wyszkolony).
ER (Energy Ratio)	Stosunek energii widma w paśmie 2-4 kHz do energii widma w paśmie 0-2 kHz.
α-1	Stosunek energii widma w paśmie 1-6 kHz do energii widma w paśmie 0-1 kHz.
α-2	Stosunek energii widma w paśmie 2-6 kHz do energii widma w paśmie 0-2 kHz.

Wybór kolejnego tematu (Spis treści)

Analiza akustyczna głosu w praktyce laryngologicznej

Część II: Zastosowanie analizy akustycznej w praktyce