Analiza akustyczna głosu w praktyce laryngologicznej

Część I: Teoretyczne podstawy analizy akustycznej głosu

Wybrane metody analizy sygnałów periodycznych

Autor: dr inż. Marcin Just (DiagNova Technologies)

Sygnały periodyczne mogą być analizowane na wiele sposobów, ale ze względu na swój charakter szczególnie przydatne okazują się dwie metody – analiza fourierowska i predykcja liniowa. W przypadku sygnału mowy często stosuje się parametryzację, która zasadniczo jest rozwinięciem obu metod.

Analiza fourierowska

Opiera się ona na prostym pomyśle – zamiast badać skomplikowany sygnał, należy przedstawić go jako sumę sygnałów prostszych, których zachowanie łatwiej przewidzieć i badać. Analizę taką stosuje się w wielu dziedzinach nauki – wszędzie tam, gdzie badany układ zachowuje się tak samo dla prostych sygnałów składowych, jak i dla ich sumy (układ musi być liniowy, tzn. przy zwiększeniu sygnału na wejściu, na wyjściu musi nastąpić proporcjonalne zwiększenie). W akustyce w wielu przypadkach założenie to jest słuszne. Istotną sprawą jest wybranie tzw. bazy, tj. zbioru prostych (łatwych do analizy) sygnałów, które sumując się mogą dać każdy sygnał spotykany w układzie. W przypadku sygnałów periodycznych takim bardzo ciekawym zbiorem jest zestaw sinusoid (funkcji trygonometrycznych postaci y = sin(ax + b), gdzie parametr a określa częstość powtarzania się stałych fragmentów – rys. 6), o coraz częstszych oscylacjach.

Rys. 6. Sinusoida: a) y = sin(x + 0); b) y = sin(3x + π/4)

Są one dobrym wyborem, gdyż same mają charakter periodyczny. Żadnej z nich nie można przedstawić w postaci sumy innych sinusoid, co zapewnia jednoznaczność reprezentacji sygnału (istnieje tylko jedna kombinacja sinusoid dająca w sumie badany sygnał).

Zasada analizy fourierowskiej jest prosta – z analizowanego przebiegu wybiera się najmniejszy powtarzający się element i przedstawia się go w postaci sumy sinusoid, jak to pokazano na rys. 7.

Rys. 7. Zasada stosowania analizy fourierowskiej

Wielkość wkładu poszczególnych sinusoid (o określone częstotliwości oscylacji) wizualizuje się zwykle jako wysokość słupka na wykresie słupkowym (rys. 8). Wykres taki nazywany jest widmem sygnału.

Rys. 8. Widmo fourierowskie

Charakterystyczne „szczyty” na wykresie widma dla sygnału mowy odpowiadają wzmocnieniu częstotliwości w komorach rezonansowych, tzw. formantom. Jest to właściwie jedyna użyteczna informacja dająca się odczytać z takiego wykresu. Jego użyteczność jest więc niewielka (zwłaszcza, że do odczytywania formantów są lepsze metody). Istotne jest zwłaszcza to, że pojedyncze widmo nie niesie z definicji żadnych informacji na temat różnic pomiędzy kolejnymi okresami podstawowymi w sygnale mowy (a na tej informacji w analizie mowy zależy badającemu szczególnie). Wystarczy wprowadzić jednak niewielką modyfikację – analizuje się nie jeden okres podstawowy, a raczej konglomerat kilku takich okresów – żeby znacznie poprawić użyteczność analizy fourierowskiej. Widmo staje się wtedy zasadniczo inne. W przypadku idealnym, gdy analizowane okresy są identyczne i brak jest szumów, widmo ma wtedy postać pojedynczych odizolowanych pików (rys. 10a). Piki oddzielone są obszarami „pustymi” o długości tym większej, im większy zestaw okresów jest analizowany.

Ze względu na problemy z dokładnym wybraniem grup kilku okresów stosuje się prostszą metodę – długość analizowanego fragmentu jest stała, równa np. 0,025 s i nie stanowi pełnej wielokrotności długości okresów (obejmuje np. około 6,3 okresu, co powoduje pewne pomijalne błędy). Jest to typowy przykład konwencjonalnej analizy fourierowskiej wykorzystywanej np. w spektrogramach. Uzyskane dla sygnału tej długości widmo jest dość charakterystyczne – zawiera maksima (piki) dla wielokrotności częstotliwości podstawowej (rys. 9) – tzw. częstotliwości harmonicznych.

Rys. 9. Klasyczne widmo fourierowskie

Istotny jest fakt, że bez względu na to, czy kolejne okresy różnią się, czy są identyczne, czy występują szumy, czy nie, słupki pomiędzy maksimami nie mają zerowej wysokości, jeśli analizowany odcinek nie pokrywa się dokładnie z długością określonej liczby okresów. Oczywiście wysokość „pików” dobrze oddaje wkład kolejnych wielokrotności częstotliwości podstawowej (czyli to, co wyłącznie powinien zawierać sygnał mowy), a wysokość słupków pomiędzy pikami ma powiązanie z obecnością szumów, jednak nakłada się na to zjawisko związane z nieskorelowaniem długości przedziału i wielokrotności okresu podstawowego. Nieco zaburza i utrudnia to proces analizy. Znacznie „czystszy” obraz widma uzyskuje się, gdy analizowany odcinek obejmuje dokładnie ściśle określoną ilość okresów.

a)
b)

Rys. 10. Widma dla analizowanego odcinka skorelowanego z długością okresu: a) przypadek idealny; b) przypadek przeciętny

Amplitudę wszelkich szumów i zniekształceń można teraz bardzo dokładnie określić w stosunku do amplitudy składowych harmonicznych, mierząc stosunek pików harmonicznych do nieharmonicznych (rys. 10b). O ile w dolnej części widma przeważają piki powiązane ze zniekształceniami (różnicami w długości i kształcie okresów), to górna część widma (powyżej 4000 Hz) niesie informacje o szumach.

Ponieważ widma wyznaczane są dla stosunkowo krótkich odcinków czasu, więc dla całej nagranej próbki zrobić można to kilka razy. Ustawiając kolejno wyliczone wykresy widmowe obok siebie i zamieniając wysokość słupków na stopień zaciemnienia, otrzymuje się wyjątkowo użyteczny wykres nazywany spektrogramem. Sposób jego generacji przedstawia rys. 11.

Rys. 11. Tworzenie spektrogramu z szeregu widm

Spektrogramy wąsko- i szerokopasmowe

Im większą długość próbki sygnału przyjmiemy przy tworzeniu widma, tym lepszą uzyskamy jego rozdzielczość w częstotliwości (lepsze rozseparowanie pików harmonicznych). Spektrogram uzyskany z takich widm będzie również miał doskonałą rozdzielczość w domenie częstotliwości, jednak duży odstęp czasu pomiędzy kolejnymi widmami spowoduje, że jego rozdzielczość czasowa będzie mała. I odwrotnie – stosując bardzo krótkie próbki do stworzenia widma, uzyskamy doskonałą rozdzielczość czasową, a gorszą częstotliwościową. Niestety, nie da się pogodzić obu tych wymagań. Stąd istnienie dwóch typów spektrogramów:

  • wąskopasmowego (pasmo ok. 20 Hz, dobra rozdzielczość częstotliwościowa – rys. 12a);
  • szerokopasmowego (pasmo ok. 240 Hz, dobra rozdzielczość w domenie czasu – rys. 12b).
a)
b)

Rys. 12. Dwa typy spektrogramów: a) wąskopasmowy; b) szerokopasmowy

Nazwy typów spektrogramów pochodzą jeszcze z czasów, gdy tworzone były one przez elektroniczne analizatory charakteryzujące się określonym pasmem (zakresem częstotliwości). Szerokość pasma można po prostu interpretować jako rozdzielczość spektrogramu w dziedzinie częstotliwości.

Analiza fourierowska a częstotliwość podstawowa

We wspomnianym wyżej przypadku, gdy do analizy fourierowskiej pobiera się fragment sygnału dłuższy od okresu podstawowego, w widmie pojawią się piki związane z kolejnymi wielokrotnościami częstotliwości podstawowej. Oczywiście pierwszy z nich odpowiada samej częstotliwości podstawowej (rys. 13). Na spektrogramie wąskopasmowym kolejne harmoniczne (wielokrotności F0) objawiają się jako poziome linie, z których najniższa wyznacza przebieg częstotliwości podstawowej (rys. 14).

Rys. 13. Częstotliwość podstawowa na widmie fourierowskim

Rys. 14. Częstotliwość podstawowa na spektrogramie wąskopasmowym

Predykcja liniowa

Opiera się ona, podobnie jak analiza fourierowska, również na stosunkowo prostym pomyśle. Jeśli sygnał mowy powstaje z sygnału bezpośrednio wytwarzanego przez fałdy głosowe (w Polsce sygnał ten określany jest jako „głos”, w literaturze zagranicznej – jako sygnał pierwotny bądź pobudzenie) poddanego wielokrotnym odbiciom w jamach rezonansowych, to można go przedstawić jako sumę kilku rozmaicie opóźnionych sygnałów pobudzenia. Stąd już tylko krok do próby wyrażenia sygnału mowy w danej chwili jako sumy próbek tego sygnału w poprzednich chwilach.

Ze względu na swój ścisły związek z działaniem toru rezonansowego, predykcja liniowa szczególnie nadaje się do wyznaczania jego częstotliwości rezonansowych (formantów).

Po wyznaczeniu formantów można wyeliminować ich wpływ na sygnał mowy (pierwotny sygnał generowany przez fałdy), czyli można go odtworzyć. Proces ten nazywany jest filtracją odwrotną.

Formanty

Formanty (częstotliwości rezonansowe toru głosowego) są podstawową cechą różnicującą poszczególne głoski. Formanty dla wyrazów i zdań zmieniają się w czasie zgodnie ze zmianą głosek, a ich przebieg, tak jak to pokazano na rys. 15, można prześledzić na spektrogramach (powszechnie zaleca się do tego spektrogramy szerokopasmowe, ale równie dobre efekty daje stosowanie spektrogramów wąskopasmowych). Predykcja liniowa pozwala na automatyczne określenie przebiegu formantów w sposób dokładniejszy od analizy spektrogramów.

Rys. 15. Przebieg formantów zaznaczony na spektrogramie za pomocą metody predykcji liniowej

Sygnał pobudzenia (mowa)

Działanie fałdów głosowych poznane jest stosunkowo dokładnie (zdecydowanie lepiej od działania błony podstawnej w uchu). Zmiany przepływu powietrza związane z cykliczną pracą fałdów opisuje się poprzez pewne uproszczone modele (będące złożeniem prostych krzywych – wykresów funkcji). Jednym z popularniejszych modeli jest LF. Nie wnikając dokładnie we wzory definiujące fragmenty wykresu określającego przebieg zmian przepływu powietrza, w pewnym uproszczeniu można go (przepływ) przedstawić tak, jak to zrobione zostało na wykresie na rys. 16. Istotny jest zwłaszcza dolny wykres przedstawiający zmianę prędkości przepływu powietrza. Uzyskuje on maksimum w momencie najszybszego otwierania fałdów głosowych, i minimum w momencie najszybszego ich zamykania – tuż przed zamknięciem (analogia do trzaśnięcia drzwiami przez przeciąg – znacznie dynamiczniejszego od otwierania).

Rys. 16. Model przepływu powietrza pomiędzy fałdami głosowymi

Stosując oznaczenia jak na wykresach z rys. 16, zdefiniować można współczynnik otwarcia (stosunek czasu otwarcia fałdów do długości okresu podstawowego):

Qo = Tc/T0,

oraz współczynnik zamknięcia (stosunek czasu zamknięcia do długości okresu):

Qz = (T0 – Tc)/T0,

Wzajemne zależności między nagrywanym przez mikrofon sygnałem a sygnałem pobudzenia i wykresami z rys. 16 przedstawia rys. 17.

Rys. 17. Sygnał z mikrofonu i odtworzony z niego metodą filtracji odwrotnej sygnał pobudzenia

Parametryczna analiza akustyczna

Analiza fourierowska i predykcja liniowa, pomimo swojej niezwykłej użyteczności, prowadzą zwykle do uzyskania pewnych wykresów. Ich analiza jest zawsze w pewnym stopniu subiektywna. Aby zapewnić obiektywną diagnostykę, dokonuje się automatycznej analizy sygnału mowy, w efekcie uzyskując zestaw parametrów. Parametry te obliczane są często z wykorzystaniem wyników obu wspomnianych analiz.

Parametry podstawowe

Najpowszechniej stosowanymi parametrami są:

  • F0dev – odchylenie standardowe częstotliwości podstawowej, mierzący długoczasową stałość częstotliwości;
  • jitter - mierzący nieregularności długości okresów podstawowych, czyli krótkoterminowe (z okresu na okres) zmiany F0;
  • shimmer - mierzący nieregularności amplitudy sygnału z okresu na okres;
  • NHR - określający zawartość składowych nieharmonicznych w zakresie wyższych częstotliwości w stosunku do harmonicznych składowych o niższej częstotliwości.

Parametry powyższe z matematycznego punktu widzenia obliczane są bardzo prosto (jitter – suma względnych różnic długości sąsiednich okresów dla wszystkich kolejnych par w całym analizowanym przebiegu, shimmer – analogicznie, tylko dla amplitud, NHR – stosunek składowych nieharmonicznych z rys. 10b dla częstotliwości większych od ok. 1200 Hz do harmonicznych dla częstotliwości niższych). Korzystają one jednak z już wcześniej wyznaczonych w znacznie bardziej skomplikowany sposób wartości częstotliwości podstawowych (okresów podstawowych) bądź analiz widmowych.

Parametry uzupełniające

Parametry podstawowe są uniwersalne, a przez to dosyć ogólne. Wrażliwe są na większość możliwych zaburzeń głosu i nie pozwalają na precyzyjniejsze różnicowanie. Wprowadza się więc zestawy parametrów uzupełniających – precyzyjniej „dostrojonych” do poszczególnych zaburzeń. W programie Iris parametrów takich jest kilkanaście. Najistotniejsze zostały przedstawione w tabeli 1.

Tabela 1. Wybrane parametry uzupełniające dostępne w programie Iris

Nazwa parametru Opis użytkowy
HPQ (harmonic perturbation quotient) Parametr określający stałość kształtu okresów podstawowych. Z założenia niewrażliwy na różnice długości okresów podstawowych
HPQh Jak HPQ, ale jedynie dla składowych powyżej 1200 Hz
RHPQ (residual harmonic perturbation quotient) Jak HPQ, ale analiza wykonywana dla odtworzonego z sygnału mikrofonowego sygnału pobudzenia
RHPQh Jak RHPQ, ale jedynie dla składowych powyżej 1200 Hz
R2H (residual to harmonic) Parametr określający dynamikę zamknięcia fałdów głosowych – wrażliwy na małe zmiany organiczne
U2H (unharmonic to harmonic) Parametr określający stosunek części nieharmonicznej do harmonicznej – określa zarówno poziom zakłóceń, jak i zniekształceń
U2Hl Jak U2H, ale dla dla dolnej (do 4000 Hz) części widma – określa poziom zniekształceń sygnału mowy
U2Hh Jak U2H, ale dla dla górnej (powyżej 4000 Hz) części widma – określa raczej poziom zakłóceń
S2H (subharmonic to harmonic) Parametr określający stosunek amplitudy składowych subharmonicznych do harmonicznych dla dolnej (do 4000 Hz) części widma – poziom zniekształceń związanych z różną pracą obu fałdów
Q Parametr określający częstotliwość, powyżej której składowe harmonicznie nie dominują znacząco nad szumami i zniekształceniami
Yg Automatycznie wyznaczany współczynnik Yanagihary

Grupowanie parametrów

Większość parametrów tworzona jest w kilku odmianach. Wiedząc o ich wzajemnych zależnościach, łatwo można połączyć je w grupy, upraszczając znacznie nawigowanie w ich gąszczu.

Wyodrębnić można następujące grupy parametrów:

  • F0;
  • jitter i pochodne (RAP, PPQ);
  • shimmer i pochodne (APQ);
  • HPQ i pochodne (HPQh, RHPQ, RHPQh);
  • R2H;
  • U2H i pochodne (U2Hl, U2Hh);
  • S2H (nieco zbliżone do U2H);
  • NHR;
  • YG, Q;
  • pole głosowe, odchylenie std. F0, odchylenie std. amplitudy.