Analiza akustyczna głosu w praktyce laryngologicznej

Część I: Teoretyczne podstawy analizy akustycznej głosu

Generacja i postać sygnału mowy

Autor: dr inż. Marcin Just (DiagNova Technologies)

Proces generacji sygnału mowy

Nie byłoby analizy akustycznej mowy bez… samej mowy. To ona leży u podstaw wszystkiego i wszystkie mechanizmy analizy dostosowane są do jej specyfiki. Aby móc w pełni zrozumieć zasady rządzące analizą, przede wszystkim zrozumieć należy proces generacji głosu. U jego podstaw leży zasadniczo jedno prawo fizyczne – prawo Bernoulliego. Zgodnie z nim, z im większą prędkością przemieszcza się gaz, tym niższe panuje w nim ciśnienie (w uproszczeniu). Prawo to jest „odpowiedzialne” za siłę nośną działająca na skrzydła samolotów (rys. 1) i m.in. za siłę zamykającą fałdy głosowe.

Rys. 1. Siła aerodynamiczna (nośna) działająca na skrzydło (narysowane w przekroju). Powietrze opływające skrzydło górą (droga „B”) musi pokonać dłuższą drogę niż opływające je dołem (droga „A”), więc zgodnie z prawem Bernoulliego u góry panuje niższe ciśnienie „wsysające” skrzydło

Z zewnątrz na fałdy działa siła pochodząca od ciśnienia atmosferycznego, od środka działa siła pochodząca od ciśnienia powietrza wydostającego się z płuc. Ponieważ powietrze przechodzące pomiędzy fałdami jest w ruchu, to ciśnienie w nim panujące jest mniejsze, i powoduje to samorzutne zaciskanie się fałdów. Po ich zamknięciu powietrze przestaje się poruszać, ciśnienia się równoważą i fałdy wracają do położenia pierwotnego. Ruch ten będzie powtarzał się cyklicznie z częstotliwością zależną od masy fałdów i ich sprężystości.

Poprzez zmianę siły napinającej fałd człowiek może więc regulować częstotliwość zamykania i otwierania drogi powietrza. Te zmiany jego przepływu są „motorem” generującym głos i docelowo sygnał mowy. Na efekt ostateczny wpływ mają jeszcze inne czynniki, tak jak to przedstawione zostało na rys. 2.

Rys. 2. Schematycznie przedstawiony proces generacji sygnału mowy

Cyklicznie przerywany strumień powietrza sumuje się z różnego typu szumami, przechodzi przez komory rezonansowe (analogia do pogłosu w jaskini lub pudła rezonansowego skrzypiec) i ostatecznie może być rejestrowany przez mikrofon.

Głos jako periodyczna fala dźwiękowa

Zdecydowana większość metod analizowania mowy wiąże się z jej periodycznym charakterem. Dzięki temu, że strumień powierza jest przerywany przez fałdy głosowe, ostateczny sygnał wychodzący z ust i rejestrowany przez mikrofon też jest cyklicznie powtarzający się (periodyczny). Mikrofon zamienia chwilową wartość ciśnienia na poziom napięcia, który może być łatwo rejestrowany. W dobie rozwoju techniki komputerowej, najprościej jest sygnał mowy zapamiętywać cyfrowo. Wartość napięcia zamieniana jest kilkadziesiąt tysięcy razy na sekundę (zazwyczaj 22050 razy na sek.) na wartość liczbową, którą komputer zapisuje w pamięci. Z takich kolejnych „próbek” łatwo potem zrobić wykres (rys. 3). Wykres ten nosi nazwę oscylogramu.

Rys. 3. Oscylogram sygnału mowy: u góry fragment 1-sekundowy, u dołu jego 20-milisekundowa część, na której łatwo dostrzec periodyczny charakter

Częstotliwość podstawowa

Odcinek czasu pomiędzy kolejnymi zamknięciami fałdów głosowych definiuje najmniejszą powtarzającą się sekwencję w sygnale mowy. Nosi on nazwę okresu podstawowego (T0), a jego powiązanie z oscylogramem pokazuje rys. 4.

Rys. 4. Znajdowanie okresu podstawowego na oscylogramie. Charakterystyczne piki w dół na wykresie określają momenty tuż przed zamknięciem fałdów głosowych

Okres podstawowy nie jest jednak najczęściej wykorzystywanym pojęciem w dziedzinie analizy mowy. Zazwyczaj używa się jego odwrotności – częstotliwości podstawowej:

F0 = 1/T0.

Ze względu na to, że sygnał mowy składa się zwykle z dużej liczby okresów podstawowych (kilkuset), w ramach całego analizowanego sygnału częstotliwość podstawową zdefiniowaną powyższym wzorem wyznaczać można wielokrotnie – okres po okresie. Zmieniającą się wartość częstotliwości podstawowej można dzięki temu przedstawić jako wykres. Ten niezwykle istotny wykres częstotliwości podstawowej nosi nazwę pitch i przykładowo przedstawiony jest na rys. 5.

Rys. 5. Wykres częstotliwości podstawowej

Częstotliwość podstawową wyznaczyć można odręcznie – na podstawie wykresu – ale poprawne wykonanie tego dla dużej liczby okresów podstawowych jest niezwykle żmudną pracą. Zwykle stosuje się w tym celu wybrany algorytm automatyczny i zaprzęga do tego komputer.