Medyczna rejestracja obrazu wideo

Część IV: Szybka kamera

Rozwój technologii szybkiego filmu

Autor: mgr inż. Anna Racino, dr inż. Marcin Just, dr inż. Michał Tyc (DiagNova Technologies)
Data: 2019.07.01

Stan narządu głosu ocenić można na podstawie jego ogólnego obrazu. W trakcie obserwacji fałdów głosowych za pomocą lusterka (od 1854 r.), lub – co korzystniejsze – laryngoskopu, można wykryć istnienie rozleglejszych zmian organicznych w obrębie fałdów głosowych i zasadniczych zmian w ich czynności. Istotnym postępem było wprowadzenie na początku lat 70-tych ubiegłego wieku możliwości rejestrowania obrazu fałdów głosowych za pomocą kamery i systemów wideo. Pozwoliło to usunąć presję czasu i dało więcej szans na wykrycie drobniejszych zmian organicznych i mniejszych zaburzeń czynności.

Niestety do tej pory nie udało się stworzyć wiarygodnej metodologii pozwalającej na korelację rozmiaru i typu zmian organicznych z ich wpływem na pracę fałdów głosowych, zaś ze względu na częstość drgania fałdów głosowych podczas normalnej fonacji (od około 100 Hz do 300 Hz) obserwacja czynności fałdów głosowych za pomocą laryngoskopu lub wideolaryngoskopu ogranicza się zasadniczo do fazy oddechowej (rys. 1).

prawidłowa praca krtani
niedowład prawego fałdu

Obserwacja fazy oddechowej daje tylko ogólne informacje na temat możliwych zaburzeń czynności fonacyjnej. Zaobserwować można zasadnicze asymetrie budowy krtani i główne problemy czynnościowe (np. zwieranie fałdów nalewkowych, niedowłady i porażenia). Brak jest bezpośredniego przełożenia na funkcję fonacyjną fałdów głosowych. Aby uzyskać pełne informacje o zaburzeniach pracy fałdów głosowych konieczne jest obserwowanie ich pracy w zwolnionym tempie tak, aby widoczne były cykle pracy fałdów głosowych. W naturalny sposób do takiego zadania wydaje się być stworzona technika szybkiego filmu, jednak przed rokiem 1900 nie było technicznej możliwości zarejestrowania na jakimkolwiek nośniku obrazu fałdów głosowych podczas pracy (za mała czułość kliszy filmowej). Wykorzystano więc bezpośrednią obserwację i zjawisko stroboskopowe, i w 1895 r. po uzyskaniu wymuszonej synchronizacji między błyskami światła i ruchem fałdów głosowych, zaobserwowano pozorny ruch fałdów głosowych. Wyniki nie były obiecujące i już na przełomie 1937 i 1938 roku (D.W. Farnsworth z Bell Laboratories) podjęto pierwsze próby wykorzystania do obserwacji ruchu fałdów głosowych rejestracji obrazów z prędkością wielokrotnie przekraczającą częstość drgania i odtwarzanie ich z prędkością znacznie mniejszą. Aczkolwiek próby zakończone zostały całkowitym sukcesem, to ówczesny sposób realizacji (taśma filmowa) praktycznie całkowicie wykluczał zastosowanie medyczne. Odnotować jednak należy, że to szybka kamera była pierwszym urządzeniem, które pozwoliło zarejestrować i odtworzyć ruch fałdów głosowych w sposób umożliwiający ocenę czynności fonacyjnej.

Postęp w zakresie elektroniki doprowadził do zarejestrowania w 1964 r. po raz pierwszy obrazu fałdów głosowych w postaci wideo. Kamery elektroniczne były wówczas jednak zbyt powolne, aby móc zastosować technikę szybkiego filmu i w celu stworzenia technologii umożliwiającej obserwację ruchu fałdów głosowych ponownie skorzystano z rozwiązania stroboskopowego. W 1978 roku (Yoshida, Hirano) po raz pierwszy zarejestrowano na wideo obraz pracy fałdów głosowych z użyciem metody stroboskopowej. Świadomość ograniczeń techniki stroboskopowej spowodowała, że nie zaprzestano jednak prac nad zaimplementowaniem techniki szybkiego filmu. Jak tylko możliwości techniczne to umożliwiły – po 1993 r. – pojawiły się pierwsze systemy pozwalające na elektroniczną rejestrację pracy fałdów głosowych w trybie szybkiej kamery. Początkowo wszystkie rozwiązania miały postać umożliwiającą praktycznie zastosowanie jedynie do celów naukowo-badawczych (rys 2).

prawidłowa praca krtani

HSV model 9700; Kay Elemetrics Corporation, dostępne od 1999 r.

prawidłowa praca krtani

Z publikacji [1] Vocal fold vibration irregularities caused by different types of laryngeal asymmetry Ulrich Eysholdt, Frank Rosanowski, Ulrich H. Hoppe European Archives of Oto-Rhino-Laryngology 2003

Sama głowica kamery waży około 400g, wyposażenie dodatkowe drugie tyle.

„The handling is quite different compared to a conventional endo-camera and has to be carefully learned”

Rys. 2. Dwa przykładowe modele szybkich kamer z wczesnych lat 2000 w zastosowaniu laryngologicznym

W większości wczesnych modeli uzyskiwano prędkości do 2000 kl./s. Dopiero koło 2003 r. pojawiły się kamery pozwalające na uzyskanie prędkości dochodzących do 4000 kl./s, jednak przy dużej degradacji jakości obrazu (rys. 3).

Rys. 3. Kimogram wykonany z nagrania z kamery z rys. 2 (dolna kamera) przy rejestracji z prędkością około 3700 kl./s
Vocal fold vibration irregularities caused by different types of laryngeal asymmetry
Ulrich Eysholdt, Frank Rosanowski, Ulrich H. Hoppe European Archives of Oto-Rhino-Laryngology 2003 [1]

Kilka lat później możliwa stałą się budowa systemów pozwalających na osiągnięcie jeszcze większych prędkości (6000 kl./s i większych) jednak okupione zostało to znacznym powiększeniem rozmiarów głowicy kamery, tak że konieczne stało się korzystanie ze statywów (rys. 4).

Rys. 4. Zestaw do rejestracji fałdów głosowych z szybką kamerą zaprojektowany około 2005 r. do celów naukowych na Uniwersytecie w Południowej Karolinie. Jego dobre, nawet jak na dzień dzisiejszy, parametry okupione są wagą wymagającą dodatkowego statywu [2]

Zdecydowana przewaga możliwości technologii rejestracji z dużą prędkością nad stroboskopią powodowała, że przed 2006 r. powstawało wiele systemów obrazowania z użyciem szybkiej kamery.

„Change in function could be obtained in more patients and for more parameters using HSV than VS”

Powell, M.E. i inni w artykule Efficacy of Videostroboscopy and High-Speed Videoendoscopy to Obtain Functional Outcomes From Perioperative Ratings in Patients With Vocal Fold Mass Lesions [3]
    Wykorzystanie jakiegokolwiek z opracowanych zestawów wiązało się jednak z problemami. Najistotniejsze z nich to:
  • Ciężar głowicy kamery często przekraczający 1000 g, znacznie odbiegający od ciężaru głowic kamer stroboskopowych (przeciętnie od 150 do 300 g);
  • Nagrzewanie głowicy kamery ze względu na konieczność zintegrowania z nią praktycznie całego systemu rejestracji obrazu;
  • Techniczne skomplikowanie zestawów i brak zgodności z normami medycznymi uniemożliwiający wprowadzenie na rynek i szersze wykorzystanie (opracowane zestawy w większości pracowały w pojedynczych ośrodkach jako sprzęt do badań naukowych);
  • Stosunkowo nienajlepsza jakość obrazu i prędkość zwykle limitowana do 2000 kl./s;
  • Bardzo duże wymagania co do natężenia oświetlenia fałdów głosowych. Zasadniczo jedynym źródłem światła o odpowiedniej mocy były wówczas (i zasadniczo aż do niedawna) ksenonowe lampy wyładowcze. Generowane przez nie światło ma charakterystykę spektralną zawierającą szkodliwe promieniowanie UV (zazwyczaj między 350 nm a 400 nm), zaś temperatura barwowa skupiona jest w zakresie znacznie pochłanianym przez hemoglobinę (~400-550 nm), co zmniejsza dodatkowo skuteczność oświetlenia i zwiększa wymagania co do mocy. Ksenonowe lampy wyładowcze o dużej mocy stosowane do szybkich kamer powodują więc bardzo duże nagrzewanie wszystkich komponentów optycznych i przy dłuższej ekspozycji mogą być szkodliwe dla pacjenta;
  • Wysoki koszt systemów z szybką kamerą nawet 10-krotnie przekraczający koszt systemów stroboskopowych;
  • Limit czasu nagrania dla badania do kilku sekund – zwykle 4 s – spowodowany ograniczoną pamięcią w głowicy kamery. Po wykonaniu nagrania należało przerwać badanie i przeprowadzić czasochłonny proces przesłania nagrania do komputera. Dodatkowo, ze względu na nagrzewanie, całą głowicę po każdej rejestracji należało zwykle schłodzić przez kilkanaście minut (lub szybciej –pod strumieniem wody);
  • Skomplikowany sposób analizy wyników badania wymagający często kilkudziesięciominutowego przeglądania zarejestrowanych danych;

W efekcie metodologia badania była skomplikowana, badanie było trudne do wykonania i czasochłonne. Przewaga możliwości diagnostycznych szybkiej kamery wywołała jednak próby przezwyciężenia przynajmniej części z przedstawionych trudności. W 2006 roku na rynku pojawił się system Wolf Endocam 5562 (rys. 5).

Rys. 5. System Endocam 5562 – pierwszy system z szybką kamerą w pełni przystosowany do zastosowań medycznych [4]

System był przygotowany do certyfikacji medycznej i oferował prędkość 4000 kl./s przy rozdzielczości 256x256 pikseli, jednak niezmienione oświetlenie spowodowało, że praktycznie wykorzystywane były prędkości do 2000 kl./s. Waga głowicy pozostała na poziomie 1000 g, co istotnie wykluczało zastosowanie w warunkach codziennych badań w warunkach klinicznych i ograniczało zastosowanie do badań naukowych lub do diagnozowania szczególnych przypadków patologii. Kamera, pomimo wysokiej ceny (około 60000 dolarów) rozpowszechniła się jednak w ośrodkach naukowych i znacznie przyczyniła do rozwoju foniatrii.

W 2011 r. pojawił się na rynku odnowiony zestaw firmy KayPentax – 9710/9711 (rys. 6).

Rys. 6. KayPentax 9710.

Rys. 6. KayPentax 9710

Waga głowicy została zredukowana znacząco do nieco ponad 200 g, co nie odbiegało od wagi głowic kamer stroboskopowych (zwłaszcza HD). Kamera umożliwiała rejestrację w kolorze z prędkością 4000 kl./s przy rozdzielczości 512x256 pikseli. Niestety, pozostało ograniczenie czasu rejestracji do 4 s (przy 2000 kl./s), znaczne nagrzewanie głowicy, bardzo duże nagrzewanie elementów optycznych (oświetlających) i budowa utrudniająca uzyskanie certyfikacji medycznej. Poprawa parametrów i wagi spowodowała podniesienie kosztów produkcji i wysoką cenę na poziomie do 200 000 dolarów. Wymienione wady spowodowały, że kamera ta nie była w stanie stanowić konkurencji dla kamer stroboskopowych.

Ograniczenia technologii stroboskopowej spowodowały, że ośrodki naukowe we własnym zakresie podejmowały próby opracowania zestawów o niższym koszcie wykorzystując obecne na rynku gotowe głowice szybkich kamer do zastosowań przemysłowych. Powstały liczne egzemplarze systemów do badań naukowych (rys. 7), jednak wszystkie one, ze względu na zaostrzające się normy medyczne i dalej zbyt wysoką cenę (moduł głowicy kamery przemysłowej wciąż kosztował około 20 000 dolarów, uwzględniając warunki na rynku medycznym koszt całego zestawu dla odbiorcy końcowego musiałby istotnie przekraczać 50 000 dolarów) nie wyszły praktycznie poza poziom prototypu i służyły tylko do badań naukowych. Stosowana najczęściej w tych rozwiązaniach głowica kamery Fastec 1/ Fastec 4 ważyła bez osprzętu 280 g, po dołożeniu optyki, uchwytów i okablowania waga całej kamery to 400–600 g. Rozmiar głowicy utrudniał też w pewnym stopniu badania, gdyż ograniczał widoczność ust pacjenta podczas wprowadzania endoskopu.

Rys. 7. Przykładowe systemy z szybką kamerą zbudowane w oparciu o popularną kamerę przemysłową (Fastec HiSpec1 i Fastec HiSpec4) [5] [6]

Ciekawą propozycją stał się opracowany jeszcze w 1996 r. system wykorzystujący połączenie dwóch kamer: zwykłej i szybkiej linijkowej (generuje jedną linię obrazu) lub jedną kamerę, która pracować może w trybie zwykłym lub w trybie generacji jednej linii. Bazował on na zaproponowanej (Videokymography: high-speed line scanning of vocal fold vibration. Svec JG, Schutte HK, J Voice 1996 [7]) technice prezentacji danych medycznych zwanej kimografią, która szczególnie dobrze sprawdza się w przypadku analizy pracy fałdów głosowych. Wideokimografia, czyli technika generowania przekrojów kimograficznych na podstawie obrazu wideo z kamery linijkowej lub z wybranych linii pelnoklatkowej sekwencji slow-motion (rys. 8) pozwala doskonale wizualizować większość zaburzeń pracy fałdów głosowych.

kolejne klatki fimu
domena czasowa
przekrój przez fałdy głosowe
domena przestrzenna (położenie na fałdzie głosowym)
klatki filmu - przekrój kimograficzny kimografia
przekrój przez fałdy głosowe - kimografia

Rys. 8. Zasada generowania przekrojów kimograficznych

Według autorów wielu publikacji wykorzystanie kimografii jest koniecznością w przypadku analizy długich nagrań kilkudziesięciu ruchów fonacyjnych fałdów głosowych, gdyż bezprosrednia reczna analiza ruchu fałdów głosowych na wielu klatkach nagrania jest podatna na błędy:

„In addition, changes in frequency of vibration may not be as easily identified with high-speed imaging because the observed difference from cycle to cycle may be subtle and requires the examiner to review many cycles to assess. Using the kymography function, aperiodic vibrations are easily identified with high-speed imaging.”

Katherine A. Kendall w artykule Clinical Applications for High-Speed Laryngeal Imaging [8]

W przypadku kamer linijkowych łatwo jest uzyskać prędkości pracy przekraczające 4000 kl./s, co daje wysoką jakość obrazowania głosów o dużej częstotliwości. Użycie kamer linijkowych zmniejsza też nieznacznie wymagania co do natężenia oświetlenia, zaś ograniczeniem jest generowanie danych z tylko jednego miejsca na fałdach głosowych i brak możliwości przeprowadzenia pionowej stabilizacji obrazu fałdów głosowych podczas analizy danych. Nie jest możliwe również skorygowanie obróconego obrazu fałdów głosowych, co może prowadzić do pewnych błędów wizualizacji i analizy (zwłaszcza przy rozwarciu fałdów głosowych).

W roku 2017 różnica kosztów szybkiej kamery do prostego zestawu stroboskopowego miała się jak 10:1. Koszt szybkiej kamery było to co najmniej 100 000 euro, koszt stroboskopu – 10 000 euro. W Polsce, ze względu na wysoki koszt zakupiona została do roku 2018 tylko jedna szybka kamera (model Endocam 5562) [4].

Pomimo niewygody stosowania, wysokich kosztów i skomplikowanego badania podkreślić należy, że na świecie to jednak szybkie kamery standardowe w wersji pełnoklatkowej lub linijkowe pozostały podstawowym sprzętem wykorzystywanym w badaniach naukowych i w poszerzaniu wiedzy medycznej. W oparciu o nie powstało większość publikacji naukowych i stanowią one niekwestionowane jedyne źródło wiarygodnych danych do oceny pracy fałdów głosowych. Niski koszt i stosunkowa łatwość badania spowodowały jednak, że to stroboskopia, pomimo swoich wad, stałą się złotym standardem na polu badań foniatrycznych. W wielu publikacjach podkreślano jednak, że po przezwyciężeniu problemów technicznych i użytkowych szybkie kamery powinny ostatecznie całkowicie zdominować rynek obrazowej diagnostyki foniatrycznej.

Ze względu na ciągły rozwój mikroelektroniki stan dominacji stroboskopii właśnie się zmienia. Wcześniej cały postęp w dziedzinie szybkich kamer ograniczył się do głowic. Stopniowo głównym ograniczeniem stało się źródło światła. Z powodów technicznych – brak technologii zastępczej – nie było ono modyfikowane, pomimo tego, że świadomość wad stosowanego rozwiązania, zwłaszcza w połączeniu z istniejącą metodologią pracy z szybką kamerą, była dobrze znana:

„HSV technology requires a lot of light due to the CMOS photon integration principles. Thus, increasing the amount of light can improve HSV image quality and frame rates. The type of light source used with most HSV systems today is 300 W constant xenon light. There is, however, a safety concern that further increasing the amount of light used with HSV can cause tissue damage. Additionally, it is considered possible that long exposures to a 300 W constant xenon light can cause tissue damage. No reports of such damage have been filed to date, but as a precaution it is recommended that the amount of time the vocal folds are exposed to light during an HSV exam be reduced to less than 20 seconds.”

pionier technologii szybkiego filmu Dimitar Deliyski w artykule Laryngeal High-Speed Videoendoscopy [9]

Przełom nastąpił dopiero w 2018 r. Wprowadzona została wówczas na rynek szybka kamera ALI Cam HS1 firmy Diagnova Technologies (rys. 9) wraz z pionierskim oświetlaczem laserowym ALI Lum.

Rys. 9. Głowica kamery ALI Cam HS1

    W całym zestawie zastosowano liczne zmiany konstrukcyjne:
  • Zastosowano energooszczędny sensor kamery typu CMOS o mniejszej prędkości, a przez to wyższej jakości obrazu. Umożliwił on uzyskanie prędkości do 3200 kl./s w rozdzielczości obrazu 480x400 px, obrazu kolorowego o parametrach co najmniej takich jak w przypadku stroboskopii. Ograniczyło to istotnie również nagrzewanie głowicy kamery;
  • Przy obniżonej do około 200 g wadze głowicy nie zmniejszono nadmiernie jej rozmiarów, co usprawniło proces oddawania ciepła i w dalszym stopniu ograniczyło temperaturę głowicy podczas pracy;
  • Wprowadzono bezpośredni (natychmiastowy) przesył danych do komputera, co wyeliminowało wszelkie ograniczenia związane z długością i ilością nagrań;
  • Wykorzystano w oświetlaczu diody laserowe dużej mocy, co umożliwiło zwiększenie natężenia oświetlenia przy zasadniczym zmniejszeniu – ze względu na mniejsze straty przesyłu światła – nagrzewania optyki. Dodatkowo oświetlenie ma charakter wąskopasmowy, co pozwala na poprawę widoczności naczyń i rozszerzenie zdolności diagnozowania w zakresie onkologicznym;
  • Zastosowano elektroniczny obiektyw z automatycznym ustawianiem ostrości (autofokus), co umożliwiło z jednej strony uzyskać obrazy o wyższej jakości, z drugiej strony dało możliwość wprowadzenia systemu dokładniejszej oceny rozmiarów obiektów na obrazach endoskopowych dzięki estymacji odległości końcówki endoskopu od obserwowanych struktur na podstawie ustawionych parametrów obiektywu;
  • Dzięki laserowemu oświetlaczowi możliwe stało się wprowadzenie dynamicznej regulacji natężenia oświetlenia, wprowadzenie ciągłego podglądu obrazu w trybie niskiego natężenia i włączania pełnego natężenia tylko w momencie rejestracji sekwencji High-Speed;

Dzięki zastosowaniu nowych technologii i konstrukcji odmiennej niż w kamerach szybkich dostępnych przed 2018 rokiem, możliwe stało się zasadnicze zmodyfikowanie filozofii badania szybką kamerą – wprowadzenie trybów uproszczonego rejestrowania sekwencji, które zachowuje większość zalet badania szybką kamerą (zwłaszcza wysoką wiarygodność badania i możliwość wizualizacji ruchu fałdów głosowych przy wszelkich patologiach) przy prostocie i szybkości badania przewyższającej nawet badanie stroboskopowe. Całkowite badanie pacjenta z pełną archiwizacją danych trwać może nawet poniżej 15 sekund, zaś w przeciwieństwie do badania stroboskopowego, można w dalszej kolejności przeprowadzić wszelkie stosowane analizy pracy fałdów głosowych i wygenerować przekroje kimograficznej. Większe natężenie światła zapewniło też wyższą jakość obrazu i możliwość stosowania maksymalnej prędkości 3200 kl./s bez zauważalnej degradacji obrazu. Uzyskano w ten sposób pierwszy system przeznaczony do zastosowania w warunkach klinicznych, a nie tylko do pracy naukowej.

Film 1.Przykłady nagrań szybką kamerą wizualizujące ruchy fałdów głosowych z występującymi patologiami, niemożliwe do uzyskania za pomocą nagrania stroboskopowego.1 Więcej nagrań mogą Państwo obejrzeć w naszej galerii

Dzięki nowym technologiom możliwe stanie się przywrócenie postulowanego przez naukowców porządku rzeczy, w którym stroboskopia wykorzystywana będzie jako narzędzie do badań przesiewowych, a po wykryciu patologii, właściwa diagnostyka i rehabilitacja prowadzona będzie przy użyciu szybkiej kamery.

„Hoarseness, the clinical complaint usually investigated with laryngeal imaging, is the result of abnormalities in vocal fold vibratory function and is an indication for high-speed laryngeal imaging”

Katherine A. Kendall w artykule Clinical Applications for High-Speed Laryngeal Imaging [9]