strona główna > archiwum > Przegląd Urologiczny 2011/3 (67) > Nie bójmy się biostatystyki

Nie bójmy się biostatystyki

Ewa Wiercińska
Roman Topór-Mądry

artykuł ukazał się w Przeglądzie Urologicznym 2011/3 (67)

Dlaczego warto prowadzić badania naukowe?

Spośród powodów prowadzenia badań naukowych można wymienić różne przyczyny - globalne i osobiste. Europejskie badania naukowe są teraz wysoko notowane na liście priorytetów polityki w Europie. Traktat amsterdamski zawiera cały rozdział w dziedzinie badań i rozwoju technologicznego, ponieważ uznano, że konkurencyjność przedsiębiorstw, zatrudnienie, ochrona konsumentów i ochrona środowiska zależą w dużej mierze od badań i rozwoju. Mówiąc krótko, uważa się, że indywidualny i zbiorowy dobrobyt obywateli zależy od jakości i przydatności badań naukowych.

Ale prowadzenie badań może mieć też wymiar bardziej osobisty, ponieważ może być ścieżką rozwoju kariery. Jednak nawet w przypadku wymagającej i czasochłonnej praktyki klinicznej prowadzenie badań naukowych przyczynia się do poszerzenia wiedzy o nowych teoriach i metodach, głębszego rozumienia problemów, pomaga odróżniać działania skuteczne od tych wątpliwych. Dzielenie się wiedzą i wnioskami, do których dochodzi lekarz praktyk, jest bardzo istotne. Inni lekarze bardziej skorzystają z wniosków, jeśli są przeprowadzone według uznanych standardów i opublikowane.

Rozwój wiedzy i dowody w medycynie

Rozwój medycyny od czasów Hipokratesa oparty był na zasadach racjonalnych. Diagnostyka i formułowanie wniosków były wynikiem obserwacji i doświadczeń lekarzy. Doświadczenia te, przekazywane w formie wykładów, podręczników i bezpośredniego praktykowania stanowiły podstawę wiedzy medycznej wzbogaconej o obserwacje własne lekarza. Mimo że już Paracelsus sprzeciwiał się dogmatyzmowi i absolutnemu podporządkowaniu autorytetom, dopiero powstanie metod naukowych dotyczących wnioskowania w oparciu o wielość obserwacji podkreśliło znaczenie wiedzy, którą obecnie nazywamy medycyną opartą na faktach (evidence based medicine).

Jej zasady, oparte o badania naukowe w wyciąganiu wniosków, sformułowane przez prof. Gordona Guyatta z Uniwersytetu w Hamilton, to integracja najlepszej wiedzy (dowodu naukowego) z kliniczną ekspertyzą i wartościami (preferencjami) pacjenta. Innymi słowy, to podejście do uprawiania medycyny:
•w którym klinicysta jest świadomy pomocy dowodów naukowych w codziennej praktyce, jak i siły tych dowodów;
•to staranne i rozsądne stosowanie najlepszych dowodów w podejmowaniu decyzji o rodzaju opieki zdrowotnej dla każdego pacjenta;
•to branie pod uwagę opinii każdego pacjenta przy stosowaniu najlepszych dowodów naukowych.

Najlepsza wiedza, dowód naukowy pochodzi z ważnych klinicznie badań, często opartych na podstawowych naukach medycznych, ale również na badaniach ukierunkowanych na pacjenta dotyczących dokładności i precyzyjności testów diagnostycznych, siły markerów prognostycznych, efektywności i bezpieczeństwa postępowania terapeutycznego, rehabilitacyjnego i prewencji. Zatem celem metod naukowych w medycynie jest zdobywanie dowodów nie z pojedynczych doświadczeń praktykujących lekarzy, ale z mnogich obserwacji poddanych specjalnemu reżimowi badawczemu charakteryzującemu konkretny model badania obserwacyjnego lub eksperymentalnego.

Sposoby dowodzenia nieprzypadkowości - jakie jest prawdopodobieństwo, że związek istnieje i że to nie pomyłka

Badanie naukowe przeprowadzane jest na wybranej grupie osób i w tej grupie można określić średni poziom czynników chorobowych oraz jego zmian wskutek zastosowanej interwencji. Z doświadczenia codziennego wiadomo jednak, że wyniki jednego eksperymentu nie muszą się koniecznie pokrywać z wynikami innego, mimo zachowania podobnych warunków zewnętrznych i procedur, według których jest przeprowadzane. Zatem, to samo doświadczenie może być powtarzane wielokrotnie i mieć różne, czasem przeciwstawne wyniki. Przy obecnym rozwoju statystyki wiadomo jednak, że nie ma sensu powtarzanie takich samych badań, bowiem prawdopodobieństwo otrzymania podobnych wyników (lub zakresu, w jakim będą się znajdować) można obliczyć na podstawie wyników pierwszego badania. Temu zadaniu służy weryfikowanie hipotez i testowanie statystyczne.

Na przykład, aby uogólnić wyniki badań na całą populację, należy mieć pewność, że próbka była reprezentatywna oraz określić błąd, który może być związany z procesem pomiaru wyników (i w następstwie z tego z wnioskami badania) (ryc. 1).

Rycina 1	Reprezentatywność wyników - wnioskowanie statystyczne

Hipoteza statystyczna to każde przypuszczenie dotyczące parametrów rozkładu zmiennej losowej, np. przypuszczenie, że między wartością estymatora i parametrem między dwoma parametrami między rozkładem teoretycznym a empirycznym nie ma żadnej różnicy. Wybór testu, za pomocą którego można testować hipotezę, zależy od rodzaju hipotezy, wielkości próby, rozkładu badanej cechy i in. Testy statystyczne najczęściej noszą nazwy od ich twórców (np. test U Manna i Whitneya).

Z formalnego punktu widzenia, aby zweryfikować taką hipotezę, należy przejść następujące etapy:
•Sformułowanie hipotezy zerowej i alternatywnych.
•Wybór testu do weryfikacji hipotezy zerowej.
•Przyjęcie a priori poziomu istotności i wyznaczenie obszaru krytycznego hipotezy.
•Wyznaczenie wartości funkcji testu.
•Podjęcie decyzji (z określonym prawdopodobieństwem) o przyjęciu bądź odrzuceniu hipotezy zerowej.

W praktyce sprowadza się to do przetestowania statystycznego różnic pomiędzy grupami i stwierdzenia, czy wyniki testu pozwalają na przyjęcie hipotezy o istnieniu różnic pomiędzy grupami.

W procesie weryfikacji hipotez statystycznych należy uwzględnić kilka możliwości, bowiem przyjęcie lub odrzucenie hipotez statystycznych obarczone jest dwoma możliwymi błędami, nazywanymi błędem typu I (błąd α) lub błędem II typu. (błąd β) (tab. 1).

Tabela 1	Weryfikacja hipotezy badawczej na podstawie testu statystycznego

Błąd typu I to prawdopodobieństwo niewłaściwego odrzucenia hipotezy zerowej. Określany jest jako „p” i zwykle ustala się go na poziomie 0,05. Poziom ten oznacza, że istnieje szansa 1 na 20, że wystąpi różnica pomiędzy badanymi grupami, podczas gdy jej w rzeczywistości nie ma. Taki poziom błędu jest przyjęty w naukach medycznych za dopuszczalny. Jeśli zatem wnioskowanie w badaniu jest obarczone tym błędem lub mniejszym, to przyjmuje się związek za istniejący. Wartość błędu jest zależna od wielu elementów, wśród których można wymienić obserwowaną różnicę pomiędzy zmiennymi, odchylenie standardowe rozkładu i wielkość próby. Zmiana jednego z tych elementów zmienia wartość „p”. Sama wartość „p” nie mówi absolutnie nic o rzeczywistej wielkości zmian pomiędzy grupami, dlatego należy prezentować wartości średnie, odchylenie standardowe, itp.

Błąd typu II związany jest z pojęciem siły badania. Siła badania (1- β) to prawdopodobieństwo, że różnica pomiędzy średnimi może być wykryta. Siła badania jest zależna bezpośrednio od wielkości próby: większa próba daje mniejszy błąd standardowy. Przy małej próbie istnieje ryzyko niewykrycia obecności istniejących różnic.

Szukamy przyczyny choroby czy testujemy skuteczność leczenia? Wybór modelu badania

Podział badań naukowych można rozpatrywać według 2 kryteriów:
1. Postępowanie z badanym respondentem
•respondent jest badany i obserwowany przez pewien okres bez jakiejkolwiek interwencji - badania obserwacyjne;
•badana grupa poddawana jest interwencji, np. program edukacyjny, nowa metoda leczenia - badania interwencyjne (eksperymentalne).

2. Kierunek zbierania informacji
•spojrzenie w przeszłość badanego respondenta, czyli wywiad i historia choroby - badania retrospektywne,
•badanie wyjściowe i obserwacja badanego "w przyszłości" - badania prospektywne

Rodzaj badania naukowego należy dobrać w zależności od zakładanych celów i hipotez badawczych (tab. 2).

Tabela 2	Cele badawcze a rodzaj badania naukowego

Najczęściej stosowanym badaniem w medycynie jest badanie kliniczno- kontrolne (case-control study). Jest to badanie retrospektywne, badające związek przyczynowo-skutkowy (narażenie na czynnik, zachorowanie). Ekspozycja (narażenie) jest czynnikiem działającym w przeszłości, zanim osoba zachorowała na badaną chorobę. Do takich czynników należą np. styl życia (dieta, palenie papierów), czynniki społeczno-ekonomiczne, konstytucjonalne, warunki pracy (metale ciężkie, promieniowanie, zapylenie), itp. Celem tego badania jest porównanie grupy badanych chorujących na daną chorobę do grupy badanych niechorujących na tę chorobę, np. pod względem występowania prawdopodobnej przyczyny choroby. Badanie tego rodzaju przeprowadzane jest najczęściej na gruncie klinicznym, a grupy badawcze stanowią pacjenci leczący się w danej jednostce opieki zdrowotnej. Dane zbierane są przede wszystkim za pomocą wywiadu z chorym, rodziną, przeglądu historii choroby i innej dokumentacji medycznej.

Ze względu na wysoką selektywność osób do grup badawczych (nie ma randomizacji, czyli losowania do grupy badawczej) należy dbać, by:
•dobór przypadków reprezentował wszystkie przypadki choroby z określonej populacji (istotny dobór kryteriów włączenia i wykluczenia z badania - za duże ograniczenia - ryzyko utraty reprezentatywności);
•osoby z grupy kontrolnej stanowiły reprezentację populacji, z której pochodzą przypadki, narażenie było ustalane w ten sam sposób dla przypadków i kontroli;
•kryteria diagnostyczne punktu ostatecznego (choroby) powinny być oparte np. o wytyczne europejskich towarzystw naukowych, standardowych metod diagnostycznych, wynikach innych badań naukowych, itp.

Na podstawie uzyskanych informacji można wyliczyć iloraz szans (odds ratio - OR), czyli o ile prawdopodobieństwo wystąpienia określonego zjawiska w grupie eksponowanej było wyższe/niższe niż w grupie nieeksponowanej, np., jakie prawdopodobieństwo zachorowania na raka płuc miały osoby z grupy palącej papierosy w stosunku do niepalącej.

Bardziej pożądanym przez naukowców ze względu na wysoką jakość i wiarygodność jest badanie eksperymentalne. Jednakże przeprowadzenie takiego badania jest kosztowne, stąd nie zawsze możliwe do wykonania. Eksperyment jest badaniem prospektywnym, porównującym skutek interwencji podejmowanej w grupie badanej do grupy kontrolnej, w której nie zastosowano interwencji. Eksperyment musi być bezpieczny dla badanego, grupa kontrolna powinna podlegać rutynowym procedurom medycznym (np. przy testowaniu czynników terapeutycznych) oraz niezbędny jest losowy dobór do grupy badanej i kontrolnej (randomizacja).

Losowanie do grup badawczych zapewnia taki sam rozkład czynników (np. wieku, wykształcenia, czynników ryzyka ChNS, itp.) w grupach interwencji i kontroli, jaki był w grupie poddanej podziałowi losowemu. Losowanie można poddać maskowaniu w celu wyeliminowania efektu placebo (ślepa próba):
- pojedyncza (pacjent nie wie, czy otrzymuje nowe leczenie, czy nie);
- podwójna (pacjent i lekarz nie wiedzą, czy zastosowano nowe leczenie, czy nie);
- potrójna (ani pacjent, ani lekarz, ani laborant nie wie, jaki był system kodów).

Na podstawie uzyskanych informacji można wyliczyć ryzyko względne (relative risk - RR) wskaźnik ryzyka wystąpienia np. choroby lub zgonu wśród osób narażonych w stosunku do ryzyka u osób nienarażonych, np. jakie jest ryzyko zachorowania na raka płuc wśród osób z grupy palącej papierosy w stosunku do niepalącej.

Zmienne, rozkłady i testy statystyczne

Przy planowaniu badania należy określić także rodzaj instrumentów badawczych, wśród których można wyróżnić: kwestionariusz (ankieta), najczęściej używany przez badaczy, oraz pomiary wskaźników (badanie fizykalne, pomiary antropometryczne, pomiary czynności funkcjonalnej organizmu, badania laboratoryjne, itp.). Zaletą pomiarów wskaźników jest większa obiektywność i wiarygodność wyniku niż w przypadku ankiety, gdzie badacz zdaje się na pamięć badanego czynnika. Wszystkie informacje uzyskane w kwestionariuszu i w badaniach są zmiennymi, na których będą przeprowadzane analizy statystyczne.

Dane uzyskane w badaniu są zmiennymi uporządkowanymi względem pewnych cech:
1. Cechy jakościowe (niemierzalne) dotyczą zmiennych opisowych uzyskanych np. w kwestionariuszu (jak: płeć, stan cywilny, miejsce zamieszkania, wykształcenie), w badaniu fizykalnym (kolor skóry, stan nawodnienia) czy w badaniu moczu (kolor, odczyn), itp.

2. Cechy ilościowe (mierzalne) dotyczą zmiennych wyrażonych w postaci pewnej skali liczbowej, uzyskanych np. w kwestionariuszu (jak: wiek, liczba lat w małżeństwie), w pomiarach antropometrycznych (np.: wzrost, ciężar ciała, obwody ciała), w pomiarach czynności funkcjonalnej organizmu (np.: temperatura ciała, tętno, ciśnienie) czy w badaniach laboratoryjnych (np.: stężenie cholesterolu całkowitego, glukozy).

Wstępem do analiz statystycznych zebranego materiału badawczego jest wykonanie statystyk opisowych badanych zmiennych (liczebność grup badanych, średnie odchylenie standardowe, mediana, itp.) oraz ocena, czy zmienne o charakterze ciągłym (np. wiek, ciężar ciała) mają rozkład normalny. Rozkład (częstość) zmiennych kategorycznych (płeć, palenie papierosów, wykształcenie, itp.) może być prezentowany w postaci tabel wielodzielczych, gdzie zawarta jest informacja o liczebności, odsetkach w poszczególnych kategoriach badanej zmiennej względem innej (np. różnica w częstości palenia (odsetki) między kobietami a mężczyznami). Potwierdzeniem, że różnice w częstości występowania jednej kategorii w stosunku do drugiej faktycznie mają wpływ na wynik testu chi².

Te podstawowe parametry charakteryzują badane grupy. Wskazują na pierwsze podobieństwa i różnice między grupami i są podstawą do decydowania o kierunku i rodzaju kolejnych testów statystycznych. Najchętniej analizowaną i porównywaną miarą jest średnia, która jest najłatwiejsza do interpretacji i prezentacji. Testy badające wartość średnią analizowanych zmiennych nazywane są testami parametrycznymi. Testy te można stosować, gdy analizowane zmienne spełniają założenie o normalności rozkładu.

Rozkład normalny to charakterystyczna krzywa dzwonowa, definiowana średnią i odchyleniem standardowym. Obszar pod krzywą dzielony jest odległościami odchylenia standardowego od średniej. 68% obserwacji dotyczącej badanej zmiennej zawiera się w odległości 1 odchylenia standardowego od średniej (X± SD). 96% obserwacji dotyczącej badanej zmiennej zawiera się w odległości 2 odchyleń standardowych od średniej (X± 2SD). 99,7% obserwacji dotyczącej badanej zmiennej zawiera się w odległości 3 odchyleń standardowych od średniej (X±3SD) (ryc. 2). Jeśli zmienne nie spełniają warunku o normalności rozkładu normalnego, należy stosować testy nieparametryczne, które badają inne cechy zmiennej, np. medianę.

Rycina 2	Krzywa rozkładu normalnego

Do podstawowych analiz statystycznych należy ocena, czy występują różnice pomiędzy grupami pod względem badanych cech, np. różnice w średnim wzroście między dziećmi ze wsi i z miasta. Jeśli analizowana zmienna spełnia warunek o normalności rozkładu, można zastosować wtedy test parametryczny (test t-Studenta) porównujący średnie wartości badanej zmiennej pomiędzy grupami. Interpretowanym wynikiem testu są średnie wartości badanej zmiennej dla obu grup i poziom istotności różnic (p) między grupami. Natomiast w sytuacji, kiedy badana zmienna nie ma rozkładu normalnego, należy zastosować test nieparametryczny, np. test U Manna i Whitneya, który jest odpowiednikiem testu t-Studenta. Interpretowanym wynikiem testu są wartości mediany (me) badanej zmiennej dla obu grup (w publikacjach podawana jest często również średnia dla lepszego zobrazowania różnic) oraz poziom istotności różnic (p) między grupami.

W sytuacji porównywania np. efektów terapii (jedna grupa badana, a dwie zmienne - przed i po leczeniu) stosowane są testy dla tzw. prób zależnych. Jeśli analizowana zmienna spełnia warunek o normalności rozkładu, można zastosować wtedy test T dla zmiennych zależnych, oceniający różnice w dwóch średnich pomiarach w tej samej grupie, np. pomiar obwodu pasa u kobiet przed zastosowaniem i po stosowaniu diety. Interpretowanym wynikiem testu są średnie wartości badanej zmiennej przed i po (np. interwencji) dla tej samej grupy oraz poziom istotności różnic (p) przed i po. Wśród testów nieparametrycznych analizę zmiennych zależnych przeprowadzić możemy za pomocą: testu znaków, testu kolejności par Wilcoxona. Interpretowanym wynikiem testu są wartości mediany (me) badanej zmiennej przed i po (np. interwencji) (dodatkowo można podawać także średnie wartości) oraz poziom istotności różnic (p) przed i po.

Przytoczone powyżej przykłady analiz mogą być zarówno wstępem do dalszych, bardziej skomplikowanych analiz, jak i efektem finalnym, jeśli założeniem badania było jedynie sprawdzenie różnic w grupach lub między zmiennymi. Zakres analiz i poziom zaawansowania zależą przede wszystkim od założonych hipotez badawczych, wielkości badanej próby, ilości i jakości zmiennych. Możliwości programów statystycznych są olbrzymie, większość z nich nie wymaga matematycznego przygotowania (np. pisanie wzorów, formuł), potrzebne są tylko dobrze sprecyzowane hipotezy badawcze, dobre jakościowo dane, wiedza, jaki test należy zastosować oraz umiejętność interpretacji wyników.

dr n. med. Ewa Wiercińska
Instytut Badań Medycznych Sp. z o.o.

dr n. med. Roman Topór-Mądry
Instytut Badań Medycznych Sp. z o.o.
Instytut Zdrowia Publicznego CM UJ