5. Test

Wiemy, że suma kwadratów zmiennej u, zdefiniowanej wzorem (1.4.1) podlega rozkładowi . We wzorze tym przez f_i oznaczyliśmy wartości rzeczywiste badanej wielkości zakładając milcząco, że wartości te są znane. W rzeczywistości jest na ogół inaczej. Wykonujemy pomiary danej wielkości fizycznej wtedy, kiedy wartości prawdziwe nie są nam znane. Często natomiast wartości te przewidywane są przez daną teorię lub model fizyczny. W takim przypadku zadaniem pomiaru jest sprawdzenie, czy wyniki pomiarów potwierdzają przewidywania opisu teoretycznego. Bywa również, że istnieje kilka hipotez i należy zweryfikować ich słuszność lub wybrać hipotezę najbardziej prawdopodobną. Potrzebne jest wiec obiektywne kryteriom takiego wyboru. Istnieje wiele typów testów statystycznych opartych na różnych założeniach. Omówimy tu test jako jeden z najczęściej stosowanych w analizie danych. Przedstawimy więc krótko ideę takiego testu.

Wykonujemy N pomiarów. Przez g_i oznaczamy uzyskane wartości liczbowe:

(1.5.1)

Nieznane wartości prawdziwe oznaczmy przez h_i. Mamy więc

(1.5.2)

gdzie charakteryzują odstępstwa wartości mierzonych od rzeczywistych. Zakładamy, że odstępstwa te podlegają rozkładowi normalnemu o wartości przeciętnej równej zero i odchyleniach standardowych wynoszących dla poszczególnych pomiarów .

Stawiamy hipotezę:

(1.5.3)

gdzie f_i nie są już wartościami rzeczywistymi, ale znanymi wartościami przewidywanymi przez daną hipotezę, np. testowany model teoretyczny. Jeśli jednak hipoteza jest słuszna, to spełnione są zależności podane przy określaniu rozkładu , tj. wielkość

(1.5.4)

podlega rozkładowi normalnemu o wartości przeciętnej równej zeru i odchyleniu standardowym równym jedności. (Jest to omawiany już znormalizowany rozkład Gaussa.) Z kolei, wielkość określona wzorem

(1.5.5)

podlega rozkładowi o liczbie stopni swobody równej N.

Wykonując serię pomiarów i obliczając wartość wyrażenia (1.5.5) uzyskujemy jedną liczbę X². Z postaci wyrażenia (6.5.3) widać, że jeśli różnice pomiędzy wartościami zmierzonymi i rzeczywistymi (licznik) są zbliżone do wartości niepewności pomiarowych (mianownik), to suma wszystkich składników powinna być w przybliżeniu równa liczbie punktów pomiarowych. Im większa wartość X², tym gorsza zgodność przewidywania teoretycznego ze zmierzonymi wartościami eksperymentalnymi.

Czy słuszne jest stwierdzenie, ze im mniejsza wartość X², tym lepiej - bo wartości zmierzone są bardzo bliskie przewidywaniom teorii? Wniosek taki nie jest jednak słuszny! Kiedy średni wkład pojedynczego składnika w wyrażeniu (1.5.5) jest znacznie mniejszy od jedności, to nie jest to powód do zadowolenia, ale raczej do powtórnego przeanalizowania poprawności oszacowania błędów pomiarowych, bowiem wartości ich są znacznie zawyżone. Zbyt małe wartości X²pojawiają się także, kiedy wartości teoretyczne odzwierciedlają raczej fluktuacje statystyczne niż prawidłowość fizyczną.

Czym jest bowiem liczba stopni swobody? Omawiając własności wartości średniej zauważyliśmy, że estymator wariancji średniej jest nieobciążony dopiero wtedy, gdy odejmujemy jedynkę od liczby sumowanych składników w wyrażeniu (6.1.8) uwzględniając tym fakt, że wartość średnia wyznaczona jest w oparciu o skończoną liczbę pomiarów. Tak samo jest jeśli wyrażenie opisujące funkcję teoretyczną zawiera parametry wyznaczone z użyciem wartości pomiarowych. Wówczas liczba stopni swobody równa jest liczbie punktów pomiarowych pomniejszoną o liczbę parametrów funkcji teoretycznej. Oznaczając liczbę stopni swobody przez N_DF mamy zależność

(1.5.6)

gdzie k jest liczbą parametrów wyznaczonych z użyciem wartości pomiarowych.

Jak więc ilościowo ocenić zgodność postawionej hipotezy z wynikami pomiarów?

Rys.1.5.1. Rozkład i poziom ufności . Zobacz rozkłady poziomów ufności w interaktywnej ilustracji (Rys. 6.2.1)	Przyjmujemy następujące kryterium: Jeśli prawdopodobieństwo otrzymania wartości większej od wartości jest mniejsze niż , to hipotezę należy odrzucić. Ilustruje to rysunek 1.5.1. gdzie kolorem czerwonym pokazany jest obszar, dla którego wartości są większe od . Pole tego obszaru równe jest , i wiąże się z wartością dystrybuanty związkiem
		(1.5.7)
	Wielkość to poziom ufności, który określa prawdopodobieństwo z jakim odrzuca się hipotezy prawdziwe stosując test .

Dla wykonania testu należy więc: wyznaczyć wartość X² dla danego pomiaru (serii pomiarowej), określić liczbę stopni swobody, przyjąć określoną wartość poziomu ufności, porównać uzyskaną wartość z wartością odpowiadającą danemu poziomowi ufności przy danej liczbie stopni swobody i jeśli - hipotezę odrzucić, w przeciwnym przypadku - przyjąć.

Jak określać wartość poziomu ufności? Decyzja należy tu do wykonującego test. Jeśli obawiamy się przyjęcia hipotezy fałszywej, przyjmujemy stosunkowo dużą wartość poziomu ufności np. 10% tj. 0.1. Wtedy jednak w 10% przypadków możemy odrzucić hipotezę prawdziwą. Jeśli tego nie chcemy, przyjmujemy mały poziom ufności np. 1%, ale wtedy wzrasta prawdopodobieństwo, że za prawdziwą uznamy hipotezę, która jest fałszywa. W praktyce, w publikacjach naukowych jako rezultat testu podaje się często wartości X²oraz liczbę stopni swobody pozostawiając czytelnikowi osąd, czy dana hipoteza może być uznana za prawdziwą.

Test w praktyce

Dla przedstawienia poszczególnych elementów testu rozważmy przykład pomiaru pewnej wielkości y dla N wartości x. Przyjmijmy, że zależność teoretyczna y=f(x) jest liniowa tj.

(1.5.8)

gdzie A i B są parametrami prostej. Zapiszmy poszczególne elementy wykonania testu

1. Wykonujemy N pomiarów wielkości y dla wybranych wartości zmiennej x, otrzymując wartości i niepewności pomiarowe . Przykład z laboratorium fizycznego: x - indukcja pola magnetycznego, y - napięcie Halla, którego zależność od indukcji pola magnetycznego jest badana w ćwiczeniu.

2. Wyznaczamy wartości teoretyczne . Wartości te mogą wynikać w pełni z przewidywań teoretycznych lub wyznaczane są na podstawie porównania z wynikami pomiarów.

3. Wyznaczamy wartość wyrażenia

(1.5.9)

4. Określamy liczbę stopni swobody. Liczba ta wynosi N_FD=N-k, gdzie k=0, jeśli parametry A i B wynikały z przewidywań teoretycznych niezależnie od wykonanych przez nas pomiarów; k=2, jeśli parametry te zostały określone tak, by prosta najlepiej opisywała dane pomiarowe.

5. Przyjmujemy określoną wartość poziomu ufności i wyznaczamy odpowiadającą tej wartości - wartość .

6. Porównujemy wartości X² i , po czym uznajemy hipotezę za słuszną jeżeli .

Załączona poniżej interaktywna ilustracja graficzna zawiera konkretny przykład testu dla zadanej zależności liniowej

MS-Excel	Interaktywna ilustracja graficzna	MS-Excel
Kliknij w polu rysunku, by otworzyć aplikację. Wciśnij przy tym "Shift", by ściągnąć ją na swój komputer.

Rys.1.5.2. Przykład testu .

Test dla rozkładów statystycznych

Badamy rozkład statystyczny danej wielkości fizycznej. Jako przykład weźmy rozkład liczby zliczeń rejestrowanych przez detektor promieniowania jonizującego w jednostce czasu przy badaniu statystycznych cech rozpadów jądrowych. Rozkład taki unormowany jest do liczby n stanowiącej sumaryczną liczbę wszystkich pomiarów tj. gdzie i numeruje wszystkie możliwe do uzyskania wartości pomiarowe (liczby zliczeń w jednostce czasu), a n_i określa ile razy dana wartość (określona liczba zliczeń w jednostce czasu) wystąpiła w pomiarach. Jeśli uzyskiwane wartości mają rozkład ciągły (np. rozkład energii fotonów rejestrowanych w detektorze), to możemy je pogrupować w zadanych przedziałach badanej wielkości fizycznej i wówczas n_i jest liczbą wyników pomiarów, których wartości znalazły się w danym przedziale (np. w przedziale energii fotonów). Rozkład taki nosi nazwę histogramu.

Rozkład teoretyczny jest przewidywanym przez daną hipotezę teoretyczną rozkładem prawdopodobieństw p_i odpowiadających wyznaczonym doświadczalnie liczbom n_i. Rozkład taki jest unormowany do jedności, tj. suma prawdopodobieństw wszystkich możliwych do uzyskania wartości (lub w przypadku rozkładów ciągłych, całka z gęstości prawdopodobieństwa po całym przedziale mierzonych wartości) równa jest jedności. (W przypadku badania statystycznych cech rozpadów jądrowych jest to rozkład Poissona lub Gaussa.)

Dla porównania rozkładu teoretycznego z doświadczalnym mnożymy wartości p_i przez sumaryczną liczbę pomiarów n by zapewnić wspólne unormowanie obu rozkładów. Wartości odpowiadają wyznaczonym doświadczalnie wartościom n_i . Liczby , będące wynikami pomiarów, są oczywiście zmiennymi losowymi, oczekujemy natomiast, że przy słuszności hipotezy teoretycznej, ich wartości oczekiwane równe są .

Jaka jest niepewność wartości n_itj. liczby zliczeń dla wartości zmiennej dyskretnej równej i lub w przypadku zmiennej ciągłej, w i-tym przedziale? Gdyby liczba przedziałów wynosiła dwa i wynik każdego z pomiarów trafiałby do jednego z nich, to liczba zliczeń w danym przedziale podlegałaby rozkładowi dwumianowemu, gdyby liczba przedziałów była większa ale skończona - rozkładowi wielomianowemu, gdyby zdążała do nieskończoności - rozkładowi Poissona, jeśli zaś wartości n_i byłyby wystarczająco duże - rozkładowi Gaussa. Zakładając słuszność testowanej hipotezy i "poissonowski" charakter rozkładu n_i możemy przyjąć, że niepewności pomiarowe n_ipodlegają rozkładowi Poissona o wartości oczekiwanej równej , a więc wariancji , co wynika z własności rozkładu Poissona, wzór (5.2.7). Jest to niepewność statystyczna liczby zliczeń w danym przedziale.

W ten sposób mamy zdefiniowane wszystkie wartości niezbędne do wykonania testu: wartości pomiarowe , to wyznaczone doświadczalnie liczby n_i, wartości teoretyczne , to odpowiadające im wartości , niepewności pomiarowe wynoszą . Statystyka X² określona jest więc wzorem

(1.5.10)

gdzie N jest liczbą przedziałów dla których wyznaczone zostały liczby zliczeń n_i i określone prawdopodobieństwa p_i.

Liczba stopni swobody w takim przypadku musi być pomniejszona o jeden, bowiem narzucony został warunek unormowania obu rozkładów poprzez pomnożenie prawdopodobieństw p_i przez n. Jeśli więc rozkład teoretyczny określony jest przez k parametrów wyznaczonych przez dopasowanie do rozkładu doświadczalnego to liczna stopni swobody jest równa

(1.5.11)

Jeśli z kolei liczby zliczeń w poszczególnych przedziałach są małe, to dla tych przedziałów nie jest spełnione podstawowe założenie testu, że niepewności pomiarowe można opisać rozkładem Gaussa. Grupując wyniki pomiarów w przedziały należy więc tak dobrać ich szerokość, by częstości w każdym przedziale były wystarczająco duże. Zwykle jako minimalną liczbę punktów pomiarowych w danym przedziale przyjmuje się liczbę 5. Dla spełnienia tego warunku można wybrać przedziały o różnych szerokościach, w szczególności tam, gdzie liczby zliczeń są zwykle niewielkie, tj, na krańcach rozkładów.

Z drugiej strony, nie jest wskazane wybieranie zbyt szerokich przedziałów, bo wówczas istnieje groźba zgubienia w nich struktury badanego rozkładu. Dobór szerokości przedziału wymaga więc wzięcia pod uwagę zarówno własności statystycznych jak i fizycznych testowanych rozkładów.

Przykład testu dla rozkładu statystycznego zawiera poniższa interaktywna ilustracja graficzna.

MS-Excel	Interaktywna ilustracja graficzna	MS-Excel
Kliknij w polu rysunku, by otworzyć aplikację. Wciśnij przy tym "Shift", by ściągnąć ją na swój komputer.

Rys.1.5.2. Przykład testu dla rozkładu Gaussa.