Laboratorium Statystycznej Eksploracji Danych
ZADANIA
ZADANIE 0
Sprawdzić, czy w szczególnym przypadku dyskryminacji Fisherowskiej da się rozdzielić rzuty klas na optymalny kierunek \(\mathbf{a}\) jeśli obserwacje spełniają następujące cechy:ZADANIE 1
Korzystając ze wzoru na prawdopodobieństwo a posteriori w przypadku naiwnego klasyfikatora Bayesa \(p(1|\mathbf{x}) \propto \pi_1 p(\mathbf{x}|1)\ = \pi_1 p(x | 1) p(y | 1)\) przy założeniu, że gęstość prawdopodobieństwa w poszczególnych klasach jest opisywana rozkładem Gaussa, wykazać równoważność pomiędzy tym podejściem a rezultatami otrzymanymi za pomocą funkcji drawparti() w przypadku obserwacji spełniających następujące cechy:ZADANIE 2
Klasyfikacja zbioru win :-) Dane znajduja się pod adresem, natomiast opis do nich jest tu. Należy:ZADANIE 3
Dla danych z Laboratorium 4 (\(\mathbf{S}_1\), \(\mathbf{S}_2\), \(\mathbf{m}_1\), \(\mathbf{m}_2\), \(n_1\), \(n_2\)) wykreślić skuteczność klasyfikatora \(k_{nn}\) w funkcji liczby najbliśzych sąsiadów od \(k_{nn}=1\) do \(k_{nn}=21\). Wykonac to samo dla wartości TP i TN. Następnie wylosować dodatkowo 10 punktów z klasy 1 oraz 5 punktów z klasy 2, potraktować jako zbiór tetsowy i powtórzyć wykresy. W razie możliwości doknac uśrednienia po 10 losowaniach.ZADANIE 4
Należy wykorzystac zbiór danych dotyczący win (Zad 2) do przetestowania algorytmu kosztu-złożoności. W szczególności należy:ZADANIE 5
Należy zmodyfikowac funkcję bagging.own() z przykładu tak, aby zamiast drzew decyzyjnych wykorzystać klasyfikator LDA. Następnie wykorzystać pierwotną i zmodyfikowaną funkcję do zbioru iris (podzielić zbiór PU - 80%, PT - 20%) i sprawdzić liczbę błędnych klasyfikacji dla \(M=1,2,5,10,20,50\) klasyfikatorów.ZADANIE 6
Sprawdzić sprawność metody SVM (liniowej) dla danych wykorzystywanych w części dotyczącej braku separowalności dla różnych wartości \(C\). Porównać wyniki z metodą LDA.ZADANIE 7
animals <- cluster::animals colnames(animals) <- c("warm-blooded", "can fly", "vertebrate", "endangered", "live in groups", "have hair")
ZADANIE 8
Wykonać analizę PCA dla zbioru win. Wykreślić skumulowane odchylenie standardowe od liczby składowych oraz punkty w nowych zmiennych dla 1 i 2 oraz 2 i 3 składowej.