Normalizacja jest używana do eliminacji nadmiarowych danych i zapewnia generowanie klastrów dobrej jakości, co może poprawić wydajność algorytmów klastrowania. Staje się więc niezbędnym krokiem przed klastrowaniem jako odległość euklidesowa jest bardzo wrażliwy na zmiany w różnicach[3].
Czy musimy znormalizować dane dla grupowania K-średnich?
Podobnie jak w metodzie k-NN, cechy wykorzystywane do grupowania muszą być mierzone w porównywalnych jednostkach. W tym przypadku jednostki nie stanowią problemu, ponieważ wszystkie 6 cech jest wyrażonych na 5-stopniowej skali. Normalizacja lub standaryzacja nie jest konieczna.
Jak przygotować dane przed klastrowaniem?
Przygotowanie danych
Aby przeprowadzić analizę skupień w języku R, dane należy przygotować w następujący sposób: Wiersze są obserwacjami (osobami), a kolumny są zmiennymi. Wszelkie brakujące wartości w danych należy usunąć lub oszacować. Dane muszą być ustandaryzowane (tj. przeskalowane), aby zmienne były porównywalne.
Czy dane powinny być skalowane w celu grupowania?
W grupowaniu obliczasz podobieństwo między dwoma przykładami, łącząc wszystkie dane funkcji dla tych przykładów w wartość liczbową. Łączenie danych elementów wymaga, aby dane miały tę samą skalę.
Dlaczego ważne jest znormalizowanie funkcji przed grupowaniem?
Standaryzacja jest ważnym krokiem w zakresie danychpreprocessing.
Jak wyjaśniono w niniejszym artykule, k-średnie minimalizuje funkcję błędu przy użyciu algorytmu Newtona, tj. algorytmu optymalizacji opartego na gradiencie. Normalizacja danych poprawia zbieżność takich algorytmów.