Czy powinniśmy znormalizować dane przed grupowaniem?

Czy powinniśmy znormalizować dane przed grupowaniem?
Czy powinniśmy znormalizować dane przed grupowaniem?
Anonim

Normalizacja jest używana do eliminacji nadmiarowych danych i zapewnia generowanie klastrów dobrej jakości, co może poprawić wydajność algorytmów klastrowania. Staje się więc niezbędnym krokiem przed klastrowaniem jako odległość euklidesowa jest bardzo wrażliwy na zmiany w różnicach[3].

Czy musimy znormalizować dane dla grupowania K-średnich?

Podobnie jak w metodzie k-NN, cechy wykorzystywane do grupowania muszą być mierzone w porównywalnych jednostkach. W tym przypadku jednostki nie stanowią problemu, ponieważ wszystkie 6 cech jest wyrażonych na 5-stopniowej skali. Normalizacja lub standaryzacja nie jest konieczna.

Jak przygotować dane przed klastrowaniem?

Przygotowanie danych

Aby przeprowadzić analizę skupień w języku R, dane należy przygotować w następujący sposób: Wiersze są obserwacjami (osobami), a kolumny są zmiennymi. Wszelkie brakujące wartości w danych należy usunąć lub oszacować. Dane muszą być ustandaryzowane (tj. przeskalowane), aby zmienne były porównywalne.

Czy dane powinny być skalowane w celu grupowania?

W grupowaniu obliczasz podobieństwo między dwoma przykładami, łącząc wszystkie dane funkcji dla tych przykładów w wartość liczbową. Łączenie danych elementów wymaga, aby dane miały tę samą skalę.

Dlaczego ważne jest znormalizowanie funkcji przed grupowaniem?

Standaryzacja jest ważnym krokiem w zakresie danychpreprocessing.

Jak wyjaśniono w niniejszym artykule, k-średnie minimalizuje funkcję błędu przy użyciu algorytmu Newtona, tj. algorytmu optymalizacji opartego na gradiencie. Normalizacja danych poprawia zbieżność takich algorytmów.