Normalizacja jest przydatna gdy Twoje dane mają różne skale, a algorytm, którego używasz, nie przyjmuje założeń dotyczących dystrybucji danych, takich jak k-najbliżsi sąsiedzi i sztuczna sieć neuronowa sieci. Standaryzacja zakłada, że dane mają rozkład Gaussa (krzywa dzwonowa).
Kiedy powinniśmy znormalizować dane?
Dane powinny być znormalizowane lub ustandaryzowane aby zapewnić proporcjonalność wszystkich zmiennych. Na przykład, jeśli jedna zmienna jest 100 razy większa od innej (średnio), wówczas model może działać lepiej, jeśli znormalizujesz/ustandaryzujesz dwie zmienne tak, aby były w przybliżeniu równoważne.
Jaka jest różnica między normalizacją a standaryzacją?
Normalizacja zazwyczaj oznacza przeskalowanie wartości do zakresu [0, 1]. Standaryzacja zazwyczaj oznacza przeskalowanie danych tak, aby miały średnią 0 i odchylenie standardowe 1 (wariancja jednostki).
Kiedy i dlaczego potrzebujemy normalizacji danych?
Mówiąc prościej, normalizacja zapewnia, że wszystkie Twoje dane wyglądają i są odczytywane w ten sam sposób we wszystkich rekordach. Normalizacja ujednolici pola, w tym nazwy firm, nazwy kontaktów, adresy URL, informacje adresowe (ulice, stany i miasta), numery telefonów i stanowiska.
Jak wybrać normalizację i standaryzację?
W świecie biznesu „normalizacja” zazwyczaj oznacza, że zakres wartości jest„znormalizowane do wartości od 0,0 do 1,0”. „Standaryzacja” zazwyczaj oznacza, że zakres wartości jest „standaryzowany”, aby zmierzyć, ile odchyleń standardowych wynosi wartość od jej średniej.