Mikor kell normalizálni vagy szabványosítani az adatokat?

Mikor kell normalizálni vagy szabványosítani az adatokat?
Mikor kell normalizálni vagy szabványosítani az adatokat?
Anonim

A normalizálás hasznos, ha az adatok változó léptékűek, és az Ön által használt algoritmus nem tesz feltételezéseket az adatok eloszlását illetően, mint például a k-közelebbi szomszédok és a mesterséges neurális hálózatok. A szabványosítás feltételezi, hogy az adatok Gauss (haranggörbe) eloszlásúak.

Mikor normalizáljuk az adatokat?

Az adatokat normalizálni vagy szabványosítani kell hogy az összes változó arányba kerüljön egymással. Például, ha az egyik változó 100-szor nagyobb, mint a másik (átlagosan), akkor a modellje jobban viselkedhet, ha a két változót körülbelül egyenértékűre normalizálja/standardizálja.

Mi a különbség a normalizálás és a szabványosítás között?

A normalizálás általában azt jelenti, hogy az értékeket [0, 1] tartományba skálázza át. A szabványosítás általában azt jelenti, hogy átskálázza az adatokat, hogy a átlaga 0 legyen, a szórása pedig 1 (egységvariancia).

Mikor és miért van szükség az adatok normalizálására?

Egyszerűbben fogalmazva, a normalizálás biztosítja, hogy minden adata ugyanúgy nézzen ki és olvasható legyen az összes rekordban. A normalizálás szabványosítani fogja a mezőket, beleértve a cégek nevét, a kapcsolattartók nevét, az URL-eket, a címadatokat (utcák, államok és városok), telefonszámokat és beosztásokat.

Hogyan választja ki a normalizálást és a szabványosítást?

Az üzleti világban a „normalizálás” általában azt jelenti, hogy az értékek tartománya"0.0 -ról 1.0-ra normalizálva". A "szabványosítás" általában azt jelenti, hogy az értékek tartománya "szabványosított" annak mérésére, hogy az érték hány szórása van az átlagától.

Ajánlott: