A normalizálás a redundáns adatok kiküszöbölésére szolgál, és biztosítja, hogy jó minőségű klaszterek jöjjenek létre, amelyek javíthatják a klaszterezési algoritmusok hatékonyságát. Így ez elengedhetetlen lépés lesz az euklideszi távolságként történő klaszterezés előtt. nagyon érzékeny a különbségek változásaira[3].
Normalizálnunk kell az adatokat a K-közép klaszterezéshez?
A k-NN módszerhez hasonlóan a klaszterezéshez használt jellemzőket összehasonlítható egységekben kell mérni. Ebben az esetben az egységek nem jelentenek problémát, mivel mind a 6 jellemzőt egy 5 fokú skálán fejezik ki. Normalizálás vagy szabványosítás nem szükséges.
Hogyan készíti elő az adatokat a fürtözés előtt?
Adatok előkészítése
A klaszteranalízis elvégzéséhez R-ben általában az adatokat a következőképpen kell elkészíteni: A sorok megfigyelések (egyedek), az oszlopok pedig változók. Az adatokból hiányzó értékeket el kell távolítani vagy meg kell becsülni. Az adatokat szabványosítani kell (azaz méretezni kell), hogy a változók összehasonlíthatóak legyenek.
Átméretezni kell az adatokat a fürtözéshez?
A klaszterezés során a két példa közötti hasonlóságot úgy számítja ki, hogy összevonja az összes jellemző adatot ezekhez a példákhoz egy numerikus értékké. A jellemzőadatok kombinálásához az adatoknak azonos léptékűnek kell lenniük.
Miért fontos a funkciókat a klaszterezés előtt normalizálni?
A szabványosítás a Data egyik fontos lépéseelőfeldolgozás.
Amint ebben a cikkben kifejtjük, a k-közép a Newton-algoritmus, azaz egy gradiens alapú optimalizálási algoritmus használatával minimalizálja a hibafüggvényt. Az adatok normalizálása javítja az ilyen algoritmusok konvergenciáját.