Normalizáljuk az adatokat a fürtözés előtt?

Normalizáljuk az adatokat a fürtözés előtt?
Normalizáljuk az adatokat a fürtözés előtt?
Anonim

A normalizálás a redundáns adatok kiküszöbölésére szolgál, és biztosítja, hogy jó minőségű klaszterek jöjjenek létre, amelyek javíthatják a klaszterezési algoritmusok hatékonyságát. Így ez elengedhetetlen lépés lesz az euklideszi távolságként történő klaszterezés előtt. nagyon érzékeny a különbségek változásaira[3].

Normalizálnunk kell az adatokat a K-közép klaszterezéshez?

A k-NN módszerhez hasonlóan a klaszterezéshez használt jellemzőket összehasonlítható egységekben kell mérni. Ebben az esetben az egységek nem jelentenek problémát, mivel mind a 6 jellemzőt egy 5 fokú skálán fejezik ki. Normalizálás vagy szabványosítás nem szükséges.

Hogyan készíti elő az adatokat a fürtözés előtt?

Adatok előkészítése

A klaszteranalízis elvégzéséhez R-ben általában az adatokat a következőképpen kell elkészíteni: A sorok megfigyelések (egyedek), az oszlopok pedig változók. Az adatokból hiányzó értékeket el kell távolítani vagy meg kell becsülni. Az adatokat szabványosítani kell (azaz méretezni kell), hogy a változók összehasonlíthatóak legyenek.

Átméretezni kell az adatokat a fürtözéshez?

A klaszterezés során a két példa közötti hasonlóságot úgy számítja ki, hogy összevonja az összes jellemző adatot ezekhez a példákhoz egy numerikus értékké. A jellemzőadatok kombinálásához az adatoknak azonos léptékűnek kell lenniük.

Miért fontos a funkciókat a klaszterezés előtt normalizálni?

A szabványosítás a Data egyik fontos lépéseelőfeldolgozás.

Amint ebben a cikkben kifejtjük, a k-közép a Newton-algoritmus, azaz egy gradiens alapú optimalizálási algoritmus használatával minimalizálja a hibafüggvényt. Az adatok normalizálása javítja az ilyen algoritmusok konvergenciáját.

Ajánlott: