Dataclusters

  • Klusters is versamelings van soortgelyke data
  • Groepering is 'n tipe leer sonder toesig
  • Die korrelasiekoëffisiënt beskryf die sterkte van 'n verhouding.

Klusters

Klusters is versamelings van data gebaseer op ooreenkoms.

Datapunte wat in 'n grafiek saamgegroepeer is, kan dikwels in groepe geklassifiseer word.

In die grafiek hieronder kan ons 3 verskillende trosse onderskei:


Identifisering van groepe

Groepe kan baie waardevolle inligting bevat, maar trosse kom in allerhande vorms voor, so hoe kan ons hulle herken?

Die twee hoofmetodes is:

  • Gebruik visualisering
  • Gebruik 'n groeperingsalgoritme

Groepering

Groepering is 'n tipe leer sonder toesig .

Groepering probeer om:

  • Versamel soortgelyke data in groepe
  • Versamel verskillende data in ander groepe

Groeperingsmetodes

  • Digtheid metode
  • Hiërargiese Metode
  • Partisiemetode
  • Grid-gebaseerde metode

Die Digtheidsmetode beskou punte in 'n digte gebied as meer ooreenkomste en verskille as punte in 'n laer digte gebied. Die digtheidsmetode het 'n goeie akkuraatheid. Dit het ook die vermoë om trosse saam te voeg.
Twee algemene algoritmes is DBSCAN en OPTICS.

Die hiërargiese metode vorm die trosse in 'n boomtipe struktuur. Nuwe trosse word gevorm deur gebruik te maak van voorheen gevormde trosse.
Twee algemene algoritmes is CURE en BIRCH.

Die roostergebaseerde metode formuleer die data in 'n eindige aantal selle wat 'n roosteragtige struktuur vorm.
Twee algemene algoritmes is CLIQUE en STING

Die partisiemetode partisieer die voorwerpe in k groepe en elke partisie vorm een ​​groepie.
Een algemene algoritme is CLARANS.


Korrelasie koëffisiënt

Die korrelasiekoëffisiënt (r) beskryf die sterkte en rigting van 'n lineêre verwantskap en x/y-veranderlikes op 'n spreidingsdiagram.

Die waarde van r is altyd tussen -1 en +1:

-1.00Perfekte afdraandeNegatiewe lineêre verwantskap.
-0,70Sterk afdraandeNegatiewe lineêre verwantskap.
-0.50Matige afdraandeNegatiewe lineêre verwantskap.
-0.30Swak afdraandeNegatiewe lineêre verwantskap.
0Geen lineêre verwantskap nie.
+0.30Swak opdraandPositiewe lineêre verhouding.
+0,50Matige opdraandPositiewe lineêre verhouding.
+0,70Sterk opdraandPositiewe lineêre verhouding.
+1,00Perfek opdraandPositiewe lineêre verhouding.

Perfekte opdraand +1.00 :

Perfekte afdraande -1.00 :

'

Sterk opdraand +0.61 :

Geen verhouding :