Pandas - Data Korrelasies


Soek verhoudings

'n Groot aspek van die Pandas-module is die corr()metode.

Die corr()metode bereken die verhouding tussen elke kolom in jou datastel.

Die voorbeelde op hierdie bladsy gebruik 'n CSV-lêer genaamd: 'data.csv'.

Laai data.csv af . of Maak data.csv oop

Voorbeeld

Toon die verwantskap tussen die kolomme:

df.corr()

Resultaat

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Let wel: Die corr()metode ignoreer "nie numeriese" kolomme.

Resultaat verduidelik

Die resultaat van die corr()metode is 'n tabel met baie getalle wat voorstel hoe goed die verhouding tussen twee kolomme is.

Die getal wissel van -1 tot 1.

1 beteken dat daar 'n 1 tot 1-verwantskap is ('n perfekte korrelasie), en vir hierdie datastel, elke keer as 'n waarde in die eerste kolom opgegaan het, het die ander een ook opgegaan.

0.9 is ook 'n goeie verhouding, en as jy een waarde verhoog, sal die ander waarskynlik ook toeneem.

-0.9 sal net so goeie verhouding soos 0.9 wees, maar as jy een waarde verhoog, sal die ander waarskynlik daal.

0.2 beteken NIE 'n goeie verhouding nie, wat beteken dat as een waarde styg, beteken dit nie dat die ander een sal nie.

Wat is 'n goeie korrelasie? Dit hang af van die gebruik, maar ek dink dit is veilig om te sê jy moet ten minste 0.6(of -0.6) hê om dit 'n goeie korrelasie te noem.

Perfekte korrelasie:

Ons kan sien dat "Duration" en "Duration" die nommer gekry het 1.000000, wat sin maak, elke kolom het altyd 'n perfekte verhouding met homself.

Goeie korrelasie:

"Duration" en "Calories" het 'n 0.922721korrelasie, wat 'n baie goeie korrelasie is, en ons kan voorspel dat hoe langer jy oefen, hoe meer kalorieë verbrand jy, en andersom: as jy baie kalorieë verbrand het, jy het waarskynlik 'n lang oefensessie gehad.

Slegte korrelasie:

"Duration" en "Maxpulse" het 'n 0.009403korrelasie, wat 'n baie slegte korrelasie is, wat beteken dat ons nie die maksimum pols kan voorspel deur net na die duur van die oefensessie te kyk nie, en omgekeerd.


Toets jouself met oefeninge

Oefening:

Voeg 'n korrekte sintaksis in om verwantskappe tussen kolomme in 'n DataFrame te vind.

df.()


w3schools CERTIFIED . 2021

Word gesertifiseer!

Voltooi die Pandas-modules, doen die oefeninge, neem die eksamen, en jy sal w3schools-gesertifiseer word!

R10 INSKRYF