Pandas - Data Korrelasies
Soek verhoudings
'n Groot aspek van die Pandas-module is die corr()
metode.
Die corr()
metode bereken die verhouding tussen elke kolom in jou datastel.
Die voorbeelde op hierdie bladsy gebruik 'n CSV-lêer genaamd: 'data.csv'.
Laai data.csv af . of Maak data.csv oop
Voorbeeld
Toon die verwantskap tussen die kolomme:
df.corr()
Resultaat
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Let wel:
Die corr()
metode ignoreer "nie numeriese" kolomme.
Resultaat verduidelik
Die resultaat van die corr()
metode is 'n tabel met baie getalle wat voorstel hoe goed die verhouding tussen twee kolomme is.
Die getal wissel van -1 tot 1.
1 beteken dat daar 'n 1 tot 1-verwantskap is ('n perfekte korrelasie), en vir hierdie datastel, elke keer as 'n waarde in die eerste kolom opgegaan het, het die ander een ook opgegaan.
0.9 is ook 'n goeie verhouding, en as jy een waarde verhoog, sal die ander waarskynlik ook toeneem.
-0.9 sal net so goeie verhouding soos 0.9 wees, maar as jy een waarde verhoog, sal die ander waarskynlik daal.
0.2 beteken NIE 'n goeie verhouding nie, wat beteken dat as een waarde styg, beteken dit nie dat die ander een sal nie.
Wat is 'n goeie korrelasie?
Dit hang af van die gebruik, maar ek dink dit is veilig om te sê jy moet ten minste 0.6
(of -0.6
) hê om dit 'n goeie korrelasie te noem.
Perfekte korrelasie:
Ons kan sien dat "Duration" en "Duration" die nommer gekry het 1.000000
, wat sin maak, elke kolom het altyd 'n perfekte verhouding met homself.
Goeie korrelasie:
"Duration" en "Calories" het 'n 0.922721
korrelasie, wat 'n baie goeie korrelasie is, en ons kan voorspel dat hoe langer jy oefen, hoe meer kalorieë verbrand jy, en andersom: as jy baie kalorieë verbrand het, jy het waarskynlik 'n lang oefensessie gehad.
Slegte korrelasie:
"Duration" en "Maxpulse" het 'n 0.009403
korrelasie, wat 'n baie slegte korrelasie is, wat beteken dat ons nie die maksimum pols kan voorspel deur net na die duur van die oefensessie te kyk nie, en omgekeerd.
Word gesertifiseer!
R10 INSKRYF