Datawetenskap - Statistiek-korrelasiematriks
Korrelasiematriks
'n Matriks is 'n reeks getalle wat in rye en kolomme gerangskik is.
'n Korrelasiematriks is bloot 'n tabel wat die korrelasiekoëffisiënte tussen veranderlikes toon.
Hier word die veranderlikes in die eerste ry en in die eerste kolom voorgestel:
Die tabel hierbo het data van die volledige gesondheidsdatastel gebruik.
Waarnemings:
- Ons neem waar dat Duration en Calorie_Burnage nou verwant is, met 'n korrelasiekoëffisiënt van 0.89. Dit maak sin, want hoe langer ons oefen, hoe meer kalorieë verbrand ons
- Ons neem waar dat daar byna geen lineêre verwantskappe tussen Gemiddeld_Pulse en Kalorie_Burnage is nie (korrelasiekoëffisiënt van 0.02)
- Kan ons aflei dat Average_Pulse nie Calorie_Burnage beïnvloed nie? Nee. Ons sal later terugkom om hierdie vraag te beantwoord!
Korrelasiematriks in Python
Ons kan die corr()
funksie in Python gebruik om 'n korrelasiematriks te skep. Ons gebruik ook die round()
funksie om die uitvoer tot twee desimale af te rond:
Voorbeeld
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Uitset:
Gebruik 'n hittekaart
Ons kan 'n hittekaart gebruik om die korrelasie tussen veranderlikes te visualiseer:
Hoe nader die korrelasiekoëffisiënt aan 1 is, hoe groener word die vierkante.
Hoe nader die korrelasiekoëffisiënt aan -1 is, hoe bruiner word die vierkante.
Gebruik Seaborn om 'n hittekaart te skep
Ons kan die Seaborn-biblioteek gebruik om 'n korrelasie-hittekaart te skep (Seaborn is 'n visualiseringsbiblioteek gebaseer op matplotlib):
Voorbeeld
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health =
full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50,
500, n=500),
square=True
)
plt.show()
Voorbeeld verduidelik:
- Voer die biblioteek seegebore in as sns.
- Gebruik die volledige_health_data-stel.
- Gebruik sns.heatmap() om vir Python te vertel dat ons 'n hittekaart wil hê om die korrelasiematriks te visualiseer.
- Gebruik die korrelasiematriks. Definieer die maksimum en minimale waardes van die hittekaart. Definieer dat 0 die middelpunt is.
- Definieer die kleure met sns.diverging_palette. n=500 beteken dat ons 500 soorte kleur in dieselfde kleurpalet wil hê.
- vierkant = Waar beteken dat ons vierkante wil sien.