Datawetenskap - Statistiek-korrelasiematriks


Korrelasiematriks

'n Matriks is 'n reeks getalle wat in rye en kolomme gerangskik is.

'n Korrelasiematriks is bloot 'n tabel wat die korrelasiekoëffisiënte tussen veranderlikes toon.

Hier word die veranderlikes in die eerste ry en in die eerste kolom voorgestel:

Korrelasiematriks

Die tabel hierbo het data van die volledige gesondheidsdatastel gebruik.

Waarnemings:

  • Ons neem waar dat Duration en Calorie_Burnage nou verwant is, met 'n korrelasiekoëffisiënt van 0.89. Dit maak sin, want hoe langer ons oefen, hoe meer kalorieë verbrand ons
  • Ons neem waar dat daar byna geen lineêre verwantskappe tussen Gemiddeld_Pulse en Kalorie_Burnage is nie (korrelasiekoëffisiënt van 0.02)
  • Kan ons aflei dat Average_Pulse nie Calorie_Burnage beïnvloed nie? Nee. Ons sal later terugkom om hierdie vraag te beantwoord!

Korrelasiematriks in Python

Ons kan die corr()funksie in Python gebruik om 'n korrelasiematriks te skep. Ons gebruik ook die round()funksie om die uitvoer tot twee desimale af te rond:

Voorbeeld

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Uitset:

Korrelasiematriks

Gebruik 'n hittekaart

Ons kan 'n hittekaart gebruik om die korrelasie tussen veranderlikes te visualiseer:

Korrelasie Hittekaart

Hoe nader die korrelasiekoëffisiënt aan 1 is, hoe groener word die vierkante.

Hoe nader die korrelasiekoëffisiënt aan -1 is, hoe bruiner word die vierkante.


Gebruik Seaborn om 'n hittekaart te skep

Ons kan die Seaborn-biblioteek gebruik om 'n korrelasie-hittekaart te skep (Seaborn is 'n visualiseringsbiblioteek gebaseer op matplotlib):

Voorbeeld

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Voorbeeld verduidelik:

  • Voer die biblioteek seegebore in as sns.
  • Gebruik die volledige_health_data-stel.
  • Gebruik sns.heatmap() om vir Python te vertel dat ons 'n hittekaart wil hê om die korrelasiematriks te visualiseer.
  • Gebruik die korrelasiematriks. Definieer die maksimum en minimale waardes van die hittekaart. Definieer dat 0 die middelpunt is.
  • Definieer die kleure met sns.diverging_palette. n=500 beteken dat ons 500 soorte kleur in dieselfde kleurpalet wil hê.
  • vierkant = Waar beteken dat ons vierkante wil sien.