Datawetenskap - Statistiek-korrelasie


Korrelasie

Korrelasie meet die verwantskap tussen twee veranderlikes.

Ons het genoem dat 'n funksie 'n doel het om 'n waarde te voorspel deur inset (x) om te skakel na uitset (f(x)). Ons kan ook sê dat 'n funksie die verwantskap tussen twee veranderlikes vir voorspelling gebruik.


Korrelasie koëffisiënt

Die korrelasiekoëffisiënt meet die verband tussen twee veranderlikes.

Die korrelasiekoëffisiënt kan nooit minder as -1 of hoër as 1 wees nie.

  • 1 = daar is 'n perfekte lineêre verband tussen die veranderlikes (soos Average_Pulse teenoor Calorie_Burnage)
  • 0 = daar is geen lineêre verband tussen die veranderlikes nie
  • -1 = daar is 'n perfekte negatiewe lineêre verband tussen die veranderlikes (bv. Minder ure gewerk, lei tot hoër kalorieverbranding tydens 'n oefensessie)

Voorbeeld van 'n perfekte lineêre verhouding (korrelasiekoëffisiënt = 1)

Ons sal spreidingsdiagram gebruik om die verwantskap tussen Gemiddeld_Pulse en Kalorie_Verbranding te visualiseer (ons het die klein datastel van die sporthorlosie met 10 waarnemings gebruik).

Hierdie keer wil ons verstrooiingsdiagramme hê, so ons verander soort na "verstrooiing":

Voorbeeld

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Uitset:

Korrelasiekoëffisiënt = 1

Soos ons vroeër gesien het, bestaan ​​dit 'n perfekte lineêre verhouding tussen Average_Pulse en Calorie_Burnage.



Voorbeeld van 'n perfekte negatiewe lineêre verhouding (korrelasiekoëffisiënt = -1)

Korrelasiekoëffisiënt = -1

Ons het fiktiewe data hier geplot. Die x-as verteenwoordig die hoeveelheid ure wat by ons werk gewerk is voor 'n opleidingsessie. Die y-as is Calorie_Burnage.

As ons langer ure werk, is ons geneig om laer kalorieverbranding te hê omdat ons uitgeput is voor die oefensessie.

Die korrelasiekoëffisiënt hier is -1.

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Voorbeeld van geen lineêre verwantskap (korrelasiekoëffisiënt = 0)

Korrelasiekoëffisiënt = 0

Hier het ons Max_Pulse teen Duration uit die full_health_datastel geplot.

Soos jy kan sien, is daar geen lineêre verband tussen die twee veranderlikes nie. Dit beteken dat langer oefensessie nie tot hoër Max_Pulse lei nie.

Die korrelasiekoëffisiënt hier is 0.

Voorbeeld

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()