Datawetenskap - Statistiek Korrelasie vs. Oorsaaklikheid


Korrelasie impliseer nie oorsaaklikheid nie

Korrelasie meet die numeriese verwantskap tussen twee veranderlikes.

'n Hoë korrelasiekoëffisiënt (naby 1) beteken nie dat ons vir seker 'n werklike verband tussen twee veranderlikes kan aflei nie.

'n Klassieke voorbeeld:

  • Gedurende die somer neem die verkope van roomys by 'n strand toe
  • Terselfdertyd neem verdrinkingsongelukke ook toe

Beteken dit dat toename in roomysverkope 'n direkte oorsaak is van verhoogde verdrinkingsongelukke?


Die strandvoorbeeld in Python

Hier het ons 'n fiktiewe datastel saamgestel vir jou om te probeer:

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Uitset:

Korrelasie vs. Oorsaaklikheid

Korrelasie vs Oorsaaklikheid - Die Strand Voorbeeld

Met ander woorde: kan ons roomysverkope gebruik om verdrinkingsongelukke te voorspel?

Die antwoord is - Waarskynlik nie.

Dit is waarskynlik dat hierdie twee veranderlikes per ongeluk met mekaar korreleer.

Wat veroorsaak dan verdrinking?

  • Ongeskoolde swemmers
  • Golwe
  • Kramp
  • Beslagleggingsversteurings
  • Gebrek aan toesig
  • Alkohol (wan)gebruik
  • ens.

Kom ons keer die argument om:

Beteken 'n lae korrelasiekoëffisiënt (naby nul) dat verandering in x nie y beïnvloed nie?

Terug na die vraag:

  • Kan ons tot die gevolgtrekking kom dat Average_Pulse nie Calorie_Burnage beïnvloed nie as gevolg van 'n lae korrelasiekoëffisiënt?

Die antwoord is nee.

Daar is 'n belangrike verskil tussen korrelasie en kousaliteit:

  • Korrelasie is 'n getal wat meet hoe nou die data verwant is
  • Kousaliteit is die gevolgtrekking dat x y veroorsaak.

Dit is dus belangrik om krities oor die konsep van kousaliteit te besin wanneer ons voorspellings doen!