Datawetenskap - Statistiekafwyking


Variansie

Variansie is nog 'n getal wat aandui hoe verspreid die waardes is.

Trouens, as jy die vierkantswortel van die afwyking neem, kry jy die standaardafwyking. Of andersom, as jy die standaardafwyking met homself vermenigvuldig, kry jy die afwyking!

Ons sal eers die datastel met 10 waarnemings gebruik om 'n voorbeeld te gee van hoe ons die variansie kan bereken:

Duur Gemiddeld_Pulse Max_Pulse Kalorie_verbranding Ure_Werk Ure_Slaap
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Variansie word dikwels voorgestel deur die simbool Sigma Square: σ^2


Stap 1 om die variansie te bereken: Vind die gemiddelde

Ons wil die variansie van Average_Pulse vind.

1. Vind die gemiddelde:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Die gemiddelde is 102,5


Stap 2: Vir elke waarde - Vind die verskil van die gemiddelde

2. Vind die verskil van die gemiddelde vir elke waarde:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Stap 3: Vir elke verskil - Vind die vierkantige waarde

3. Vind die vierkantwaarde vir elke verskil:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Let wel: Ons moet die waardes vierkantig maak om die totale verspreiding te kry.



Stap 4: Die variansie is die gemiddelde aantal van hierdie kwadraatwaardes

4. Som die kwadraatwaardes op en vind die gemiddelde:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Die afwyking is 206.25.


Gebruik Python om die variansie van gesondheidsdata te vind

Ons kan die var()funksie van Numpy gebruik om die variansie te vind (onthou dat ons nou die eerste datastel met 10 waarnemings gebruik):

Voorbeeld

import numpy as np

var = np.var(health_data)
print(var)

Die uitset:

Variansie

Gebruik Python om die variansie van volledige datastel te vind

Hier bereken ons die variansie vir elke kolom vir die volledige datastel:

Voorbeeld

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Die uitset:

Variansie