Datawetenskap - Statistiekafwyking
Variansie
Variansie is nog 'n getal wat aandui hoe verspreid die waardes is.
Trouens, as jy die vierkantswortel van die afwyking neem, kry jy die standaardafwyking. Of andersom, as jy die standaardafwyking met homself vermenigvuldig, kry jy die afwyking!
Ons sal eers die datastel met 10 waarnemings gebruik om 'n voorbeeld te gee van hoe ons die variansie kan bereken:
Duur | Gemiddeld_Pulse | Max_Pulse | Kalorie_verbranding | Ure_Werk | Ure_Slaap |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Variansie word dikwels voorgestel deur die simbool Sigma Square: σ^2
Stap 1 om die variansie te bereken: Vind die gemiddelde
Ons wil die variansie van Average_Pulse vind.
1. Vind die gemiddelde:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Die gemiddelde is 102,5
Stap 2: Vir elke waarde - Vind die verskil van die gemiddelde
2. Vind die verskil van die gemiddelde vir elke waarde:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Stap 3: Vir elke verskil - Vind die vierkantige waarde
3. Vind die vierkantwaarde vir elke verskil:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Let wel: Ons moet die waardes vierkantig maak om die totale verspreiding te kry.
Stap 4: Die variansie is die gemiddelde aantal van hierdie kwadraatwaardes
4. Som die kwadraatwaardes op en vind die gemiddelde:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Die afwyking is 206.25.
Gebruik Python om die variansie van gesondheidsdata te vind
Ons kan die var()
funksie van Numpy gebruik om die variansie te vind (onthou dat ons nou die eerste datastel met 10 waarnemings gebruik):
Voorbeeld
import numpy as np
var = np.var(health_data)
print(var)
Die uitset:
Gebruik Python om die variansie van volledige datastel te vind
Hier bereken ons die variansie vir elke kolom vir die volledige datastel:
Voorbeeld
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Die uitset: