Datawetenskap - Statistiekafwyking

Variansie

Variansie is nog 'n getal wat aandui hoe verspreid die waardes is.

Trouens, as jy die vierkantswortel van die afwyking neem, kry jy die standaardafwyking. Of andersom, as jy die standaardafwyking met homself vermenigvuldig, kry jy die afwyking!

Ons sal eers die datastel met 10 waarnemings gebruik om 'n voorbeeld te gee van hoe ons die variansie kan bereken:

Duur	Gemiddeld_Pulse	Max_Pulse	Kalorie_verbranding	Ure_Werk	Ure_Slaap
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Variansie word dikwels voorgestel deur die simbool Sigma Square: σ^2

Stap 1 om die variansie te bereken: Vind die gemiddelde

Ons wil die variansie van Average_Pulse vind.

1. Vind die gemiddelde:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Die gemiddelde is 102,5

Stap 2: Vir elke waarde - Vind die verskil van die gemiddelde

2. Vind die verskil van die gemiddelde vir elke waarde:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Stap 3: Vir elke verskil - Vind die vierkantige waarde

3. Vind die vierkantwaarde vir elke verskil:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Let wel: Ons moet die waardes vierkantig maak om die totale verspreiding te kry.

Stap 4: Die variansie is die gemiddelde aantal van hierdie kwadraatwaardes

4. Som die kwadraatwaardes op en vind die gemiddelde:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Die afwyking is 206.25.

Gebruik Python om die variansie van gesondheidsdata te vind

Ons kan die var()funksie van Numpy gebruik om die variansie te vind (onthou dat ons nou die eerste datastel met 10 waarnemings gebruik):

Voorbeeld

import numpy as np

var = np.var(health_data)
print(var)

Die uitset:

Gebruik Python om die variansie van volledige datastel te vind

Hier bereken ons die variansie vir elke kolom vir die volledige datastel:

Voorbeeld

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Die uitset:

❮ Vorige Volgende ❯

Datawetenskap

DS Wiskunde

DS Statistiek

DS Gevorderd

Datawetenskap - Statistiekafwyking

Variansie

Stap 1 om die variansie te bereken: Vind die gemiddelde

Stap 2: Vir elke waarde - Vind die verskil van die gemiddelde

Stap 3: Vir elke verskil - Vind die vierkantige waarde

Stap 4: Die variansie is die gemiddelde aantal van hierdie kwadraatwaardes

Gebruik Python om die variansie van gesondheidsdata te vind

Voorbeeld

Gebruik Python om die variansie van volledige datastel te vind

Voorbeeld

Duur	Gemiddeld_Pulse	Max_Pulse	Kalorie_verbranding	Ure_Werk	Ure_Slaap
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Duur	Gemiddeld_Pulse	Max_Pulse	Kalorie_verbranding	Ure_Werk	Ure_Slaap
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

Duur	Gemiddeld_Pulse	Max_Pulse	Kalorie_verbranding	Ure_Werk	Ure_Slaap
30	80	120	240	10	7
30	85	120	250	10	7
45	90	130	260	8	7
45	95	130	270	8	7
45	100	140	280	0	7
60	105	140	290	7	8
60	110	145	300	7	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8