Datawetenskap - Statistiek Standaardafwyking


Standaard afwyking

Standaardafwyking is 'n getal wat beskryf hoe verspreid die waarnemings is.

Standaard afwyking

'n Wiskundige funksie sal probleme ondervind om presiese waardes te voorspel as die waarnemings "verspreid" is. Standaardafwyking is 'n maatstaf van onsekerheid.

’n Lae standaardafwyking beteken dat die meeste van die getalle naby die gemiddelde (gemiddelde) waarde is.

'n Hoë standaardafwyking beteken dat die waardes oor 'n wyer reeks versprei is.

Standaardafwyking word dikwels voorgestel deur die simbool Sigma: σ

Ons kan die std()funksie van Numpy gebruik om die standaardafwyking van 'n veranderlike te vind:

Voorbeeld

import numpy as np

std = np.std(full_health_data)
print(std)

Die uitset:

Standaard afwyking

Wat beteken hierdie getalle?


Koeffisient van variasie

Die variasiekoëffisiënt word gebruik om 'n idee te kry van hoe groot die standaardafwyking is.

Wiskundig word die variasiekoëffisiënt gedefinieer as:

Coefficient of Variation = Standard Deviation / Mean

 Ons kan dit in Python doen as ons voortgaan met die volgende kode:

Voorbeeld

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

Die uitset:

Koeffisient van variasie

Ons sien dat die veranderlikes Duur, Kalorie_Verbranding en Ure_Werk 'n hoë standaardafwyking het in vergelyking met Max_Pulse, Average_Pulse en Hours_Sleep.