Datawetenskap - Statistiek Standaardafwyking
Standaard afwyking
Standaardafwyking is 'n getal wat beskryf hoe verspreid die waarnemings is.
'n Wiskundige funksie sal probleme ondervind om presiese waardes te voorspel as die waarnemings "verspreid" is. Standaardafwyking is 'n maatstaf van onsekerheid.
’n Lae standaardafwyking beteken dat die meeste van die getalle naby die gemiddelde (gemiddelde) waarde is.
'n Hoë standaardafwyking beteken dat die waardes oor 'n wyer reeks versprei is.
Standaardafwyking word dikwels voorgestel deur die simbool Sigma: σ
Ons kan die std()
funksie van Numpy gebruik om die standaardafwyking van 'n veranderlike te vind:
Voorbeeld
import numpy as np
std = np.std(full_health_data)
print(std)
Die uitset:
Wat beteken hierdie getalle?
Koeffisient van variasie
Die variasiekoëffisiënt word gebruik om 'n idee te kry van hoe groot die standaardafwyking is.
Wiskundig word die variasiekoëffisiënt gedefinieer as:
Coefficient of Variation = Standard Deviation / Mean
Ons kan dit in Python doen as ons voortgaan met die volgende kode:
Voorbeeld
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Die uitset:
Ons sien dat die veranderlikes Duur, Kalorie_Verbranding en Ure_Werk 'n hoë standaardafwyking het in vergelyking met Max_Pulse, Average_Pulse en Hours_Sleep.