Datawetenskap - Regressietabel: P-waarde


Die "Statistiek van die Koëffisiënte Deel" in regressie tabel

Regressie Tabel - Statistiek van koëffisiënte

Nou wil ons toets of die koëffisiënte van die lineêre regressiefunksie 'n beduidende impak op die afhanklike veranderlike (Calorie_Burnage) het.

Dit beteken dat ons wil bewys dat dit 'n verband tussen Average_Pulse en Calorie_Burnage bestaan, met behulp van statistiese toetse.

Daar is vier komponente wat die statistieke van die koëffisiënte verduidelik:

  • std err staan ​​vir Standaardfout
  • t is die "t-waarde" van die koëffisiënte
  • P>|t| word die "P-waarde" genoem
  •  [0.025 0.975] verteenwoordig die vertrouensinterval van die koëffisiënte

Ons sal fokus op die begrip van die "P-waarde" in hierdie module.


Die P-waarde

Die P-waarde is 'n statistiese getal om af te lei as daar 'n verband tussen Gemiddeld_Pulse en Kalorie_Verbranding is.

Ons toets of die ware waarde van die koëffisiënt gelyk is aan nul (geen verwantskap). Die statistiese toets hiervoor word Hipotesetoetsing genoem.

  • 'n Lae P-waarde (< 0.05) beteken dat die koëffisiënt waarskynlik nie gelyk is aan nul nie.
  • 'n Hoë P-waarde (> 0.05) beteken dat ons nie kan aflei dat die verklarende veranderlike die afhanklike veranderlike affekteer nie (hier: as Average_Pulse Calorie_Burnage beïnvloed).
  • 'n Hoë P-waarde word ook 'n onbeduidende P-waarde genoem.

Hipotese toetsing

Hipotesetoetsing is 'n statistiese prosedure om te toets of jou resultate geldig is.

In ons voorbeeld toets ons of die ware koëffisiënt van Average_Pulse en die snysnit gelyk is aan nul.

Hipotesetoets het twee stellings. Die nulhipotese en die alternatiewe hipotese.

  • Die nulhipotese kan kortliks as H0 geskryf word
  • Die alternatiewe hipotese kan kortliks as HA geskryf word

Wiskundig geskryf:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Die teken ≠ beteken "nie gelyk aan nie"


Hipotesetoetsing en P-waarde

Die nulhipotese kan óf verwerp word óf nie.

As ons die nulhipotese verwerp, kom ons tot die gevolgtrekking dat dit 'n verband bestaan ​​tussen Gemiddeld_Pulse en Kalorie_Verbranding. Die P-waarde word vir hierdie gevolgtrekking gebruik.

'n Algemene drempel van die P-waarde is 0,05.

Let wel: 'n P-waarde van 0.05 beteken dat ons 5% van die kere die nulhipotese valslik sal verwerp. Dit beteken dat ons aanvaar dat ons 5% van die kere moontlik 'n verhouding valslik gesluit het.

As die P-waarde laer as 0.05 is, kan ons die nulhipotese verwerp en tot die gevolgtrekking kom dat dit 'n verband tussen die veranderlikes bestaan.

Die P-waarde van Average_Pulse is egter 0,824. Dus, ons kan nie 'n verhouding tussen Gemiddeld_Pulse en Kalorie_Verbranding afsluit nie.

Dit beteken dat daar 'n 82.4% kans is dat die ware koëffisiënt van Average_Pulse nul is.

Die afsnit word gebruik om die regressiefunksie se vermoë om meer presies te voorspel aan te pas. Dit is dus ongewoon om die P-waarde van die afsnit te interpreteer.