Datawetenskap - Regressietabel: R-kwadraat


R - Vierkantig

R-kwadraat en aangepaste R-kwadraat beskryf hoe goed die lineêre regressiemodel by die datapunte pas:

Regressie Tabel - Statistiek van koëffisiënte

Die waarde van R-kwadraat is altyd tussen 0 tot 1 (0% tot 100%).

  • 'n Hoë R-kwadraatwaarde beteken dat baie datapunte naby die lineêre regressiefunksielyn is.
  • 'n Lae R-kwadraatwaarde beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.

Visuele voorbeeld van 'n lae R - kwadraatwaarde (0.00)

Ons regressiemodel toon 'n R-kwadraatwaarde van nul, wat beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.

Dit kan gevisualiseer word wanneer ons die lineêre regressiefunksie plot deur die datapunte van Average_Pulse en Calorie_Burnage.

Lae R - kwadraatwaarde (0.00)

Visuele voorbeeld van 'n hoë R - kwadraatwaarde (0,79)

As ons egter Duration en Calorie_Burnage plot , neem die R-kwadraat toe. Hier sien ons dat die datapunte naby die lineêre regressiefunksielyn is:

Lae R - kwadraatwaarde (0.00)

Hier is die kode in Python:

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Opsomming - Voorspel kalorie_verbranding met gemiddelde_puls

Hoe kan ons die lineêre regressiefunksie opsom met Average_Pulse as verklarende veranderlike?

  • Koëffisiënt van 0,3296, wat beteken dat Average_Pulse 'n baie klein effek op Calorie_Burnage het.
  • Hoë P-waarde (0.824), wat beteken dat ons nie 'n verband tussen Gemiddeld_Pulse en Kalorie_Verbranding kan aflei nie.
  • R-kwadraatwaarde van 0, wat beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.