Datawetenskap - Regressietabel: R-kwadraat
R - Vierkantig
R-kwadraat en aangepaste R-kwadraat beskryf hoe goed die lineêre regressiemodel by die datapunte pas:
Die waarde van R-kwadraat is altyd tussen 0 tot 1 (0% tot 100%).
- 'n Hoë R-kwadraatwaarde beteken dat baie datapunte naby die lineêre regressiefunksielyn is.
- 'n Lae R-kwadraatwaarde beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.
Visuele voorbeeld van 'n lae R - kwadraatwaarde (0.00)
Ons regressiemodel toon 'n R-kwadraatwaarde van nul, wat beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.
Dit kan gevisualiseer word wanneer ons die lineêre regressiefunksie plot deur die datapunte van Average_Pulse en Calorie_Burnage.
Visuele voorbeeld van 'n hoë R - kwadraatwaarde (0,79)
As ons egter Duration en Calorie_Burnage plot , neem die R-kwadraat toe. Hier sien ons dat die datapunte naby die lineêre regressiefunksielyn is:
Hier is die kode in Python:
Voorbeeld
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Opsomming - Voorspel kalorie_verbranding met gemiddelde_puls
Hoe kan ons die lineêre regressiefunksie opsom met Average_Pulse as verklarende veranderlike?
- Koëffisiënt van 0,3296, wat beteken dat Average_Pulse 'n baie klein effek op Calorie_Burnage het.
- Hoë P-waarde (0.824), wat beteken dat ons nie 'n verband tussen Gemiddeld_Pulse en Kalorie_Verbranding kan aflei nie.
- R-kwadraatwaarde van 0, wat beteken dat die lineêre regressiefunksielyn nie goed by die data pas nie.