本篇内容介绍了“R语言多元线性回归实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1 读入数据集
# 导入数据
setwd("C:\\Users\\****\\Documents\\ML\\day3\\")
dataset = read.csv('50_Startups.csv')
head(dataset)
R.D.Spend Administration Marketing.Spend State Profit
1 165349.2 136897.80 471784.1 New York 192261.8
2 162597.7 151377.59 443898.5 California 191792.1
3 153441.5 101145.55 407934.5 Florida 191050.4
4 144372.4 118671.85 383199.6 New York 182902.0
5 142107.3 91391.77 366168.4 Florida 166187.9
6 131876.9 99814.71 362861.4 New York 156991.1
2 数据预处理
# 虚拟变量
dataset$State = factor(dataset$State,
levels = c('New York', 'California', 'Florida'),
labels = c(1, 2, 3))
3 训练集和测试集
将数据按照4:1拆分,每一组分别包含自变量和因变量
# install.packages('caTools')
library(caTools)
set.seed(123)
split = sample.split(dataset$Profit, SplitRatio = 0.8)
training_set = subset(dataset, split == TRUE) # 多自变量
test_set = subset(dataset, split == FALSE) # 单因变量
dim(training_set)
[1] 40 5
dim(test_set)
[1] 10 5
4 模型拟合及预测
通过训练集进行模型拟合得到曲线,然后将测试集的X_test带入曲线中,得到预测结果y_pred,最后将预测结果y_pred与测试集中的y_test进行比较,确定预测是否准确。
4.1 多重线性回归
regres = lm(formula = Profit ~ R.D.Spend + Administration + Marketing.Spend + State,
data = training_set)
summary(regres)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.965e+04 7.637e+03 6.501 1.94e-07 ***
R.D.Spend 7.986e-01 5.604e-02 14.251 6.70e-16 ***
Administration -2.942e-02 5.828e-02 -0.505 0.617
Marketing.Spend 3.268e-02 2.127e-02 1.537 0.134
State2 1.213e+02 3.751e+03 0.032 0.974
State3 2.376e+02 4.127e+03 0.058 0.954
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
4.2 进行逐步回归分析
regres.step <- step(regres)
Step: AIC=735.89
Profit ~ R.D.Spend + Marketing.Spend
Df Sum of Sq RSS AIC
<none> 3.3627e+09 735.89
- Marketing.Spend 1 3.1338e+08 3.6761e+09 737.45
- R.D.Spend 1 2.3344e+10 2.6706e+10 816.77
regres2 = lm(formula = Profit ~ R.D.Spend + Marketing.Spend ,
data = training_set)
4.3 预测结果
y_pred = predict(regres2, newdata = test_set)
y_pred
4 5 8 11 16 20 21 24
173687.21 171299.96 160499.08 134783.16 145873.04 114467.75 117025.30 110369.71
31 32
98447.39 97668.22
test_set$Profit
[1] 182901.99 166187.94 155752.60 146121.95 129917.04 122776.86 118474.03 108733.99
[9] 99937.59 97483.56
4.4 结果可视化
plot(test_set$Profit,col="red")
points(y_pred,col="blue")
“R语言多元线性回归实例分析”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4592992/blog/4419675