在Python中,可以使用scikit-learn
库来实现多元线性回归。
首先,需要导入所需的库和模块:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
接下来,需要准备好训练数据集和测试数据集。假设训练数据集包含n
个样本,每个样本有m
个特征,标签为y
。可以将特征和标签分别存储在两个数组X
和y
中。
然后,可以使用train_test_split
函数将数据集拆分成训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
其中,test_size=0.2
表示测试集占总数据集的比例为20%,random_state
是随机种子,用于每次运行代码时得到相同的拆分结果。
接下来,可以创建一个LinearRegression
对象,并使用训练数据来拟合模型:
model = LinearRegression()
model.fit(X_train, y_train)
训练完成后,可以使用模型对测试数据进行预测:
y_pred = model.predict(X_test)
最后,可以使用不同的评估指标来评估模型的性能,例如均方误差(Mean Squared Error):
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)
以上就是使用scikit-learn
实现多元线性回归的基本步骤。当然,还可以进行特征工程、数据标准化等进一步优化步骤来提高模型的性能。