在Python中,可以使用scikit-learn库中的train_test_split函数来随机划分数据集。train_test_split函数将数据集随机划分为训练集和测试集。
以下是使用train_test_split函数随机划分数据集的示例代码:
from sklearn.model_selection import train_test_split
# 假设X是特征矩阵,y是目标向量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
在上述代码中,X是特征矩阵,y是目标向量,test_size参数指定测试集所占的比例(例如0.2表示测试集占总数据集的20%),random_state参数用于设置随机种子,以确保每次运行代码时得到的随机划分结果相同。
train_test_split函数的返回值是划分后的训练集和测试集的特征矩阵和目标向量。在上述示例代码中,X_train和y_train是训练集的特征矩阵和目标向量,X_test和y_test是测试集的特征矩阵和目标向量。
使用划分好的训练集和测试集进行机器学习模型的训练和评估。