Python机器学习库scikit-learn怎么使用

发布时间：2022-07-28 13:42:05 来源：亿速云阅读：211 作者：iii 栏目：开发技术

Python机器学习库scikit-learn怎么使用

简介

scikit-learn（简称sklearn）是Python中最流行的机器学习库之一，提供了丰富的工具和算法，用于数据挖掘和数据分析。它基于NumPy、SciPy和matplotlib等科学计算库，支持分类、回归、聚类、降维等多种机器学习任务。

安装与配置

安装

在开始使用scikit-learn之前，首先需要安装它。可以通过以下命令使用pip安装：

pip install scikit-learn

验证安装

安装完成后，可以通过以下代码验证是否安装成功：

import sklearn
print(sklearn.__version__)

如果输出了版本号，说明安装成功。

数据预处理

加载数据集

scikit-learn提供了一些内置的数据集，可以用于快速测试和验证模型。例如，加载经典的鸢尾花数据集：

from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 标签

数据分割

在训练模型之前，通常需要将数据集分为训练集和测试集：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

数据标准化

许多机器学习算法对数据的尺度敏感，因此需要对数据进行标准化处理：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

模型选择与训练

选择模型

scikit-learn提供了多种机器学习模型，例如线性回归、支持向量机、决策树等。以下是一个使用支持向量机（SVM）进行分类的例子：

from sklearn.svm import SVC

model = SVC(kernel='linear')

训练模型

使用训练集数据训练模型：

model.fit(X_train, y_train)

模型评估

预测

使用训练好的模型对测试集进行预测：

y_pred = model.predict(X_test)

评估指标

常用的评估指标包括准确率、精确率、召回率和F1分数等。以下是一个计算准确率的例子：

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

混淆矩阵

混淆矩阵可以帮助我们更详细地了解分类模型的性能：

from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

超参数调优

网格搜索

通过网格搜索可以找到模型的最佳超参数组合：

from sklearn.model_selection import GridSearchCV

param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f'Best parameters: {grid_search.best_params_}')

随机搜索

随机搜索是另一种超参数调优方法，适用于参数空间较大的情况：

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform

param_dist = {'C': uniform(0.1, 10), 'kernel': ['linear', 'rbf']}
random_search = RandomizedSearchCV(SVC(), param_dist, n_iter=10, cv=5)
random_search.fit(X_train, y_train)

print(f'Best parameters: {random_search.best_params_}')

特征工程

特征选择

特征选择是提高模型性能的重要手段之一。以下是一个使用递归特征消除（RFE）进行特征选择的例子：

from sklearn.feature_selection import RFE

rfe = RFE(model, n_features_to_select=2)
X_train_rfe = rfe.fit_transform(X_train, y_train)
X_test_rfe = rfe.transform(X_test)

特征提取

特征提取是将原始数据转换为更有意义的特征的过程。例如，使用主成分分析（PCA）进行降维：

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

模型保存与加载

保存模型

训练好的模型可以保存到磁盘，以便后续使用：

import joblib

joblib.dump(model, 'model.pkl')

加载模型

加载保存的模型：

model = joblib.load('model.pkl')

实战案例

案例：手写数字识别

以下是一个使用scikit-learn进行手写数字识别的完整例子：

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 加载数据
digits = load_digits()
X = digits.data
y = digits.target

# 数据分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练模型
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

总结

scikit-learn是一个功能强大且易于使用的机器学习库，适用于各种机器学习任务。通过本文的介绍，你应该已经掌握了如何使用scikit-learn进行数据预处理、模型选择与训练、模型评估、超参数调优、特征工程以及模型保存与加载等基本操作。希望这些内容能帮助你在实际项目中更好地应用机器学习技术。

向AI问一下细节

Python机器学习库scikit-learn怎么使用

Python机器学习库scikit-learn怎么使用

目录

简介

安装与配置

安装

验证安装

数据预处理

加载数据集

数据分割

数据标准化

模型选择与训练

选择模型

训练模型

模型评估

预测

评估指标

混淆矩阵

超参数调优

网格搜索

随机搜索

特征工程

特征选择

特征提取

模型保存与加载

保存模型

加载模型

实战案例

案例：手写数字识别

总结

猜你喜欢

Python机器学习库scikit-learn怎么使用

Python机器学习库scikit-learn怎么使用

目录

简介

安装与配置

安装

验证安装

数据预处理

加载数据集

数据分割

数据标准化

模型选择与训练

选择模型

训练模型

模型评估

预测

评估指标

混淆矩阵

超参数调优

网格搜索

随机搜索

特征工程

特征选择

特征提取

模型保存与加载

保存模型

加载模型

实战案例

案例：手写数字识别

总结

猜你喜欢

最新资讯

相关推荐

相关标签