# -*- coding:utf-8 -*-
__author__ = 'Ghostviper'
"""
K近邻归类算法
"""
from numpy import *
import operator
def createDataset():
group = array([
[1.0, 1.1],
[1.0, 1.0],
[0, 0],
[0, 0.1]
])
labels = ['A', 'A', 'B', 'B']
return group, labels
def classify0(inX, dataSet, labels, k):
# shape获得数据集中数组的大小
dataSetSize = dataSet.shape[0]
# 根据输入的元素复制矩阵并与已知数据集矩阵做差
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
if __name__ == "__main__":
group, labels = createDataset()
print classify0([1, 1], group, labels, 3)
注:计算两个向量点xA和xB之间的距离利用欧式距离公式:
算法步骤:
计算已知类别数据集中点与当前点之间的距离
按照距离递增排序
选取与当前点距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个点出现的频率最高的类别作为当前点的预测分类
算法适用范围:数值型和标称型
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。