微客导航 » 文章资讯 » Python代码实现KNN算法

Python代码实现KNN算法

2023-09-19 03:11:46 411

kNN算法是k-近邻算法的简称，主要用来进行分类实践，主要思路如下：

1.存在一个训练数据集，每个数据都有对应的标签，也就是说，我们知道样本集中每一数据和他对应的类别。
2.当输入一个新数据进行类别或标签判定时，将新数据的每个特征值与训练数据集中的每个数据进行比较，计算其到训练数据集中每个点的距离（下列代码实现使用的是欧式距离）。
3.然后提取k个与新数据最接近的训练数据点所对应的标签或类别。
4.出现次数最多的标签或类别，记为当前预测新数据的标签或类别。

欧式距离公式为：

distance=sqrt（(xA0-XB0）^2+(xA1-XB1）^2+...+(xAn-XBn）^2)(若数据有n个特征项）

以下为代码实现：

#!/usr/bin/python
#coding=utf-8
fromnumpyimport*
importoperator
defcreateDataSet():
group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])#训练数据样本集合
labels=['A','A','B','B']#训练数据对应的类别
returngroup,labels
'''''
inX:用于分类的输入向量
dataSet：训练样本集合
labels：标签向量
k：k-近邻算法中的k
'''
defclassify0(inX,dataSet,labels,k):
dataSetSize=dataSet.shape[0]#获取数组的维度，也就是获取训练样本的行数（样本数），若获取列数，则为shape[1]
diffMat=tile(inX,(dataSetSize,1))-dataSet#tile表示inX在重复dataSetSize行，重复1列。为输入向量与各个样本求取欧式距离做准备。
sqDiddMat=diffMat**2#diffMat是输入向量与我们训练样本每个点相减得到的，**2表示值的结果取平方。
sqDistances=sqDiddMat.sum(axis=1)#默认为axis=0，axis=1以后就是将一个矩阵的每一行向量相加
distances=sqDistances**0.5#对结果进行开平方，得到输入向量与每个训练样本中点的欧式距离
sorteDistIndicies=distances.argsort()#将距离结果按照从小到大排序获得索引值
classcount={}#这是一个字典，key为类别，value为距离最小的前k个样本点里面为该类别的个数。
foriinrange(k):
voteIlabel=labels[sorteDistIndicies[i]]#获取距离最小的前k个样本点对应的label值
classcount[voteIlabel]=classcount.get(voteIlabel,0)+1#如果之前的样本点label值与与现在的相同，则累计加1，否则，此次加1
sorteClassCount=sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)#针对calsscount获取对象的第1个域的值进行降序排序。也就是说根据类别的个数从大到小排序。
returnsorteClassCount[0][0]#返回排序的字典的第一个元素的key，即分类后的类别

createDataSet()
printclassify0([0.9,0.9],group,labels,3)

结果为：A

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

返回顶部
3162201930
czq8825@qq.com

Python代码实现KNN算法

热门推荐

随机推荐