机器学习的敲门砖: kNN算法(上)

时光人

2187

收藏 2019-09-27

CDA 数据分析师：数据科学、人工智能从业者的在线大学。
数据科学（Python/R/Julia）数据分析、机器学习、深度学习 Q群：874447702

0x00 前言

天下苦数学久矣！

对于很多想要入门机器学习的工程师来说，数学是通往AI道路上的第一支拦路虎。一些已经工作的同学不得不捡起早已还给老师的数学知识，勉强拿起《统计学习方法》、《西瓜书》等入门书籍钻研。或被一个个复杂的机公式劝退，或记下一堆公式定理之后却不知道和代码有什么关系，茫然不知所措。

其实对于工程师来说，最直接的入门方法就是coding。

本系列从最简单的机器学习算法“K-近邻算法”开始，通过代码走进机器学习的大门，搞定传统机器学习算法。

首先会介绍算法的基本原理，然后依据原理手动实现算法，最后使用sklearn中提供的机器学习库完成一些小demo。不用担心，相关的机器学习概念以及算法原理也会穿插其中，帮助你以“代码->原理->代码”这种迭代的方式完成学习。

需要：

掌握Python语言，能够使用Numpy、Pandas等工具库。

安装Anaconda

不要求对机器学习算法以及相关概念有很深刻的了解，因为在文章中会对首次出现的概念进行介绍。

子曰：“先行其言而后从之”。行动永远是引发改变的第一步，话不多说，先让我们码起来吧！

0x01 初探kNN算法

为什么选择kNN

为什么说KNN算法是机器学习的敲门砖？

首先KNN算法思想简单朴素，容易理解，几乎不需要任何数学知识。这一点使得KNN算法非常适合入门。

其次，KNN算法也很好用，理论成熟，简单粗暴，既可以用来做分类（天然支持多分类），也可以用来做回归。并且与朴素贝叶斯之类的算法相比，由于其对数据没有假设，因此准确度高，对异常点不敏感。

最后，kNN算法简单，但是可以解释机器学习算法过程中的很多细节问题，能够完整的刻画机器学习应用的流程。

当然KNN算法也有缺点，我们会在最后进行总结。

kNN思想简介

鲁迅曾经说过：“想要了解一个人，就去看看他的朋友”。因此，KNN算法是鲁迅发明的。

kNN(k-NearestNeighbor)，也就是k最近邻算法。顾名思义，所谓K最近邻，就是k个最近的邻居的意思。也就是在数据集中，认为每个样本可以用离他最距离近的k个邻居来代表。

贴出一张从百度百科上找的一张图，我们可以直观地感受到这朴素的思想：我们要判断Xu 是什么颜色的，找到与其距离最近的5个点，有4个是红色的，有1个是绿色的。因此我们认为Xu是属于红色的集合

因此我们说：

在一个给定的类别已知的训练样本集中，已知样本集中每一个数据与所属分类的对应关系（标签）。在输入不含有标签的新样本后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似的k个数据(最近邻)的分类标签。通过多数表决等方式进行预测。即选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

K近邻法不具有显式的学习过程，而是利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。

kNN算法流程

通过理解算法思想，可以将其简化为“找邻居+投票”。K近邻法使用的模型，实际上是特征空间的划分。模型由三个基本要素决定：

距离度量

k值

分类决策规则

其中两个实例点之间的距离反映了相似程度。一般来说使用欧氏距离来计算。

梳理kNN算法流程如下：

计算测试对象到训练集中每个对象的距离

按照距离的远近排序

选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居

统计这k个邻居的类别频率

k个邻居里频率最高的类别，即为测试对象的类别

0x02 算法实现

kNN算法自实现

打开Jupyter Notebook，创建Python3文件。

准备数据

首先我们准备一组数据：

import numpy as npimport matplotlib.pyplot as plt# raw_data_x是特征，raw_data_y是标签，0为良性，1为恶性raw_data_X = [[3.393533211, 2.331273381],

[3.110073483, 1.781539638],

[1.343853454, 3.368312451],

[3.582294121, 4.679917921],

[2.280362211, 2.866990212],

[7.423436752, 4.685324231],

[5.745231231, 3.532131321],

[9.172112222, 2.511113104],

[7.927841231, 3.421455345],

[7.939831414, 0.791631213]

]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]# 设置训练组X_train = np.array(raw_data_X)

y_train = np.array(raw_data_y)# 将数据可视化plt.scatter(X_train[y_train==0,0],X_train[y_train==0,1], color='g', label = 'Tumor Size')

plt.scatter(X_train[y_train==1,0],X_train[y_train==1,1], color='r', label = 'Time')

plt.xlabel('Tumor Size')

plt.ylabel('Time')

plt.axis([0,10,0,5])

plt.show

数据可视化后生成的图片如下图所示。其中横轴是肿块大小，纵轴是发现时间。每个病人的肿块大小和发病时间构成了二维平面特征中的一个点。对于每个点，我们通过label明确是恶性肿瘤（绿色）、良性肿瘤（红色）。

那么现在给出一个肿瘤患者的数据（样本点）x：[8.90933607318, 3.365731514]，是良性肿瘤还是恶性肿瘤

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

时光人

2019-9-27 11:43:30

求距离

我们要做的是：求点x到数据集中每个点的距离，首先计算距离，使用欧氏距离

下面写代码：

from math import sqrt

distances = [] # 用来记录x到样本数据集中每个点的距离for x_train in X_train:

d = sqrt(np.sum((x_train - x) ** 2))

distances.append(d)# 使用列表生成器，一行就能搞定，对于X_train中的每一个元素x_train都进行前面的运算，把结果生成一个列表distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in X_train]

distances

输出：[5.611968000921151, 6.011747706769277, 7.565483059418645, 5.486753308891268, 6.647709180746875, 1.9872648870854204, 3.168477291709152, 0.8941051007010301, 0.9830754144862234, 2.7506238644678445]

在求出距离列表之后，我们要找到最小的距离，需要进行一次排序操作。其实不是简单的排序，因为我们把只将距离排大小是没有意义的，我们要知道距离最小的k个点是在样本集中的位置。

这里我们使用函数：np.argsort(array) 对一个数组进行排序，返回的是相应的排序后结果的索引

nearest = np.argsort(distances)

nearest

输出：array([7, 8, 5, 9, 6, 3, 0, 1, 4, 2])

结果的含义是：距离最小的点在distances数组中的索引是7，第二小的点索引是8... 近到远是哪些点

选k值

然后我们选择k值，这里暂定为6，那就找出最近的6个点（top 6），并记录他们的标签值（y）

k = 6topK_y = [y_train for i in nearest[:k]]

topK_y

输出：[1, 1, 1, 1, 1, 0]

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

藤椅

时光人

2019-9-27 11:44:00

决策规则
下面进入投票环节。找到与测试样本点最近的6个训练样本点的标签y是什么。可以查不同类别的点有多少个。
将数组中的元素和元素出现的频次进行统计
from collections import Counter
votes = Counter(topK_y)
votes
输出：一个字典，原数组中值为0的个数为1，值为1的个数有为5Counter({0:1, 1:5})
# Counter.most_common(n) 找出票数最多的n个元素，返回的是一个列表，列表中的每个元素是一个元组，元组中第一个元素是对应的元素是谁，第二个元素是频次votes.most_common(1)
输出：[(1,5)]
predict_y = votes.most_common(1)[0][0]
predict_y
输出：1
得到预测的y值是1
自实现完整工程代码
我们已经在jupyter notebook中写好了kNN算法，下面我们在外部进行封装。
相关代码可以在 https://github.com/japsonzbz/ML_Algorithms 中看到
import numpy as npimport math as sqrtfrom collections import Counterclass kNNClassifier:
def __init__(self, k):
"""初始化分类器"""
assert k >= 1, "k must be valid"
self.k = k
self._X_train = None
self._y_train = None
def fit(self, X_train, y_train):
"""根据训练数据集X_train和y_train训练kNN分类器"""
assert X_train.shape[0] == y_train.shape[0], \ "the size of X_train must be equal to the size of y_train"
assert self.k <= X_train.shape[0], \ "the size of X_train must be at least k"
self._X_train = X_train
self._y_train = y_train return self def predict(self,X_predict):
"""给定待预测数据集X_predict，返回表示X_predict结果的向量"""
assert self._X_train is not None and self._y_train is not None, \ "must fit before predict!"
assert X_predict.shape[1] == self._X_train.shape[1], \ "the feature number of X_predict must be equal to X_train"
y_predict = [self._predict(x) for x in X_predict] return np.array(y_predict) def _predict(self, x):
distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._X_train]
nearest = np.argsort(distances)
topK_y = [self._y_train for i in nearest]
votes = Counter(topK_y) return votes.most_common(1)[0][0] def __repr__(self):
return "kNN(k=%d)" % self.k
当我们写完定义好自己的kNN代码之后，可以在jupyter notebook中使用魔法命令进行调用：
%run myAlgorithm/kNN.py
knn_clf = kNNClassifier(k=6)
knn_clf.fit(X_train, y_train)
X_predict = x.reshape(1,-1)
y_predict = knn_clf.predict(X_predict)
y_predict
输出：array([1])
现在我们就完成了一个sklearn风格的kNN算法，但是实际上，sklearn封装的算法比我们实现的要复杂得多。
sklearn中的kNN
代码
对于机器学习来说，其流程是：训练数据集 -> 机器学习算法 -fit-> 模型输入样例 -> 模型 -predict-> 输出结果
我们之前说过，kNN算法没有模型，模型其实就是训练数据集，predict的过程就是求k近邻的过程。
我们使用sklearn中已经封装好的kNN库。你可以看到使用有多么简单。
from sklearn.neighbors import KNeighborsClassifier# 创建kNN_classifier实例kNN_classifier = KNeighborsClassifier(n_neighbors=6)# kNN_classifier做一遍fit(拟合)的过程，没有返回值，模型就存储在kNN_classifier实例中kNN_classifier.fit(X_train, y_train)# kNN进行预测predict，需要传入一个矩阵，而不能是一个数组。reshape成一个二维数组，第一个参数是1表示只有一个数据，第二个参数-1，numpy自动决定第二维度有多少y_predict = kNN_classifier.predict(x.reshape(1,-1))
y_predict
输出：array([1])
在kNN_classifier.fit(X_train, y_train)这行代码后其实会有一个输出：
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=1, n_neighbors=6, p=2,
weights='uniform')
参数
class
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)
我们研究一下参数：
n_neighbors: int, 可选参数(默认为 5)。用于kneighbors查询的默认邻居的数量
weights（权重）: str or callable(自定义类型), 可选参数(默认为 ‘uniform’)。用于预测的权重参数，可选参数如下：
uniform : 统一的权重. 在每一个邻居区域里的点的权重都是一样的。
distance : 权重点等于他们距离的倒数。
使用此函数，更近的邻居对于所预测的点的影响更大。
[callable] : 一个用户自定义的方法，此方法接收一个距离的数组，然后返回一个相同形状并且包含权重的数组。
algorithm（算法）: {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, 可选参数（默认为 ‘auto’）。计算最近邻居用的算法：
ball_tree 使用算法BallTree
kd_tree 使用算法KDTree
brute 使用暴力搜索
auto 会基于传入fit方法的内容，选择最合适的算法。
注意 : 如果传入fit方法的输入是稀疏的，将会重载参数设置，直接使用暴力搜索。
leaf_size（叶子数量）: int, 可选参数(默认为 30)。传入BallTree或者KDTree算法的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或者KDTree所需要的内存大小。此可选参数根据是否是问题所需选择性使用。
p: integer, 可选参数(默认为 2)。用于Minkowski metric（闵可夫斯基空间）的超参数。p = 1, 相当于使用曼哈顿距离，p = 2, 相当于使用欧几里得距离]，对于任何 p ，使用的是闵可夫斯基空间。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

板凳

时光人

2019-9-27 11:44:17

metric（矩阵）: string or callable, 默认为 ‘minkowski’。用于树的距离矩阵。默认为闵可夫斯基空间，如果和p=2一块使用相当于使用标准欧几里得矩阵. 所有可用的矩阵列表请查询 DistanceMetric 的文档。
metric_params（矩阵参数）: dict, 可选参数(默认为 None)。给矩阵方法使用的其他的关键词参数。
n_jobs: int, 可选参数(默认为 1)。用于搜索邻居的，可并行运行的任务数量。如果为-1, 任务数量设置为CPU核的数量。不会影响fit
方法
对于KNeighborsClassifier的方法：
方法名含义fit(X, y)使用X作为训练数据，y作为目标值（类似于标签）来拟合模型。get_params([deep])获取估值器的参数。neighbors([X, n_neighbors, return_distance])查找一个或几个点的K个邻居。kneighbors_graph([X, n_neighbors, mode])计算在X数组中每个点的k邻居的（权重）图。predict(X)给提供的数据预测对应的标签。predict_proba(X)返回测试数据X的概率估值。score(X, y[, sample_weight])返回给定测试数据和标签的平均准确值。set_params(**params)设置估值器的参数。
0xFF 总结
在本文中我们了解了第一个ML算法kNN，kNN凭借着自己朴素成熟的特点成为机器学习的敲门砖。
然后我们学习了kNN算法的流程，并且在jupyter notebook上手动实现了代码，并且在外部也进行了封装。最后我们学习了sklearn中的kNN算法。
虽然我们自己实现了一个机器学习算法，但是它的效果怎样样？预测准确率高不高？我们在机器学习过程中还有哪些需要注意的问题呢？
且听下回分解。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

报纸

hifinecon

2019-9-28 11:23:29

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地板

时光人

2019-9-29 19:52:33

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

7楼

蒙特卡罗～

2019-10-3 22:02:06

不错！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

8楼

齐物论pi

2019-10-8 09:05:24

不错呦

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

9楼

zhengcz

2019-10-13 08:23:20

点赞！谢谢楼主分享。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

【学习笔记】11-18 机器学习 KNN算法

机器学习的敲门砖：kNN算法

【学习笔记】机器学习分类，knn算法

【学习笔记】机器学习knn算法

【学习笔记】今天开始了机器学习的第一天，主要通过KNN算法来学习机器学习中的 ...

【学习笔记】机器学习开始啦今天学习了KNN算法，还好能听懂。加油

【学习笔记】机器学习D1.今天学习了机器学习中最简单的KNN算法，通过学习原理 ...

机器学习的敲门砖：kNN算法（上）——CDA人工智能学院

机器学习的敲门砖：kNN算法（中）——CDA人工智能学院

机器学习的敲门砖：kNN算法（下）——CDA人工智能学院

栏目导航

python论坛

跳蚤市场

运营管理（物流与供应链管理）

国民经济管理

经管文库（原现金交易版）

会计与财务管理

热门文章

CDA数据分析脱产就业班于2026年3月7日开班！ ...

参数估计：CDA数据分析师的核心推断工具，用 ...

GeoSaaS永久会员版

全国国土利用现状、耕地、园地、林地分布等 ...

脑机接口行业系列报告：Neuralink带来的启示 ...

2025年全国公交路线及站点矢量数据

通往2026 中国消费者趋势前瞻

天堂的证据（〔美〕埃本·亚历山大）

Causal Inference: what if 25年11月版

芜宣机场，增长740%！

推荐文章

2026JG学术冬训营:从Stata初高到Python机器 ...

【必看】【本版版规，欢迎发悬赏贴求助】

【新课】26年3月｜Gemini辅助论文写作与数据 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群