全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1764 0
2022-07-15
聚类分析是一类将数据所对应的研究对象进行分类的统计方法。这一类方法的共同特点是,事先不知道类别的个数与结构;进行分析的数据是表明对象之间的相似性或相异性的数据,将这些数据看成对对象距离远近的一种度量,将距离近的对象归入一类,不同类对象之间的距离较远。

聚类分析根据对象的不同分为Q型聚类分析和R型聚类分析,其中,Q型聚类是指对样本的聚类,R型聚类是指对变量的聚类。本节主要介绍Q型聚类。


一、距离和相似系数



1.1、距离在聚类过程中,相距较近的样本点倾向于归为一类,相距较远的样本点应归属于不同的类。最常用的是Minkowski距离。
当各变量的单位不同或变异性相差很大时,不应直接采用Minkowski距离,而应先对各变量的数据做标准化处理,然后用标准化后的数据计算距离。
使用SciPy库spatial模块下的distance子模块可以计算距离,使用该子模块下的pdist函数可以计算n维空间中观测值之间的距离,其语法格式如下:

微信截图_20220714183059.png 微信截图_20220714183152.png 微信截图_20220714183205.png 微信截图_20220714183219.png 微信截图_20220714183231.png 微信截图_20220714183242.png 微信截图_20220714183253.png 微信截图_20220714183308.png



附件列表
微信截图_20220714183253.png

原图尺寸 53.99 KB

微信截图_20220714183253.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群