聚类分析原理及R语言实现过程

2018-08-04 18:28:24 畢業零距離

聚类分析定义与作用：

是把分类对象按照一定规则分成若干类，这些类不是事先设定的，而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于彼此不相似。在经济、管理、地质勘探、天气预报、生物分类、考古学、医学、心理学以及制定国家标准和区域标准等许多方面应用十分广泛，是国内外较为流行的多变量统计分析方法之一，在机器学习中扮演重要角色。

聚类分析的类型

是实际问题中，如根据各省主要的经济指标，将全国各省区分成为几个区域等。这个主要的经济指标是我们用来分类的依据。称为指标（变量），用X1、X2 … Xp表示，p是变量的个数。在聚类分析中，基本的思想是认为所研究的样品或者多个观测指标（变量）之间存在着程度不同的相似性（亲疏关系）。根据这些相识程度，把样品划分成一个由小到大的分类系统，最后画出一张聚类图表示样品之间的亲疏关系。根据分类对象的不同，可将聚类分析分为两类，一是对分类处理，叫Q型；另一种是对变量处理，叫R型。

聚类统计量

聚类分析的基本原则是将有较大相似性的对象归为同一类，可进行聚类的统计量有距离和相似系数。

聚类分析的方法：

系统聚类法、快速聚类法、模糊聚类法。

系统聚类

常用的有如下六种：

1、最短距离法；2、最长距离法；3、类平均法；4、重心法；5、中间距离法；6、离差平方和法

快速聚类

常见的有K-means聚类。

R语言实现系统聚类和K-means聚类过程详解

系统聚类R语言教程

第一步：计算距离

在R语言进行系统聚类时，先计算样本之间的距离，计算之前先对样品进行标准变换。用scale()函数。

R语言各种距离的计算用dist()函数来实现。具体用法为：

dist(x , method = " euclidean " , diag = FALSE, upper = FALSE, p = 2)

x：为数据矩阵或者数据框。

method：为计算方法，包括"euclidean"欧式距离，" maximum"切比雪夫距离，" manhattan"绝对值距离，"Canberra"兰氏距离，" minkowski" 闵可夫斯基距离，" binary" 定型变量的距离。

diag是逻辑变量，当diag = TRUE时,给出对角线上的距离。

upper是逻辑变量,当upper = TRUE时，给出上三角矩阵的值（缺省值仅给出下三角矩阵的值）。

p：为minkowski距离的幂次

第二步：系统聚类

在R语言中用hclust()函数进行系统聚类。hclust具体用法为：

hclust(dist , method)

dist：为第一步计算出来的距离

method：为系统聚类方法，有"single"最短距离法，"complete"最长距离法，"median"中间距离法，"mcquitty" Mcquitty相似法，"average"类平均法，"centroid"重心法，"ward" 离差平方和法

第三步：画出聚类图

R语言中用plot（）函数画出聚类图，具体用法为：

plot(x, hang = 0.1, axes = TRUE , main = "Cluster Dendrogram", sub = NULL, xlab = NULL, ylab = "Height",...)

x：第二步中hclust得出的对象

hang:表明谱系图中各类所在的位置，当hang取负值时，谱系图中的类从底部画起

main:给聚类图添加标题

sub:给聚类图添加子标题

xlab：为x轴添加说明

ylab：为y轴添加说明

第四步：画出分类矩形框

最后一步用rect.hclust(x, k = n) 函数画出分类矩形框。其中x为第二步hclust得出的对象，K为要分的类数。

例1

为研究我国31个省、市、自治区2007年的城镇居民生活消费的规律，根据调查资料作区域消费类型划分。原始数据如下：

数据来源—www.stats.gov.cn（中华人民共和国国家统计局）

采用欧式距离，分别用最短距离法、最长距离法、类平均法、中间距离法、重心法和ward法得出系统聚类图。

可以看出不同距离方法的分类结果有所差异，但大体的结果是一致的，北京、上海、浙江、天津、广东消费水平和其他省市自治区有较明显的区别，符合实际情况。

Kmeans聚类R语言教程

步骤：

第一步：将所有样品分成K个初始类。

第二步：通过欧式距离将某个样品划入离中心最近的类中，并对获得样品和失去样品的类重新计算中心坐标。

第三步：重复步骤2，直到所有的样品都不能再分类为止。

在R语言中用kmeans()函数进行kmeans聚类。具体用法为：

kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong","Lloyd","Forgy","MacQueen"))

x: 数据构成的矩阵或数据框

centers: 聚类的个数或者是初始类的中心

iter.max: 最大迭代次数（缺省值为10）

nstart: 机集合的个数（当centers为聚类的个数时）

algorithm: 动态聚类的算法（缺省值为Hartigan-Wong方法）

例2

针对例1的数据我们进行kmeans聚类。

图中的分类结果显示和系统聚类的结果有一定的差距，组间的距离平方和占了整体距离平方和的71.7 % ，说明数据用kmengs分4类不是很理想，发现k=4并不符合实际情况。这就引出了kmeans的一个注意事项，

kmeans的一个注意事项

因为kmeans每次都是随机的把样品分为K个分类，然后计算距离，然后重新分类，所以每次的运行结果不太一样。对类别及k的数值选择不同，分类结果的好坏也不尽相同。选择一个正确的聚类数目对于划分数据是很重要的。

R语言中使用Gap统计值来确定k的个数，他是通过对数据进行bootstrap抽样来比较内差异性。这里使用cluster软件包里面的clusGap函数计算。

本例如下：

红色曲线表示Gap统计值和Gap误差线。最优的聚类数目是在一个标准差里使gap达到最小的聚类数目。由此可见本例中分8类最好。

聚类分析以及R语言实现过程明明同学就给大家介绍到这里。

学习更多R语言数据分析使用技巧、EXCEL和PPT制作教程请查看历史文章。

有任何问题请评论区会说明并私信明明同学，明明同学帮助你解决数据分析，PPT制作，论文做图、以及高质量图片处理的难处。

分享到:

閱讀更多 畢業零距離 的文章

關鍵字: XP 设定若干类

伺服驱动器原理及选型

金字塔原理与结构化思维解读

02.09 是死神的化身，还是希望的光芒？十个问题认识蝙蝠

是死神的化身，还是希望的光芒？十个问题认识蝙蝠

一条优美而实用的曲线

01.30 三相异步电动机工作原理与图解

什么原理？

这种分子让化学家目睹了幽灵般的量子隧穿

金字塔原理——一本非常经典的书

对于量子物理学，你是否也有这些误解

它是如何做到集有序与无序于一身的？

有载分接开关工作原理

增肌的原理，90%的健身者都不懂！

「过压脱扣式」断路器——简介、原理、接线

「欠压脱扣式」断路器——简介、原理、接线

莫比乌斯的奇异世界

「报警辅助触头」断路器——简介、原理、常开常闭点

「辅助触头」断路器——简介、原理、常开常闭点

「分励脱扣式」断路器——简介、原理、注意事项、接线

「漏电保护式」断路器——（断路器+漏电装置）简介、原理、详解

交流接触器——简介、铭牌、原理、接线、选用原则

液位继电器——原理、运用、接线

2018最新万能盖白发公式+原理

浮球液位开关——简介、原理、供水排水运用、演示NO接线图

一个新的不确定性关系：物体可以同时处于两种温度？

著名的“哈勃定律”要被更名了？

小电工啃原理-备自投闭锁

拓扑绝缘体的一个新突破

机械动图第4期：机械原理动态图，机械工程师的最爱（2）

自然界中的一种基本对称，通过了最严格的检验

有趣的机械设计原理动图，一目了然！

图解点火系统的基本结构、原理！

灭绝，是一个自然的过程，但它发生的速度却是正常速度的1000倍

神秘而强大的第四种物质状态

机械密封培训——原理、选用、安装、使用技术要领

三极管管脚判别方法、原理

06.19 无功补偿原理基础知识详解

无功补偿原理基础知识详解

继电器驱动电路原理及注意事项

已知最精确的科学理论是？

05.14 物理学家第一次精确测量了质子的弱荷

05.11 物理学史上最伟大的魔术师

05.01 双信封悖论：换，还是不换？

科学模型表明，生活就是不公平的

03.16 史上最有个性的论文

03.02 走向抽象——伽罗瓦理论

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

转念一想，这种看似不正常的状态才是正常的，随着时间的推移，很多过去迷迷糊糊的人慢慢就看清了，是进是退跟着内心走就好，别管什么善始善终，不要被这种论调道德绑架，过段时间，你觉得可以，再回来就行，开关在你自己手里，一秒钟就能完成进退。

出海奋斗是有胆识后浪的更优选项

东南亚11国，除去东帝汶，其他10国组成东盟。东南亚有多热，从很多国际资本的快速涌入都有目共睹。养老产业：泰国、越南、菲律宾、马来西亚、印尼都是大受欧美日韩退休人士欢迎的亚洲养老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

“非常战疫

为珠峰“量身高”，为啥要人上去？

6日，2020珠峰高程测量行动测量登山队举行出发仪式，30多名计划登顶的测量登山队员当日从海拔5200米的珠峰登山大本营向更高海拔出发，计划抓住近日的天气窗口，择日登顶测量。如果成功，这将成为我国专业测绘人员首次登顶珠峰测高。

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

湖南省作为中国中南地区的一个省份，经济强劲，地位独特，有着十足的发展后劲。湖南经济总量在全国排名第九。湖南也是华夏文明的发祥地，境内的炎帝陵，成为华夏儿女寻根祭祖的重要场所。南岳衡山就在湖南衡阳。湖南张家界景区成为驰名中外的旅游景点。湖南湘西凤凰古镇成为中国驰名十大古镇之一。

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

《新周刊》创刊于1996年8月18日，由南方出版传媒股份有限公司主管、主办，以“中国最新锐的生活方式周刊”为定位，推出过一系列极具影响力的专题报道，是中国期刊市场最具代表性和影响力的杂志之一，享有“话题策源地”的美誉。

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

每一个大项目其实都会面临一个问题，那就是生态环境，因为所涉及的范围实在太广了，所以需要考虑的问题都是多方面的，三峡就是我国早期的一个超大体量的工程，而三峡所涉及的问题也很多。三峡其实一直都是我国的骄傲，但是关于三峡的质疑声，其实也一点都不少，特别是关于三峡环境方面的质疑声。

后疫情时代的五个营销启示

现象级白酒——李渡高粱酒，作为沉浸式/场景化营销的开创者，早在几年前就使用互联网工具助力，疫情爆发后一系列的操作自然游刃有余了，销量同比增加170%，线上销量更是增加400%。

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了金子一直是我们中国人比较喜欢投资的一个东西，黄金饰品也是中国女性非常喜欢购买的东西，大家都知道，金子具有保值的功能，所以很多人既喜欢在银行购买金条用于投资，又喜欢去一些金店购买黄金饰品。

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了大家都会知道，每到夏天，我们的沿海地区都是一个多风多雨的季节，这时候我们出门也是需要随时带上雨具，避免突然有暴风雨这些天气的出现。

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了每次一到假期，就非常害怕到达火车站，可以说是基本上都是人山人海的感觉。很多人会为了方便去选择去乘坐动车和高铁。现在我们无论是出差还是去旅游也都是会选择去坐动车，又快又方便，主要还会很舒服。

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

这是肖战春节后，经历过这么多事后首次参加采访。视频中他依然是面带微笑，依旧是少年的样子。但是眼里到这故事，说话也变得小心谨慎，谈吐措辞也是越来越严谨了。

秦山核电应急行动水平优化项目招标公告

从中国电力集采招标网（www.dljczb.

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

从中国电力集采招标网（www.dljczb.

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

从中国电力集采招标网（www.dljczb.

县域社区团购，在平台发展上有哪些优势？

社区团购的迅速发展，已经不再局限于各大城市中的小区。渐渐的扩大范围，发展到一些城市边缘的县城乡镇。像是兴盛优选、十荟团、食享会、考拉精选、美家买菜等月流水上亿的社区团购头部企业，都很重视下沉市场的布局和开拓。

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

戏曲是以古代故事以及现代经典故事为题材的艺术表演，也是历史悠久的综合舞台艺术样式，表演戏曲难度很高，但戏曲人才依旧人才辈出，说起在戏曲圈中的佼佼者，陈百玲必是其一。

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

这是一幅白菜图，由4字组成的，1秒看出4个字的智商都很高！你看出来了吗？

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

这福图上的图你能猜对几个？全猜对眼力非凡，猜对3个眼力160，猜对3个是近视眼！你能猜对几个字？

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

熊熊火焰中藏了4个字，看出3个算达标，全看出眼力200！你能全部看出来吗？

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

民以食为天。

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

这幅美女图中藏了5个汉字，你能不能看出来是哪几个汉字呢？全部看出来的眼力超群！

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

作为比特币爱好者，Izabella的父母在她出生当日于《泰晤士报》刊登了一则附带比特币地址的小广告，希望广大读者能够捐出小部分比特币给他们女儿作为大学教育基金。

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

孙松峰：幸福生活唱出来

河南市场安全网讯（www.hnscjgw.com）

衡水：守护一湖碧水打造生态之城

长城网衡水讯（记者张梅胜

英国小伙第一次体验中国网吧，就被电脑屏幕吓到直言：这是个啥

网吧其实不管是对于哪个国家的人来说，都是极具吸引力的，而在中国对于八九四年的年轻人和学生来说，网吧简直就是快乐源泉，但是也是老师家长中的眼中钉，肉中刺。相信很多人小时候可能都有过被家长从网吧里揪出来的不甚美好的回忆。

微商到底多能吹牛！哈哈哈哈哈千万别屏蔽，每天都是快乐源泉

虽然有的时候在朋友圈里有很多微商不停的发朋友圈，让大家觉得有些困扰和烦闷，有一种私生活被侵扰的感觉。但是不要忙着屏蔽他们，有的时候这些总是吹得天花乱坠的微商也能给人们带来快乐的源泉。

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程测量登山队伍出发仪式正式举行，30多名队员当日从海拔5200米的登山大本营向更高海拔出发，开启珠峰冲顶测量。队员们力争抓住近日的天气窗口，择日登顶测量。如果成功，这将是我国专业测绘人员首次登顶珠峰测高。

“十大沂蒙工匠”齐玉祥：钢花璀璨照亮青春之路

一支焊枪、一面防护罩，钢花白昼繁星，在刺耳的噪声中点亮四壁，焊工齐玉祥用13年的青春，打磨出了人生最璀璨的钢花。2007年，齐玉祥毕业后进入山东华源锅炉有限公司工作。刚进公司没多久，由于工作需要，他被分配到了焊接岗位。

日本的丈母娘，卖萌发嗲也是蛮有技术的

国内这点估计是比不过了

消费水平最高的5座城市，北上广深均在列，另一座你知道是哪吗？

我们都知道在地大物博的中国，拥有很多城市，而它们之间的等级划分也都是不同的，等级越高，往往消费就会越高，那么说起国内消费水平最高的几座城市，伙伴们都知道是哪里吗？接下来就让小编带大家去了解一下吧，看看有没有你心中的那个。

德国爱他美怎么样？"断货王"爱他美值得买吗？

哈哈。每次都会用iGepir 姐姐推荐来的，小宝从6个月混养喝起，现在快1岁半了，一直喝爱他美，不上火，购入量大，也算全心全意支持国际妈咪了

广东有望合并的3座城市：合并成功后，将诞生一座千万人口的城市

相信大家都知道，目前广东是中国经济实力最强的城市，哪怕是国内富有的浙江和江苏，在经济上也被广东牢牢按住。你要知道广东可是中国唯一有一线城市的省份，而且还是两座。光靠这一点就能让全国所有的省份羡慕，但比较遗憾的是，广东的经济发展似乎并不平衡。

国外奶粉怎么样？去哪买靠谱？线下实体店一定比网店安全吗？

之前买的一直是国际妈咪的海外仓，但是疫情的缘故怕被吧断粮所以在海外仓直邮了一箱又在自贸仓补了一箱，反正奶粉是消耗品，不担心吃不完hhh。自贸仓物流速递还是很快的，重庆保税区发货，4天到达。

四川潜力大的城市：还是重要的恐龙化石产地，被誉为“恐龙之乡”

对此有的网友说:很多人可能不知道，其实我们自贡还有飞机制造，汽车制造，新能源汽车，及新能源电池研发与制造产业，虽然刚起步，但未来可期!

00后，吾辈当自强

当记者采访她时，她说了一句让人永生难忘的话:“其实我们并不是什么逆行者，只不过是一些普通人在坚守自己的使命。

“我来！”

十天，我应该可以读完一本《百年孤独》，应该可以学会用吉他弹一首歌，还应该可以追完一部电视剧《庆余年》。

东北唯一新一线城市：被誉为“东方鲁尔”，经济却不如省内地级市

众所周知这几年东北的经济，确实没有以前增长得那么快了。原因相信大家也很清楚，简单点说就是南方更适合发展经济。因此中国的经济重心向南移动，所以在未来的几年甚至几十年里面，中国南方的经济都会比北方强。特别是广东省跟浙江省的经济水平，目前已经超越世界上大部分国家了。

人生有尺，做人有度

“救命钱”变“唐僧肉” 扶贫最后一公里处“蝇贪”频现！

家境殷实的90后海归女为何“沉迷”偷快递？

青春洋溢，不加过分修饰，真实的少女感，你喜欢吗？

4名网友预谋绑架一董事长，汇合后剧情突变……

江苏的第二个“苏州”，并非南京和无锡，而是这座低调的城市

说起苏州的大名，相信是无人不知，无人不晓的，作为我国名副其实的最强地级市，苏州近些年属实为人们带来了很大惊喜，甚至在经济发展上也已经远超省会南京，而今天小编要为大家带来的则是江苏境内的“第二个苏州”，发展潜力巨大，并非南京和无锡，而是这座十分低调的城市。

聚类分析原理及R语言实现过程

聚类分析定义与作用：

聚类分析的类型

聚类统计量

聚类分析的方法：

系统聚类

快速聚类

R语言实现系统聚类和K-means聚类过程详解

第二步：系统聚类

第三步：画出聚类图

第四步：画出分类矩形框

例1

Kmeans聚类R语言教程

步骤：

例2

kmeans的一个注意事项

相關文章:

伺服驱动器原理及选型

金字塔原理与结构化思维解读

02.09 是死神的化身，还是希望的光芒？十个问题认识蝙蝠

是死神的化身，还是希望的光芒？十个问题认识蝙蝠

一条优美而实用的曲线

01.30 三相异步电动机工作原理与图解

什么原理？

这种分子让化学家目睹了幽灵般的量子隧穿

金字塔原理——一本非常经典的书

对于量子物理学，你是否也有这些误解

它是如何做到集有序与无序于一身的？

有载分接开关工作原理

增肌的原理，90%的健身者都不懂！

「过压脱扣式」断路器——简介、原理、接线

「欠压脱扣式」断路器——简介、原理、接线

莫比乌斯的奇异世界

「报警辅助触头」断路器——简介、原理、常开常闭点

「辅助触头」断路器——简介、原理、常开常闭点

「分励脱扣式」断路器——简介、原理、注意事项、接线

「漏电保护式」断路器——（断路器+漏电装置）简介、原理、详解

交流接触器——简介、铭牌、原理、接线、选用原则

液位继电器——原理、运用、接线

2018最新万能盖白发公式+原理

浮球液位开关——简介、原理、供水排水运用、演示NO接线图

一个新的不确定性关系：物体可以同时处于两种温度？

著名的“哈勃定律”要被更名了？

小电工啃原理-备自投闭锁

拓扑绝缘体的一个新突破

机械动图第4期：机械原理动态图，机械工程师的最爱（2）

自然界中的一种基本对称，通过了最严格的检验

有趣的机械设计原理动图，一目了然！

图解点火系统的基本结构、原理！

灭绝，是一个自然的过程，但它发生的速度却是正常速度的1000倍

神秘而强大的第四种物质状态

机械密封培训——原理、选用、安装、使用技术要领

三极管管脚判别方法、原理

06.19 无功补偿原理基础知识详解

无功补偿原理基础知识详解

继电器驱动电路原理及注意事项

已知最精确的科学理论是？

05.14 物理学家第一次精确测量了质子的弱荷

05.11 物理学史上最伟大的魔术师

05.01 双信封悖论：换，还是不换？

科学模型表明，生活就是不公平的

03.16 史上最有个性的论文

03.02 走向抽象——伽罗瓦理论

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

出海奋斗是有胆识后浪的更优选项

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

为珠峰“量身高”，为啥要人上去？

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

后疫情时代的五个营销启示

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

秦山核电应急行动水平优化项目招标公告

衡水：守护一湖碧水打造生态之城

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度