R语言——判断向量是分类还是连续数值

2018-12-26 23:03:28 jennifer5jl

昨天做完信息熵计算之后，想到了一个问题

一般我们用read.csv读取一个表格时，R软件自动判断转换出来的分类型变量好像经常性的对不上我们的认知，大概举个例子：

比如我现在读取了一张表，没附加参数，由R自行判断哪些列可以作为分类变量转成因子型

在它读取完之后，我看了看它的转化结果，然后在图的左边添了一列圈圈叉叉

其中×的那两排，就是我的认知跟它有分歧的地方（表格总共9列）

这正确率还真是不太高，难怪很多书上都推荐加stringsAsFactor参数

但是，如果是个列数很多的大表格，我不用眼睛去人工判断的话，有可能让R软件尽量自己分正确嘛？

然后，我萌生了做个表格转换function的想法，并成功地把自己坑到了晚上10点还在整代码的境地

从数学角度来说，判断是否分类变量的依据大概是这样的：

我们先计算出表中每列向量的熵值，由于这里全部是单向量输入，所以弄了个简化版（跟昨天相比的话）

按照熵的性质，其取值范围是个介于[0,log2(n)]的值，其中n为向量长度，那就是说，如果我把所有熵值都除以它的最大值，就可以统一转换成一个0到1之间的量度了吧

算出比值后对照下我认知中的分类变量，可以看到符合要求的分类变量熵值都比较小，那怎么判断分类和连续的中间节点呢，这时我想到要不画个图看看

当用diff函数做一阶差分后，感觉已经看到了胜利的曙光，咱要的分界节点就是一阶差分的最大值，排在他前边的判断为分类项，在它本身和它之后的判断为连续值

PS：diff做完会把向量剪短一个，所以做之前先多补了一个最小值进去

当数学部分差不多搞定后，我发现了另一个蛋疼的问题，那就是从来可以应对大部分循环结构的apply函数，失效了

是的，由于它在拆解二维表到向量的过程中已经内部转换了一次向量格式到文本型，以至于它碰到所有判断向量格式的函数一律回答character，所以，我默默地打开帮助文档去捡回了丢弃已久的for函数

最终整理出来的完整代码如下：

#单列熵值计算
En1 Pi En return(En) }
#判断向量为分类还是连续
GCconvert if (!is.data.frame(x)){
stop("'x' must be data.frame") }
else{
Pi names(Pi) D1 Gcols for (i in 1:ncol(x)) {
if(is.factor(x[,i])) {
x[,i] }
for (j in Gcols) {
x[,j] }
return(x) }

当中为了避免表中已有被错转成因子型的列，增加了一段for循环转成文本

代进去试下效果

嗯，有前途，后边可以再多试几个表看看 : )

分享到:

閱讀更多 jennifer5jl 的文章

關鍵字: 数学信息熵对不上

数据统计的理解和运用（二）t检验的应用

数据统计的理解和运用（一）思路篇

大佬新作dtplyr:当优秀的语法遇上牛批的速度

R爬虫小白入门：Rvest爬链家网+分析（三）

R语言中文社区2018年终文章整理（作者篇）

一图胜千言：用好图表，好好说话

R语言——保存图片

R语言——apply族的其他几个兄弟

R语言实现基本统计分析之t检验

备受推崇的《R语言实战》真的值得如此好评吗？

「R语言实用技巧」类别变量的顺序自定义设置

多元线性回归预测：餐馆营业额与多因素实战

R语言——公式还原到源数据

R语言——手工做个线性回归模型

R语言——广义逆矩阵能怎么用咧

R语言——画曲线和网格线

Graphpad Prism 8.0绘制小提琴图

2018大盘点｜R语言中文社区十大火爆文章

R语言——数值预测的一些评价指标

教你不做实验的发文章技巧：入门Meta分析

10.13 工作中人们常提到的数据预处理，说的到底是什么？

社科文献一周新书单（2018.8.27-8.31）

北京西城城管案件聚类分析算法

城管案件聚类分析——以北京西城为例

聚类分析原理及R语言实现过程

高分论文分析方法—判别分析原理及R语言实现

Python之父愤然退位：再也无法忍受他们鄙视我的意见

独家｜一文解析统计学在机器学习中的重要性（附学习资源）

ICML 2018｜腾讯AI Lab详解16篇入选论文

暑期课程优惠！

异步社区本周半价电子书

文科僧学习大数据，我告诉你点秘密

TIOBE编程语言榜：C语言持续暴涨，有望赶超Java

学R，别再看那些古董级的中文书了

学者必备！8大免费又实用的科研利器，总有一款适合你！

大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

大数据告诉你我国什么地方吃货最多，快来看看你们所在城市怎样

数据分析课程大促销

TCGA单元课解禁，回关键字得课件

金融数据分析师成长必修课，零基础学习数据分析和金融风控建模

10.25 用R对PVD Rdson偏高的问题进行数据分析

R语言数据特征分析——统计量分析

R语言数据挖掘实践——社交网络分析利器igraph

编程语言的选择与穷或富裕之间的小秘密

R语言数据挖掘实践——神经网络代码实战

R语言3种数据分析方法，搬好板凳，记笔记了！

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

转念一想，这种看似不正常的状态才是正常的，随着时间的推移，很多过去迷迷糊糊的人慢慢就看清了，是进是退跟着内心走就好，别管什么善始善终，不要被这种论调道德绑架，过段时间，你觉得可以，再回来就行，开关在你自己手里，一秒钟就能完成进退。

出海奋斗是有胆识后浪的更优选项

东南亚11国，除去东帝汶，其他10国组成东盟。东南亚有多热，从很多国际资本的快速涌入都有目共睹。养老产业：泰国、越南、菲律宾、马来西亚、印尼都是大受欧美日韩退休人士欢迎的亚洲养老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

“非常战疫

为珠峰“量身高”，为啥要人上去？

6日，2020珠峰高程测量行动测量登山队举行出发仪式，30多名计划登顶的测量登山队员当日从海拔5200米的珠峰登山大本营向更高海拔出发，计划抓住近日的天气窗口，择日登顶测量。如果成功，这将成为我国专业测绘人员首次登顶珠峰测高。

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

湖南省作为中国中南地区的一个省份，经济强劲，地位独特，有着十足的发展后劲。湖南经济总量在全国排名第九。湖南也是华夏文明的发祥地，境内的炎帝陵，成为华夏儿女寻根祭祖的重要场所。南岳衡山就在湖南衡阳。湖南张家界景区成为驰名中外的旅游景点。湖南湘西凤凰古镇成为中国驰名十大古镇之一。

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

《新周刊》创刊于1996年8月18日，由南方出版传媒股份有限公司主管、主办，以“中国最新锐的生活方式周刊”为定位，推出过一系列极具影响力的专题报道，是中国期刊市场最具代表性和影响力的杂志之一，享有“话题策源地”的美誉。

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

每一个大项目其实都会面临一个问题，那就是生态环境，因为所涉及的范围实在太广了，所以需要考虑的问题都是多方面的，三峡就是我国早期的一个超大体量的工程，而三峡所涉及的问题也很多。三峡其实一直都是我国的骄傲，但是关于三峡的质疑声，其实也一点都不少，特别是关于三峡环境方面的质疑声。

后疫情时代的五个营销启示

现象级白酒——李渡高粱酒，作为沉浸式/场景化营销的开创者，早在几年前就使用互联网工具助力，疫情爆发后一系列的操作自然游刃有余了，销量同比增加170%，线上销量更是增加400%。

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了金子一直是我们中国人比较喜欢投资的一个东西，黄金饰品也是中国女性非常喜欢购买的东西，大家都知道，金子具有保值的功能，所以很多人既喜欢在银行购买金条用于投资，又喜欢去一些金店购买黄金饰品。

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了大家都会知道，每到夏天，我们的沿海地区都是一个多风多雨的季节，这时候我们出门也是需要随时带上雨具，避免突然有暴风雨这些天气的出现。

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了每次一到假期，就非常害怕到达火车站，可以说是基本上都是人山人海的感觉。很多人会为了方便去选择去乘坐动车和高铁。现在我们无论是出差还是去旅游也都是会选择去坐动车，又快又方便，主要还会很舒服。

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

这是肖战春节后，经历过这么多事后首次参加采访。视频中他依然是面带微笑，依旧是少年的样子。但是眼里到这故事，说话也变得小心谨慎，谈吐措辞也是越来越严谨了。

秦山核电应急行动水平优化项目招标公告

从中国电力集采招标网（www.dljczb.

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

从中国电力集采招标网（www.dljczb.

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

从中国电力集采招标网（www.dljczb.

县域社区团购，在平台发展上有哪些优势？

社区团购的迅速发展，已经不再局限于各大城市中的小区。渐渐的扩大范围，发展到一些城市边缘的县城乡镇。像是兴盛优选、十荟团、食享会、考拉精选、美家买菜等月流水上亿的社区团购头部企业，都很重视下沉市场的布局和开拓。

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

戏曲是以古代故事以及现代经典故事为题材的艺术表演，也是历史悠久的综合舞台艺术样式，表演戏曲难度很高，但戏曲人才依旧人才辈出，说起在戏曲圈中的佼佼者，陈百玲必是其一。

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

这是一幅白菜图，由4字组成的，1秒看出4个字的智商都很高！你看出来了吗？

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

这福图上的图你能猜对几个？全猜对眼力非凡，猜对3个眼力160，猜对3个是近视眼！你能猜对几个字？

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

熊熊火焰中藏了4个字，看出3个算达标，全看出眼力200！你能全部看出来吗？

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

民以食为天。

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

这幅美女图中藏了5个汉字，你能不能看出来是哪几个汉字呢？全部看出来的眼力超群！

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

作为比特币爱好者，Izabella的父母在她出生当日于《泰晤士报》刊登了一则附带比特币地址的小广告，希望广大读者能够捐出小部分比特币给他们女儿作为大学教育基金。

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

孙松峰：幸福生活唱出来

河南市场安全网讯（www.hnscjgw.com）

衡水：守护一湖碧水打造生态之城

长城网衡水讯（记者张梅胜

英国小伙第一次体验中国网吧，就被电脑屏幕吓到直言：这是个啥

网吧其实不管是对于哪个国家的人来说，都是极具吸引力的，而在中国对于八九四年的年轻人和学生来说，网吧简直就是快乐源泉，但是也是老师家长中的眼中钉，肉中刺。相信很多人小时候可能都有过被家长从网吧里揪出来的不甚美好的回忆。

微商到底多能吹牛！哈哈哈哈哈千万别屏蔽，每天都是快乐源泉

虽然有的时候在朋友圈里有很多微商不停的发朋友圈，让大家觉得有些困扰和烦闷，有一种私生活被侵扰的感觉。但是不要忙着屏蔽他们，有的时候这些总是吹得天花乱坠的微商也能给人们带来快乐的源泉。

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程测量登山队伍出发仪式正式举行，30多名队员当日从海拔5200米的登山大本营向更高海拔出发，开启珠峰冲顶测量。队员们力争抓住近日的天气窗口，择日登顶测量。如果成功，这将是我国专业测绘人员首次登顶珠峰测高。

“十大沂蒙工匠”齐玉祥：钢花璀璨照亮青春之路

一支焊枪、一面防护罩，钢花白昼繁星，在刺耳的噪声中点亮四壁，焊工齐玉祥用13年的青春，打磨出了人生最璀璨的钢花。2007年，齐玉祥毕业后进入山东华源锅炉有限公司工作。刚进公司没多久，由于工作需要，他被分配到了焊接岗位。

日本的丈母娘，卖萌发嗲也是蛮有技术的

国内这点估计是比不过了

消费水平最高的5座城市，北上广深均在列，另一座你知道是哪吗？

我们都知道在地大物博的中国，拥有很多城市，而它们之间的等级划分也都是不同的，等级越高，往往消费就会越高，那么说起国内消费水平最高的几座城市，伙伴们都知道是哪里吗？接下来就让小编带大家去了解一下吧，看看有没有你心中的那个。

德国爱他美怎么样？"断货王"爱他美值得买吗？

哈哈。每次都会用iGepir 姐姐推荐来的，小宝从6个月混养喝起，现在快1岁半了，一直喝爱他美，不上火，购入量大，也算全心全意支持国际妈咪了

广东有望合并的3座城市：合并成功后，将诞生一座千万人口的城市

相信大家都知道，目前广东是中国经济实力最强的城市，哪怕是国内富有的浙江和江苏，在经济上也被广东牢牢按住。你要知道广东可是中国唯一有一线城市的省份，而且还是两座。光靠这一点就能让全国所有的省份羡慕，但比较遗憾的是，广东的经济发展似乎并不平衡。

国外奶粉怎么样？去哪买靠谱？线下实体店一定比网店安全吗？

之前买的一直是国际妈咪的海外仓，但是疫情的缘故怕被吧断粮所以在海外仓直邮了一箱又在自贸仓补了一箱，反正奶粉是消耗品，不担心吃不完hhh。自贸仓物流速递还是很快的，重庆保税区发货，4天到达。

四川潜力大的城市：还是重要的恐龙化石产地，被誉为“恐龙之乡”

对此有的网友说:很多人可能不知道，其实我们自贡还有飞机制造，汽车制造，新能源汽车，及新能源电池研发与制造产业，虽然刚起步，但未来可期!

00后，吾辈当自强

当记者采访她时，她说了一句让人永生难忘的话:“其实我们并不是什么逆行者，只不过是一些普通人在坚守自己的使命。

“我来！”

十天，我应该可以读完一本《百年孤独》，应该可以学会用吉他弹一首歌，还应该可以追完一部电视剧《庆余年》。

东北唯一新一线城市：被誉为“东方鲁尔”，经济却不如省内地级市

众所周知这几年东北的经济，确实没有以前增长得那么快了。原因相信大家也很清楚，简单点说就是南方更适合发展经济。因此中国的经济重心向南移动，所以在未来的几年甚至几十年里面，中国南方的经济都会比北方强。特别是广东省跟浙江省的经济水平，目前已经超越世界上大部分国家了。

人生有尺，做人有度

“救命钱”变“唐僧肉” 扶贫最后一公里处“蝇贪”频现！

家境殷实的90后海归女为何“沉迷”偷快递？

青春洋溢，不加过分修饰，真实的少女感，你喜欢吗？

4名网友预谋绑架一董事长，汇合后剧情突变……

江苏的第二个“苏州”，并非南京和无锡，而是这座低调的城市

说起苏州的大名，相信是无人不知，无人不晓的，作为我国名副其实的最强地级市，苏州近些年属实为人们带来了很大惊喜，甚至在经济发展上也已经远超省会南京，而今天小编要为大家带来的则是江苏境内的“第二个苏州”，发展潜力巨大，并非南京和无锡，而是这座十分低调的城市。

R语言——判断向量是分类还是连续数值

相關文章:

数据统计的理解和运用（二）t检验的应用

数据统计的理解和运用（一）思路篇

大佬新作dtplyr:当优秀的语法遇上牛批的速度

R爬虫小白入门：Rvest爬链家网+分析（三）

R语言中文社区2018年终文章整理（作者篇）

一图胜千言：用好图表，好好说话

R语言——保存图片

R语言——apply族的其他几个兄弟

R语言实现基本统计分析之t检验

备受推崇的《R语言实战》真的值得如此好评吗？

「R语言实用技巧」类别变量的顺序自定义设置

多元线性回归预测：餐馆营业额与多因素实战

R语言——公式还原到源数据

R语言——手工做个线性回归模型

R语言——广义逆矩阵能怎么用咧

R语言——画曲线和网格线

Graphpad Prism 8.0绘制小提琴图

2018大盘点｜R语言中文社区十大火爆文章

R语言——数值预测的一些评价指标

教你不做实验的发文章技巧：入门Meta分析

10.13 工作中人们常提到的数据预处理，说的到底是什么？

社科文献一周新书单（2018.8.27-8.31）

北京西城城管案件聚类分析算法

城管案件聚类分析——以北京西城为例

聚类分析原理及R语言实现过程

高分论文分析方法—判别分析原理及R语言实现

Python之父愤然退位：再也无法忍受他们鄙视我的意见

独家｜一文解析统计学在机器学习中的重要性（附学习资源）

ICML 2018｜腾讯AI Lab详解16篇入选论文

暑期课程优惠！

异步社区本周半价电子书

文科僧学习大数据，我告诉你点秘密

TIOBE编程语言榜：C语言持续暴涨，有望赶超Java

学R，别再看那些古董级的中文书了

学者必备！8大免费又实用的科研利器，总有一款适合你！

大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

大数据告诉你我国什么地方吃货最多，快来看看你们所在城市怎样

数据分析课程大促销

TCGA单元课解禁，回关键字得课件

金融数据分析师成长必修课，零基础学习数据分析和金融风控建模

10.25 用R对PVD Rdson偏高的问题进行数据分析

R语言数据特征分析——统计量分析

R语言数据挖掘实践——社交网络分析利器igraph

编程语言的选择与穷或富裕之间的小秘密

R语言数据挖掘实践——神经网络代码实战

R语言3种数据分析方法，搬好板凳，记笔记了！

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

出海奋斗是有胆识后浪的更优选项

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

为珠峰“量身高”，为啥要人上去？

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

后疫情时代的五个营销启示

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

秦山核电应急行动水平优化项目招标公告

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

县域社区团购，在平台发展上有哪些优势？

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

孙松峰：幸福生活唱出来

衡水：守护一湖碧水 打造生态之城

英国小伙第一次体验中国网吧，就被电脑屏幕吓到直言：这是个啥

衡水：守护一湖碧水打造生态之城

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度