在使用R语言进行文本挖掘之前,我们先安装一些常用的文本挖掘程序包。
> install.packages("tm")
> install.packages("RJava")
> install.packages("Rwordseg")
> install.packages("RColorBrewer")
> install.packages("wordcloud")
> install.packages("tmcn")
我们主要使用的程序包是Rwordseg,这个安装包需要依赖rJava包,rJava需要本机中有安装Java。
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
或者直接搜索安装JDK,技术人员应该都懂,非技术人员可能会搞错,不然没办法使用Rwordseg。下载好JDK中,我们需要在“控制面板-系统-高级系统设置-环境变量”中配置好相关的环境变量,如下图所示:
在cmd命令行环境下,我们可以输入“java -version”来检测环境变量的配置是否正确,如果能打印出Java的相关信息,则说明配置正确,那么我们就可以开始安装rJava程序包了。
安装完rJava包之后,就可以开始安装文本分词包Rwordseg,由于Rwordseg只能在R3.0.2版本上安装成功,并且Rwordseg放在Rforge而非CRAN上,因此如果直接install.packages,基本都会失败告终。正确方法是下载源码,本地安装。
我们先从官网下载安装包,下载地址:https://r-forge.r-project.org/R/?group_id=1054
然后,我们使用RStudio的Tools工具栏,以zip的形式手工导入已经下载好的Rwordseg包进行安装。
通过以上几个步骤,初步完成了文本挖掘相关包的安装和环境搭建工作,下一步:开始使用安装包进行文本挖掘!
閱讀更多 數據分析和挖掘 的文章