R语言数据挖掘实践——模型评估可视化

R语言数据挖掘实践——模型评估可视化

我们之前了解的一系列模型的构建,大部分都是通过描述和拟合来进行预测的。所以我们再评估一个模型时,通常考虑的重点也即为模型的预测能力。

通常,我们需要对多个模型进行评估,从而从众多的模型中最终确定出一个最优的模型。而在模型评估这一过程中,必须弄清楚我们利用模型进行样本预测时所想要得到的结果是什么,这样做的同时也有助于我们清晰地认识在模型构建的过程中,被放入模型中的变量是否合适和必要,在利用软件进行模型评估之前,重要的一步就是模型构建者自身对统计模型的重新审视。

评估过程概述

在进行模型评估过程中,我们会利用到predict()函数,同时我们将主要通过Rattle软件包进行模型评估。在评估过程中,将对模型性能的各个方面进行评测。

1、混淆矩阵

我们通常会从模型的混淆矩阵开始来评测模型的预测能力,模型的混淆矩阵主要是讨论模型的预测结果同真实结果之间的差距,从模型的混淆矩阵中我们会引申出4个概念,分别为:正确的肯定结果、错误的肯定结果、正确的否定结果以及错误的否定结果。

2、风险图

根据模型的混淆矩阵以及以上的4个概念,我们将绘制出模型的风险图。风险图主要是利用图像的形式对模型的预测结果与真实值之间的差别进行比较分析。

3、ROC图像

处理模型风险图之外,我们还能绘制出模型的ROC图像进行模型评估。

4、得分数据集

在模型评估的最后,我们将能得到一个关于模型简单的得分数据集。

这既是模型评估的大致过程。在进行模型评估之前我们必须注意:当利用一个新的数据集进行模型分析的时候,这个新的数据集中所包含的变量以及数据类型,也应该同模型建立时所使用的数据集相同,否则将会出现错误。

安装Rattle包

Rattle包是R语言中一个用于数据挖掘的图形交互界面,可快捷处理常见的数据挖掘问题。从数据的整理到模型的评价,Rattle给出了完整的解决方案。Rattle和R具有良好的交互性,使得用户使用R语言处理复杂问题更为方便快捷。

Rattle程序包的安装同其他程序包的安装略有不同,由于该程序包相当于R软件中的一个可视化窗口,所以在安装之前需要安装相关插件,以保证该程序包的正常运行。具体安装步骤如下:

1、下载安装GTK+

GTK+是一套跨多种平台的图形工具包,目前已发展为一个功能强大、设计灵活的通用图形库。该插件的下载地址为:https://sourceforge.net/projects/gladewin32/files/gtk%2B-win32-runtime/2.12.9/gtk-2.12.9-win32-2.exe/download?use_mirror=nchc

2、下载安装GGobi

GGobi是一种用于交互式可视化的开源软件,可以用作R软件的插件,该插件的下载地址为:http://www.ggobi.org/downloads/

3、下载安装rattle程序包

具体安装语句为:

>install.packages("rattle",dependencies=TRUE)

因为rattle包存在很多依赖,如果相关的依赖包没有安装,那么安装的时间会稍长。

4、程序包安装成功后,运行如下代码,可弹出rattle的可视化界面。

>library(rattle)

>rattle()

R语言数据挖掘实践——模型评估可视化


分享到:


相關文章: