机器学习SVM的优劣是什么?

1,松弛系数

对于线性不可分的数据集,引入松弛系数ξ,

可以理解为数据样本违反最大间距规则的程度,大部分分类正常的样本,即满足约束条件的样本ξ=0,而对部分违反最大间距规则的样本ξ>0,参数C表示对违反最大间距规则样本的'惩罚'力度,当C比较大的时候,对于违反规则的点的惩罚力度将变得很大,C比较小的时候,对于违反规则的点,其付出的代价不是特别大,一般模型会倾向于允许部分样本违反最大间距规则

其实松弛系数类似逻辑回归中的正则项,目的都是为了纠正过拟合问题,让支持向量机对噪声数据有更强的适应性。

2,核函数kernel,把低维空间映射到高维空间

  1. liner – 线性核函数
  2. poly – 多项式核函数:(gamma*u'*v + coef0)^degree
  3. rbf – RBF高斯核函数:exp(-gamma|u-v|^2)

核函数的选择:

1,如果特征个数远大于训练样本个数,一般选择线性核函数即可

2,如果特征个数远小于训练样本数,一般需要增加特征,可以选择多项式核函数或者高斯核函数

3,如果特征个数和训练个数差别不是很大,可以使用高斯核函数


分享到:


相關文章: