03.02 机器学习:监督学习的三类问题

有监督学习是指通过既有的样本数据,找到潜在规律。解决的问题通常分为三类:

分类问题:这类问题也是监督学习核心问题,当输出可以分为有限个离散值的问题。比如通过个人的信贷记录判定信誉是好还是不好,通过质量的特征来判定产品是否合格等等。这里问题非常常见,用概率来描述就是通过学习得到P(Y|X)的概率分布,P(Y|X)也是一个分类器。评价分类结果的好坏有个几个指标:TP:正确的将正确的结果分出的个数;FN:假阴性(将正确的结果判定为错误);FP:假阳性(将错误的结果判断正确);TN:正确的将不对的分类分出的个数。通常用精确率、召回率和F1值来评价分类的结果:精确率=TP/TP+FP,召回率=TP/TP+FN,F1=2TP/(2TP+FP+FN)。所以当假阴性和假阳性比较低(错误比较少)时,上述几个指标都会比较高。

标注问题:可以理解为对输入序列进行标识,比如词性标注问题,输入是一个句子输出是对这个句子每个成分(主谓宾、定状补)的标注。标注问题也可以看作是对输入序列的结构发现,通过标注发现输入成分之间的关联。本质上是求P(Y1,Y2...YN|X1...XN),所以标注问题也可以看作是分类问题的复杂版本。

回归问题:当我们需要找到输入和输出之间的关系的时候,这类问题我们就可以看成是一个回归问题,回归问题本质上是求y=f(x),看成是一个函数拟合的过程。所以这类问题通常我们会将理想输出和实际输出的差距作为训练效果的评价(平方损失函数),目的是使得这个差距最小化。最著名的就是最小二乘法。通常按照输入的分类可分文线性和非线性回归、一元和多元回归,还可以组合一下比如一元或多元线性回归。

上述三个是针对问题的类型,通常不同类型的问题会采用不同的方法,如分类我们会考虑如最近邻、支持向量机、贝叶斯分类、决策树等方法;而对于标注问题我们会考虑:条件随机场、隐马尔可夫模型;对于回归问题:logistic回归和最大熵、神经网络等等。


机器学习:监督学习的三类问题


分享到:


相關文章: