Support Vector Machine + Kernel + Reproducing Kernel Hilbert Space

7057

收藏 2011-02-21

昨天有人问到一点Kernel trick的理解问题，而我正好机缘巧合发现了一个很不错的介绍reproducing kernel Hilbert space的短文。于是决定上传过来，以及一些对于SVM理解比较重要的资料。

Support Vector Machine （SVM）很重要的一个优势就在于它可以使用kernel进行运算，从而大大提高了我们可以使用feature dimension。这是现在machine learning和统计里十分常见的一个性质，被称为kernel trick. 这些都是基于reproducing kernel Hilbert space （RKHS）来建立起来的。但是大多数计算机或其他应用领域里介绍RKHS的东西都在很大程度上局限于SVM的应用，而忽略其更广义的意义（也就是说，SVM只是无数可以使用kernel方法中的一种）。但是数学上介绍RKHS的资料往往过于强调其理论本身，并没有很好的和实际建立联系，另外其本身理论深度较高，不易于非数学人士的学习。下面这篇From Zero to Reproducing
Kernel Hilbert Spaces in Twelve Pages or Less是很难得的简单阐述RKHS整体框架的综述。它避开了过多的泛函概念和数学推导，也很好的做到了于kernel实际应用的联系。不只对于那些svm的粉丝，对于希望对统计方法在更高维空间和更复杂数据中的使用的人都会十分有帮助。

另外对于SVM本身的理解（比如其为什么在很多时候十分有效，其方法的实质），在第二篇文章中有比较细致阐释。相信可以解答很多人对于svm的迷惑，当然也可能减弱很多对于svm的痴迷。这是篇discussion，所以也没是很艰涩难懂，只要有必要的对于SVM的了解，已经知道logistic等方法的人就可以很快通读。文章中的大部分内容都在Hastie, Tibshirani & Friedman的书里有所提及，这也是本十分经典的作品。作者的主页上提供免费的电子版http://www.stanford.edu/~hastie/pub.htm。

最后一点个人看法，SVM是和大家所熟知的统计方法十分类似的，和logistic并没有本质的不同。它对于two-group classification是一种十分有效的方法。但是对于multipleclasses，虽然其同样可以处理，但是方法上并没有logistic with regularization过度的自然，而且算法也低效些。最重要的是，SVM本身是直接对于分类进行估计，不能提供对于后验概率的解释。虽然很多人也试图通过于margin的距离，建立概率的概念，比如recalibrate。但是这些从根本上说，我们只能定性分析，无法定量化的度量，当然更无法做inference。当然，SVM从计算上优于logistic with regularization，因为support vector的个数通常少于数据点。我知道有众多的svm控，不过我没有任何贬低svm的意思，只是希望提供一些个人认为客观的评价，大家不同意也不要喷我。

希望对大家有所帮助。

附件列表

From Zero to Reproducing Kernel Hilbert Spaces in Twelve Pages or Less.pdf

大小:115.29 KB

马上下载

Hastie & Zhu 2006.pdf

大小:277.3 KB

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

爱萌

2011-2-21 15:23:06

纠结了半天要不要说一些东西，还是想说一句，其实你还没有掌握SVM的本质

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ltx5151

2011-2-21 16:11:15

2# 爱萌
我也只是分享一点自己的粗浅看法，实在不敢说理解了它的本质，让您见笑了。

请问能解释的详细一点吗，让大家都学习学习，谢谢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

fishiwhj

2011-4-11 23:16:37

模式分析主要是对要处理的数据集建立之间的线性关系，以此来预测。
SVM也不例外，不过其思想主要是最大化margin。kernel trick和quadratic programming
只是附加品。因为目标函数是二次的，约束是线性的，又恰好有向量之间的点积。

至于后验概率的解释? 这是什么意思...可不可以理解成对预测结果的解释?
SVM还是基于数据集的几何特征来分类的，不光SVM是，所有的寻找数据集特征的算法都
是，当然他们对数据集的分布不做任何假定。如果有分布，根据统计学习理论只能给出一个
error bound。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2012-11-15 16:43:06

什么方法都有局限，否则早已一统数据分析界了。关键是如何各类模型如何组合，用于实际，理论分析让象牙塔中的各国的国宝们做吧。。很是闹心。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kevinfeng1988

2017-7-18 13:13:13

受教了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群