支持向量是什么?

442

收藏 2015-04-07

1.为什么会有个hypothesis？是不是就是数理统计里面的假设？
—>假设指特征和预测结果的结构。h=g(w^T*x+b)
—>g(z)=1,z>=0;g(z)=0,z<0.  y={1,-1}
2.为什么要缩放，为什么要标准化？函数间隔和几何间隔有什么差别？
—>几何间隔指样本点到分类超平面的距离。如果分类正确就是正数，分类错误就是负数。
—>且要使所有训练样本的间隔尽可能的大。函数：gamma^=y*g(w^T*x+b)  几何：gamma=y*g(w^T/||w||*x+b/||w||)
—>所以可以添加约束条件||w||=1.反正为了各种计算需要都可以添加约束比如|w1|=1.
—>最优化问题描述#1：max{gamma,w,b} gamma
                                    st.  y^(i)*g(w^T*x^(i)+b) > gamma, for all i
                                          ||w||=1
3.怎样的分类算法是最优分类算法？
—>求解上述问题得到最优间隔分类器。
4.如何直观地理解原问题和对偶问题？
5.可以导出一类具有特点的优化问题，能将它修正成很高效的算法，How？
—>SMO算法
6.对偶问题的好处在于能使我们处理甚至很高维——无穷维的问题，How？
—>对偶问题定义。
7.如何以解支持向量机为例得到一般的优化问题解法？
8.KKT条件到底约束了什么？为什么KKT条件是算法收敛的条件?—>若f是凸函数即f的Henson矩阵半正定,假设hi是一个仿射函数h_i(w)=a_i^T*w+b_i;g_i是严格可行的,也就是存在w
   使得任意的i,有g_i(w)<0.那么存在w*,alpha*,beta*使得,w*是原问题的解,alpha*,beta*是拉格朗日乘子,是对偶问题
   的解.p*=d*=L(alpha*,beta*,w*),而且参数还满足下面的条件,
   (1)Partial L(alpha*,beta*,w*)/partial w=0;
   (2)Partial L(alpha*,beta*,w*)/partial beta=0;
   (3)alpha**g_i(w*)=0;
   (4)g_i(w*)<=0;
   (5)alpha*>=0.这就叫做KKT互补条件.    观察第三个KKT条件,得到另外一种表达KKT条件:
   (1)if alpha_i!=0 implies that g_i(w*)=0,而且通常两者是等价的.
9.为什么一般情况下有Max Min f(x,y)  <= Min Max f(x,y)?
10.支持向量指的就是到分类超平面的距离等于1的样本点！就是几何间隔等于1的样本点。
11.分类问题如何被写成约束条件？
12.为什么对偶问题的转换规则是那样的？
13.分类问题怎么被写成原问题的？
—>函数间隔等于标签*特征的线性组合,标签被符号化了，要求特征的线性组合非负。
14.优化问题是怎么进化的？
—>#1的||w||不是凸优化约束
—>#2最大化几何间隔,约束条件是函数间隔：max{gamma,w,b} gamma^/||w||
                                                                     st. y^(i)*g(w^T*x^(i)+b) > gamma^, for all i—>#3:添加约束gamma^=1
         min{i} y^(i)*(w^T*x+b) =1
         min{w,b}||w||^2
         s.t. y^(i)*(w^T*x+b)>=1
15.怎样的问题是凸优化问题？
16.为什么要用核代替原来两个样本的计算?\phi特征向量的作用是什么?17.几种核函数:(1)K(x,z)=(x^T*z+c)^2
                     (2)K(x,z)=(x^T*z+c)^d
                     (3)K(x,z)=exp{2 ||x-z||^2\delta^2}
18.如何构造核函数?\phi(x)*\phi(z)=x*z
   若x,z比较相似,它们的方向就相似,然后<\phi(x),\phi(y)>就比较大;若方向相反,它们内积就比较接近0.
19.核函数存在:存在函数 \phi 使得<\phi(x),\phi(y)>=Kernal(x,z)
20.如果Kernal是核函数,有点{x^(1),x^(2),...,x^(m)},K是m*m矩阵,其中K_{ij}=Kernal(x^(i),x^(j)),z^T*K*z>=0,
   当K为半正定矩阵时,记做K>=0.
21.Merser定理:若K(x,z)是个合法的核函数,就被叫做Mercer核,也就是存在\phi使得K(x,z)=\phi(x)K\phi(z),当且仅当对所有的样本
   {x^(1),x^(2),...,x^(m)} 它的核矩阵K是对称的半正定矩阵.
   这是个验证核函数是不是有效的核函数.
22.如何将核函数概念用到SVM问题中?
   核函数和非线性的学习问题.将原来的特征空间映射到高维的特征空间,映射到无穷维的.23.对偶优化问题和核函数的关系是什么?23.正则Norm1是为了解决数据出现异常的情况吗?可是我们怎么知道数据就是有问题的?
24.通过学习SMO算法学习会如何解决最优化问题.
—>SMO算法需要迭代的次数多,但是每次迭代的开销都比较少.
25.SMO的优化问题:
   (1)SMO选择每次上升两个标号
   (2)用启发是规则选择两个要上升的标号,alpha_i,alpha_j,并且保持i,j之外的所有标号不变,
      然后在满足各种条件后,让W达到最优.就是满足收敛条件就停止.
26.标号上升方法:
   max{alpha_1,alpha_2,...,alpha_m}
   For i=1 to m
   alpha_i=arg max{alpha_i} w(alpha_1,alpha_2,...,alpha_i,alpha_i+1,...,alpha_m)    其中,W(alpha)=sum{i}sigma_i-1/2sum{i}sum{j}alpha_i*alpha_j*y^(i)*y^(j)<x^(i),x^(j)>,来自哪里?
27.除了用搜索的方法找到最大值的解之外,还有别的方法吗?依次的按照其中的一个变量,找到alpha_i,接下去,再按照另外一个变量找到使得w最大的alpha_i,这样就可以.对于高维的情况可以不按照顺序的方式进行.但是这是出于什么考虑?目的就是为了更快的接近到最大值.
28.非顺序的固定参数,内层循环是什么概念?
29.如何找到算法收敛的条件?对偶问题的目标是怎么写出来的?30.SMO算法收敛的条件是什么?
31.如何在算法中处理约束?如何在算法中处理收敛?要考虑哪几个层面的东西,约束中的变量怎么处理的?
32.参数和标号线性组合的约束条件是怎么得到的?
33.多项式核或者高斯核都可以很好的用于像素识别,手写识别的问题中,会有和神经网络差不多的效果.
34.SVM还可以用来给蛋白质序列分类,构造蛋白质序列特征的挑战性在于(1)蛋白质的序列有可能是不一样的.
   他使用的方式是表示出四个字母所有的组合,统计每个蛋白中氨基酸序列的中出现的字母序列的个数.
   可以用很高效的动态规划算法来计算向量的内集.
35.QP问题是什么?
—>quadratic problem,二次型规划问题。
36.选择标号的启发性算法是什么?
37.为什么可以直接把函数间隔去掉？直接的答案是什么呢？
—>加限制条件和原问题是等价的。人为加上去条件能够导致一个高效的算法。
38.拉格朗日算子和对偶问题有什么关系？
39.对两个限制条件求max对w求min是增广的原问题吗？中间状态不存在的极端情况。min{w}max{alpha,beta}Langrane
—>可以证明就是的。max{alpha,beta}min{w}Langrane是对应的对偶问题。拉格朗日函数让原问题和对偶问题联系到一起了.
40.所有原问题和对偶问题都有一样的解吗？
41.一个函数的Hession矩阵是什么?
参考文章:Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines
Important point:
(1)Instead of previous SVM learning algorithms that use numerical quadratic programming (QP) as an inner loop, SMO uses an analytic QP step.
(2)The SMO algorithm is then presented in detail, including the solution to the analytic QP step,heuristics for choosing which variables to optimize in the inner loop, a description of how to set the threshold of the SVM, some optimizations for special cases, the pseudo-code of the algorithm,and the relationship of SMO to other algorithms.
(3)For chunking, a fixed number of examples are added every step, while the zero Lagrange multipliers are discarded at every step. Thus, the number of examples trained per step tends to grow. For Osuna’s algorithm, a fixed number of examples are optimized every step: the same number of examples is added to and discarded from the problem at every step. For SMO, only two examples are analytically optimized at every step, so that each step is very fast.