liwenxue_137 发表于 2014-4-16 08:48 
弱国你在读研究生,建议看看统计学的一章,风险(损失)理论(创始人---Wald)
      若最小化函数sum(y_i-x_i^T \beta)能行吗?他是没有最小值的(tends to \infty),你是求不不来估计值的。sum(abs (y_i-x_i^T \beta) )或者sum(abs (y_i-x_i^T \beta)…^2 )由于是凸函数,故能最小化。至于为什么要用这2个,没有为什么,你也用其他的非凹损失函数。sum(abs (y_i-x_i^T \beta)…^2 )用它的理由是当误差iid.~Normal distribution时,对数似然函数就是sum(abs (y_i-x_i^T \beta)…^2 ). sum(abs (y_i-x_i^T \beta) )------用它的理由是----误差是Laplace分布时----对数似然函数就是sum(abs (y_i-x_i^T \beta) )。