全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4382 1
2007-06-08
那位大虾能不能给我说说这个图和里面的响应度的含义!不甚感激!谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-6-2 09:10:24
Lift

Lift = (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1),这个指标需要多说两句。它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少。不利用模型,我们只能利用“正例的比例是c+d/a+b+c+d”这个样本信息来估计正例的比例(baseline model),而利用模型之后,我们不需要从整个样本中来挑选正例,只需要从我们预测为正例的那个样本的子集(b+d)中挑选正例,这时预测的准确率为d/b+d。

显然,lift(提升指数)越大,模型的运行效果越好。如果这个模型的预测能力跟baseline model一样,那么d/b+d就等于c+d/a+b+c+d(lift等于1),这个模型就没有任何“提升”了(套一句金融市场的话,它的业绩没有跑过市场)。这个概念在数据库营销中非常有用,举个例子:

比如说你要向选定的1000人邮寄调查问卷(a+b+c+d=1000)。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response,c+d=200),用统计学的术语,我们说baseline response rate是20%(c+d/a+b+c+d=20%)。

如果你现在就漫天邮寄问卷,1000份你期望能收回200份,这可能达不到一次问卷调查所要求的回收率,比如说工作手册规定邮寄问卷回收率要在25%以上。

通过以前的问卷调查,你收集了关于问卷采访对象的相关资料,比如说年龄、教育程度之类。利用这些数据,你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型,这个模型把这1000人分了类,现在你可以从你的千人名单中挑选出反应最积极的100人来(b+d=100),这10%的人的反应率 (response rate)为60%(d/b+d=60%,d=60)。那么,对这100人的群体(我们称之为Top 10%),通过运用我们的模型,相对的提升(lift value)就为60%/20%=3;换句话说,与不运用模型而随机选择相比,运用模型而挑选,效果提升了3倍。

上面说lift chart是不同阈值下Lift和Depth的轨迹,先画出来:

symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot lift*depth;

run; quit;
samplehttp://cos.name/2009/02/measure- ... formance-lift-gain/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群