全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
6199 6
2011-03-20
◎ 重要日期  2011年3月19日—2011年4月15日 在线注册
  2011年3月22日 比赛开始
  2011年4月27日 比赛结束
◎ 竞赛背景  Amazon的数百万图书,Netflix的10万部电影,淘宝的8亿件在线商品,以及数以亿万计用户的资料和行为记录……互联网公司最近十年的迅猛发展伴随着海量数据的积累。然而,在线用户常常面对过多的选择而显得无所适从。心理学研究证实这类情境下的用户有时做出放弃交易的决定,从而造成大量潜在的用户流失。统计技术的发展能够为在线服务商提供更有效的推荐算法,在帮助用户走出信息过载困境、改善用户体验的同时,还能够挖掘商品长尾、提升企业价值。在今天,用户不再局限于通过搜索引擎来寻找感兴趣的信息,推荐系统无所不在地为我们发现自己的潜在需求。
  推荐在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助,由中国科学技术大学管理学院中国人民大学统计学院统计之都(COS)网站联合举办。目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法,改善会员推荐的精度,增加网站黏度。
◎ 奖项设置
本科生组: 非本科生组:
一等奖一名,10000元/队 一等奖一名,10000元/队
二等奖一名,5000元/队 二等奖一名,5000元/队
三等奖三名,2000元/队 三等奖三名,2000元/队
入围奖三名,500元/队 入围奖三名,500元/队
  为保证公平,本科生组和非本科生组将分别进行评审和排名。成员中包含至少一位非本科生的队伍将划分在非本科生组中进行评比。非本科生组的模型需至少达到本科生组入围奖模型的效果时,才能获奖。为确保算法的真实有效性,未最终提交论文和源代码的队伍,不能获得该项奖励。答辩名单确定后,外地答辩队伍的差旅费用由竞赛委员会承担(每队限一人)。答辩地点另行通知。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-3-20 12:30:30
◎ 竞赛任务  本次竞赛的建模任务是,通过构造有效的统计评分模型,评估给定的候选会员集合中哪些会员更容易获得特定会员A的青睐。例如,如果需要给会员A推荐(rec)某10名指定的候选会员,参赛队构造的模型应该能够将1-10号候选会员排序,排在前面的会员被认为更容易获得A的喜爱,从而引起click或msg的行为。msg > click > rec。
◎ 评价标准  性能良好的评分模型,应该能够给予那些引起msg或click的候选会员更高的评分(排序靠前),从而推荐给指定会员。本次竞赛的主要排名标准为Normalized Discounted Cumulative Gain(NDCG),定义如下:

  这里表示模型给出的排序中,排名为的候选会员的实际ACTION值(msg=2,click=1,rec=0)。对每一位获得推荐建议的会员A,都需要计算一个相应的NDCG。所有获得推荐建议的会员对应的NDCG的平均值,作为排名的主要依据。
  表示计算NDCG时仅采用排序前10的候选会员的ACTION进行计算,因此将尽可能多的msg或click排在前面至关重要。指数变换是为了增大ACTION间的差异以凸显msg和click的重要性。折扣因子用来强调越能将msg会员排名靠前的算法越好。例如,两种不同的推荐算法给出的排序对应的真实ACTION如下表所示,由于RANK 1算出的NDCG为0.8045,而RANK 2算出的NDCG仅有0.7579,我们认为RANK 1对应的算法更好。
RANK 1clickmsgrecclickrec
RANK 2clickclickmsgrecrec
  这里给出一个计算NDCG的例子。假设某统计评分模型对5位会员进行了评分,以确定哪位会员更可能获得会员A的青睐(评分越高表示兴趣越大):
USER_ID_B12345
模型评分 1.20.7-2.50.24.0
按评分排序 23541
ACTION (y)msg (y2=2)click (y3=1)rec (y5=0)rec (y4=0)rec (y1=0)

因此对于会员A,

如果能够获得的评分足够理想,从而能够完美地预测出会员A关于5位会员的兴趣排序,则此时相应的DCG称为Ideal DCG:

从而对会员A,
  注意:如果排名靠前的队伍在NDCG上处于胶着状态,竞赛委员会将通过综合考虑推荐算法的其他属性决定最终比赛排名,如算法复杂度、可解释性以及部署成本等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-20 12:33:24
◎ 数据说明某婚恋网站在会员访问其网站时,会按照一定规则在页面的特定位置,给会员A推荐(rec)他/她可能感兴趣的会员B,此时A仅仅能看到B的头像(真人照片)。如果A进入B的主页进行查看,则发生了点击(click),此时A能浏览B的详细资料。在浏览B的资料后,如果A觉得有进一步的兴趣,则会通过站内信件(msg)与B联络。会员A对同一会员B的click、msg行为有可能多次发生。同一会员B也可能被系统多次推荐给会员A。另外,会员A本身也可能被系统推荐给其他会员。参赛队员在数据中自行验证这些数据特征,在此不一一赘述。
  竞赛委员会将为注册参赛队提供该网站中某城市会员在最近三个月内完整的交互行为数据以及相关会员资料。共包含4个数据集:train.txt,profile_f.txt,profile_m.txt和test.txt。
  train.txt包含约860万条交互记录,每条记录包括4个属性,涉及近6万名会员。格式如下:
USER_ID_AUSER_ID_BROUNDACTION
1000333758791rec
1000333817201rec
10003338172018rec
10003341784818rec
10003341784818click
10003332768519click
10003332768519msg


  在上例中,该网站在第1轮推荐中为会员100033推荐了会员375879,但会员100033并没有点击会员375879的资料进行查看(rec),系统也没有将会员375879再次推荐给会员100033。同样在第1轮中,会员381720被推荐给会员100033,虽然没有被点击,系统仍然在第18轮推荐在再次重复了这一推荐。在第18轮推荐中,会员100033在获得推荐后,仅仅查看了会员417848的资料(click),但没有进一步的行为。在第19轮推荐时,会员100033在查看了会员327685的资料后,发出了站内信件(msg)。对同一会员的不同推荐批次间存在时间顺序,即:第2批推荐发生的时间要晚于第1批推荐发生的时间。两批推荐之间的时间间隔由很多因素决定,通常取决于会员登录网站的频率,以及浏览不同页面的数量等。这些因素还会影响会员获得的推荐批次总数。
  一般而言,同一位会员B会被推荐给多位不同的会员,也可能在不同批次中,多次被推荐给同一位会员A。另外,A没有点击B的资料进行查看(rec),通常是由于多种原因造成的。有可能A对B的第一印象(推荐列表中显示的头像)不佳,或者A对在即将下线时获得的推荐不予理睬,又或者是A已经找到合适的交往对象而对其余推荐置之不理,甚至是会员当时的心情,都有可能造成rec(即不发生click)。总之,婚恋网站的用户浏览行为具有较大的随意性,多次推荐同一会员有时会增加点击的概率。对rec类样本的深入分析或许有助于提升推荐系统性能。
  在实际情况中,两位会员间较少发生多次msg的行为,这可能是经过线上交流后的两位会员常常会转为线下交流的原因造成的(如在站内信件中互留联系电话等)。参赛队可以自行通过数据证实或分析这一点。对线上多次发生msg交流的样本进行分析能否提升模型性能,尚不明确。
  男女会员资料(包括部分择偶要求)分别记录在profile_m.txt和profile_f.txt中。每位会员包含34个特征变量(feature),我们提供了字段列表来说明不同特征变量的含义。
  test.txt文件中包含了用来在线验证推荐算法效果的会员配对(interaction),及每对会员在三个月内的推荐次数。为防止过度拟合现象的发生,在竞赛窗口,竞赛排名系统仅仅从test.txt中随机选择约40%的USER_ID_A及相应样本进行NDCG的计算(见数据集信息汇总表中的Validation),据此进行排名。在竞赛结束后,系统会基于所有会员配对重新计算各参赛队模型的NDCG,并给出最终排名。因此,竞赛窗口期的排名可能与最终排名不同。请各参赛队注意这一点。NDCG的详细说明见评价标准
  本次竞赛的数据集信息汇总如下:
TrainingValidation*Test
# USER_ID_A15,0004,20010,433
# USER_ID_B55,87150,45954,409
# INTERACTION8,599,0122,247,2175,509,312
# FEATURE34

  *Validation是Test的子集
  本数据集为真实数据,虽然经过人工处理,但数据中出现少数错误在所难免。如果对构造模型没有影响,请自行处理。
  注意:本数据集由上海花千树信息科技有限公司提供,仅能用于本次竞赛的分析、建模用途。不得用于任何其他商业用途。以学术研究和论文发表为目的的,请与上海花千树信息科技有限公司联系并获取授权。竞赛委员会不具有授权权力。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-20 12:35:30
◎ 常见问题Q:什么时候可以参加比赛?是否接受邮件报名? A:本届竞赛的注册截止时间是2011年4月15日。在这之前,你都可以通过在线注册来获取建模数据集,并提交你的作品。注册后,你可以在4月27日比赛结束前,一直参加我们的比赛,并随时在线提交及测试你的模型效果。本届竞赛不接受邮件报名,所有报名工作请在竞赛网页上完成。

Q:本届比赛的参赛对象是谁? A:本届竞赛面向国内所有高校和科研院所的在校本科生、硕士生和博士生。但评比时会进行分组。这主要是从公平性角度考虑的。

Q:本科生可以与研究生混合组队么? A:原则上是允许的。但为了公平起见,含有至少一位非本科生的队伍,在比赛中将被划分到非研究生组中进行排名和评比。

Q:如何获取建模数据集?我可以把数据集传给别人么? A:本数据集仅能用于本次竞赛的分析、建模用途,且限于在线注册用户使用。不得用于任何其他商业用途。用于学术研究和论文发表目的的,请与上海花千树信息科技有限公司联系并获取授权。竞赛委员会不具有授权权力。

Q:如何获知赛题的相关变动? A:你可以随时登录竞赛页面进行查看。对于特别重要的变动,我们会在第一时间在本网站上发布,并通过下述两种方式通知大家。
新浪微博:http://t.sina.com.cn/cosname
COS论坛:http://cos.name/cn

Q:比赛期间遇到问题(如数据错误等),应该与谁联系解决? A:比赛期间的任何问题请与dataminingcompetition@gmail.com联系。但一般的数据错误等问题,只要是不影响建模的,请自行解决。

Q:为什么我的提问没有得到反馈? A:出现这种情况时,请先确认你的问题是否可以通过仔细阅读本FAQ解决。否则请考虑你的问题是否真的会影响建模工作。如果并非这两种原因,请尝试再给我们发信询问。

Q:为什么要限制每个参赛队每天提交测试的数量? A:我们提供的训练数据集足够大,你完全可以在训练数据集中预留一部分用于算法的早期测试。当这样的测试表明你的模型性能足够良好时,再将模型结果提交到服务器上。这并不会影响你的建模工作,反而会保证每次提交的结果有改进的倾向。这样做的好处还在于,在比赛结束前,从十多个历史提交记录中挑选出一个最终模型预测文件变得更加容易(假设你不希望从几十个文件中进行挑选)。当然,这样做也会减轻服务器的负担。

Q:为什么限制每个参赛队的队员数量? A:责任分散(Diffusion of responsibility)是一种广泛存在的社会现象,类似的情况还包括旁观者效应(Bystander effect)和社会惰化(Social loafing)。竞赛委员会认为不超过4个人的团队足以应付本次竞赛的挑战。

Q:比赛期间是否允许在各种论坛上讨论题目? A:我们建议你与自己的队员进行探讨和尝试。

Q:为什么要填写真实的注册信息? A:比赛过程中常常会出现某些意外的情况,如数据集中的致命错误等,这会影响你的模型。另外,一些新的通知发布时,如公布答辩名单、时间和地点时,我们可能需要与你联系。

Q:什么时候公布最终的答辩名单、时间和地点? A:请等待后续通知。

Q:为什么要设置验证数据集(Validation)和测试数据集(Test)? A:这是出于防止模型过度拟合(overfitting)、更真实地反映模型推广能力的考虑。由于在比赛期间,你可以多次提交预测结果,并能实时获得模型效果的反馈。如果仅仅设置一个Test集,那么在多次提交后,你的模型(及其调整后的模型)就倾向于在这个特定的Test数据集上表现良好,而在更大的数据集合上则可能表现出一般的性能。为了避免这一风险,竞赛委员会从整个Test集中,随机挑选了40%的数据构成Validation集,你在提交测试的时候,获得的反馈即能在一定程度上能反映出模型质量,也能保证最终基于整个Test集计算得到的排名能真实地反映各参赛队算法的差异。更多关于过度拟合的信息请参考:http://en.wikipedia.org/wiki/Overfitting

Q:为什么要从历史提交记录中挑选一个最终的预测文件进行提交? A:如前所述,过度拟合现象的危害十分明显。在Validation集上表现良好的预测,未必就能保证应用到整个Test集上时,仍能让你占据排行榜的前列。反之亦然。因此你需要根据自己建模时的心得,自己挑选一个最终的预测。

Q:为什么选择NDCG作为评价标准? A:NDCG在Learning to Rank问题中被广为采用。与经常用来比较两个序之间的相关程度的肯德尔和谐系数相比,NDCG的不同之处在于,它更强调和关注两个序中排名靠前的部分的相关程度。这与我们的实际需求相符,因为我们更希望将与会员A有可能发生msg行为的候选会员排名靠前。

Q:能否提供一些参考资料? A:推荐系统在最近几年陆续受到工业界和学术界的关注。Netflix公司曾发起过一个奖金高达100万美元的竞赛,目的是寻找能将Netflix公司原有模型的性能提供10%的新的推荐算法。获奖者的部分算法能在这里找到。在现有的诸多算法中,协同过滤算法的基本思想常常处于基础重要的地位。与推荐系统相关的有趣信息还可以参考ReSysChina。需要强调的是,许多推荐算法都是针对用户—商品之间的推荐来设计的,如Amazon豆瓣。本次竞赛的问题涉及的是用户—用户之间的推荐,也许需要新的思路来获取更好的模型。另外,基本但有效的统计模型(或机器学习算法)的相关知识,可以通过许多教材来获取,如C. M. Bishop的Pattern Recognition and Machine Learning(PRML)。关于推荐系统的一本及其浅显的小书可参考Programming Collective Intelligence: Building Smart Web 2.0 Application。

Q:是否可以定义新变量? A:可以根据提供的数据任意构造新的变量。但参加答辩的队伍需要在最终的论文中详细说明构造方法

Q:提交时间是否影响最终的排名 A:不影响。本次竞赛的排名主要参考预测结果在Test集中所有USER_ID_A上的平均NDCG值。在出现胶着状态时,会由竞赛委员会在答辩时酌情考虑算法复杂度、可解释性以及部署成本等因素来给出最终排名。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-10-19 16:14:53
qk\iang da
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-5-7 16:28:41
请问楼主还有这个数据集吗?我在网上怎么也找不到
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群