数据挖掘与商业智能实战（二）- 阿里巴巴大数据竞赛 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘

数据挖掘与商业智能实战（二）- 阿里巴巴大数据竞赛

水天一色DIY

2709

4

收藏 2014-07-31

BI不应该把自己的目光仅仅放在纸上谈兵，实战经验是非常宝贵！理解业务背景、梳理业务框架、建立业务目标、整理所需数据、建立合适模型、测试模型效果的每个环节都是非常重要。下面分享一下阿里巴巴大数据竞赛数据。

在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型：

字段	字段说明	提取说明
user_id	用户标记	抽样&字段加密
Time	行为时间	精度到天级别&隐藏年份
action_type	用户对品牌的行为类型	包括点击、购买、加入购物车、收藏4种行为 (点击：0 购买：1 收藏：2 购物车：3）
brand_id	品牌数字ID	抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样，且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

评估指标

我们希望参赛队的预测, 预测的品牌准确率越高越好，也希望覆盖的用户和品牌越多越好，所以用最常用的准确率与召回率作为排行榜的指标。

准确率：
注：
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数

召回率：
注：
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数

最后我们用F1-Score 来拟合准确率与召回率，并且大赛最终的比赛成绩排名以F1得分为准。

1）  数据说明：
   提供的原始文件有大约4M左右，涉及1千左右天猫用户，几千个天猫品牌，总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为：
   点击：0；购买：1；收藏：2；购物车：3

附件列表

大小:439.95 KB

本附件包括：

t_alibaba_data.csv

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2014-7-31 20:26:58

水天一色DIY 发表于 2014-7-31 18:09
BI不应该把自己的目光仅仅放在纸上谈兵，实战经验是非常宝贵！理解业务背景、梳理业务框架、建立业务 ...

报名条件是什么？如何报名参加？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

水天一色DIY

2014-8-1 09:26:08

macan1002 发表于 2014-7-31 20:26
报名条件是什么？如何报名参加？

目前报名已经结束，第二阶段比赛已经结束，具体可以查看官网

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-12-1 20:32:19

淘宝为什么没有实际购买的数据，不然不能用于论文研究

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

水天一色DIY

2014-12-2 17:31:03

odilefei 发表于 2014-12-1 20:32
淘宝为什么没有实际购买的数据，不然不能用于论文研究

这部分数据是保密的

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群