跨境电商AliExpress是阿里巴巴数据集电商竞赛训练测试数据
(提供AliExpress是阿里巴巴2018年的电商数据,用于电商竞赛训练测试数据)
(100多MB的csv数据文件压缩包)
AliExpress是阿里巴巴海外购物网站,其网站的海外用户可以在AliExpress挑选购买自己心意的商品。对于AliExpress来说,目前某些国家A的用户群体比较成熟,沉淀了大量的该国用户的行为数据。但是还有一些待成熟国家B的用户在AliExpress上的行为比较稀疏。
对于这些国家B用户的推荐算法如果单纯不加区分的使用全网用户的行为数据,可能会忽略这些国家用户的一些独特的用户特点。而如果只使用国家B的用户的行为数据,由于数据过于稀疏,不具备统计意义,会难以训练出正确的模型。
赛题难点是:怎样利用已成熟国家A的稠密用户数据和待成熟国家B的稀疏用户数据,训练出的正确模型对于国家B的用户有很大价值。
赛题数据给出若干日内来自成熟国家的部分用户的行为数据,以及来自待成熟国家的A部分用户的行为数据,以及待成熟国家的B部分用户的行为数据去除每个用户的最后一条购买数据,让参赛人预测B部分用户的最后一条行为数据。
赛题评价指标:赛题旨在通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。
★ 赛题数据 ★
初赛数据
● 商品属性表
数据中共涉及2840536个商品,对于其中大部分商品,都会给出该商品的类目id、店铺id以及加密价格,其中价格的加密函数f(x)为一个单调增函数。
● 训练数据
给出xx国的用户的购买数据和yy国的部分用户的购买数据。
● 测试数据
给出yy国的B部分用户的购买数据除掉最后一条。数据的整体统计信息如下:
商品属性表、训练数据、测试数据对应的文件:item_attr, train和test。无论是训练数据还是测试数据,都具有如下的格式:
其中各字段含义如下:
1. buyer_country_id: 买家国家id, 有'xx'和'yy'两种取值;
2. buyer_admin_id: 买家id;
3. item_id: 商品id;
4. create_order_time: 订单创建时间;
5. irank: 每个买家对应的所有记录按照时间顺序的逆排序;
初赛数据集特点:
1)每个用户有至少7条购买数据;
2)测试数据中每个用户的最后一条购买数据所对应的商品一定在训练数据中出现过;
3)少量用户在两个国家有购买记录,评测中忽略这部分记录;
复赛数据
在给出若干日内来自某成熟国家xx的部分用户的点击购买数据,以及来自某待成熟国家yy和待成熟国家zz的A部分用户的点击购买数据,以及国家yy和zz的B部分用户的截止最后一条购买数据之前的所有点击购买数据,让参赛人预测B部分用户的最后一条购买数据。
● 商品属性表
点击购买数据中涉及9136277个商品,对于其中大多数商品,我们都会给出该商品的类目id、店铺id以及加密价格,其中价格的加密函数f(x)为一个单调增函数。
● 训练数据
给出xx国的用户的点击、购买数据和yy国、zz国的A部分用户的点击、购买数据。
● 测试数据
给出yy国、zz国的B部分用户的最后一条购买数据之前的点击购买数据。
无论是训练数据还是测试数据,都具有如下的格式:
其中各字段含义如下:
1. buyer_country_id: 买家国家id, 只有'xx','yy','zz'三种取值2. buyer_admin_id: 买家id
3. item_id: 商品id
4. log_time: 商品详情页访问时间
5. irank: 每个买家对应的所有记录按照时间顺序的逆排序
6. buy_flag: 当日是否购买
复赛数据集特点:
1)每个用户有若干条点击数据和至少1条购买数据 (但测试数据中该条购买记录可能未给出到选手;
2)每个用户的最后一条数据的buy_flag一定为1 (但测试数据中该条数据未给出到选手;
3)测试数据中每个用户的最后一条点击数据(也是购买数据)所对应的商品一定在训练数据中出现过;
4)可能存在少量跨国买家.
★ 赛题分析 ★
赛题分析是深入理解赛题的最有效的方法,也是构建有效特征和模型的先驱条件。
根据零售行业的人货场概念,赛题提供了关于用户行为日志的常见字段可分为如下部分:
[backcolor=transparent !important]用户:用户标识、用户国籍
[backcolor=transparent !important]商品:商品标识、店铺、品类、价格
[backcolor=transparent !important]场景:点击时间、访问排序、购买标记
buyer_country_id | buyer_admin_id | item_id | create_order_time | irank |
xx | 8362078 | 1 | 2018/8/10 23:49 | 12 |
xx | 9694304 | 2 | 2018/8/3 23:55 | 9 |
yy | 101887 | 3 | 2018/8/27 8:31 | 3 |