干货 | 数据分析实战案例——用户行为预测

AIU人工智能学院

1221

收藏 2021-12-27

作者：CDA教研组编辑：Mika
案例介绍
背景：以某大型电商平台的用户行为数据为数据集，使用大数据处理技术分析海量数据下的用户行为特征，并通过建立逻辑回归模型、随机森林对用户行为做出预测;
案例思路:

使用大数据处理技术读取海量数据
海量数据预处理
抽取部分数据调试模型
使用海量数据搭建模型

复制代码

数据字典:
U_Id:the serialized ID that represents a user
T_Id:the serialized ID that represents an item
C_Id:the serialized ID that represents the category which the corresponding item belongs to Ts:the timestamp of the behavior
Be_type:enum-type from (‘pv’, ‘buy’, ‘cart’, ‘fav’)

pv: Page view of an item's detail page, equivalent to an item click
buy: Purchase an item
cart: Add an item to shopping cart
fav: Favor an item

读取数据
这里关键是使用dask库来处理海量数据，它的大多数操作的运行速度比常规pandas等库快十倍左右。
pandas在分析结构化数据方面非常的流行和强大，但是它最大的限制就在于设计时没有考虑到可伸缩性。pandas特别适合处理小型结构化数据，并且经过高度优化，可以对存储在内存中的数据执行快速高效的操作。然而随着数据量的大幅度增加，单机肯定会读取不下的，通过集群的方式来处理是最好的选择。这就是Dask DataFrame API发挥作用的地方:通过为pandas提供一个包装器，可以智能的将巨大的DataFrame分隔成更小的片段，并将它们分散到多个worker(帧)中，并存储在磁盘中而不是RAM中。
Dask DataFrame会被分割成多个部门，每个部分称之为一个分区，每个分区都是一个相对较小的 DataFrame，可以分配给任意的worker，并在需要复制时维护其完整数据。具体操作就是对每个分区并行或单独操作(多个机器的话也可以并行)，然后再将结果合并，其实从直观上也能推出Dask肯定是这么做的。

复制代码

面对海量数据，跑完一个模块的代码就可以加一行gc.collect()来做内存碎片回收，Dask Dataframes与Pandas Dataframes具有相同的API

复制代码

复制代码

Dask Name: read-csv, 58 tasks
与pandas不同，这里我们仅获取数据框的结构，而不是实际数据框。Dask已将数据帧分为几块加载，这些块存在于磁盘上，而不存在于RAM中。如果必须输出数据帧，则首先需要将所有数据帧都放入RAM，将它们缝合在一起，然后展示最终的数据帧。使用.compute()强迫它这样做，否则它不.compute() 。其实dask使用了一种延迟数据加载机制，这种延迟机制类似于python的迭代器组件，只有当需要使用数据的时候才会去真正加载数据。

复制代码

# 可视化工作进程，58个分区任务 data.visualize()
数据预处理
数据压缩

# 查看现在的数据类型 data.dtypes

复制代码

缺失值

复制代码

Dask DataFrame Structure :

复制代码

复制代码

复制代码

U_Id列缺失值数目为0
T_Id列缺失值数目为0
C_Id列缺失值数目为0
Be_type列缺失值数目为0
Ts列缺失值数目为0

复制代码

无缺失值
数据探索与可视化
这里我们使用pyecharts库。pyecharts是一款将python与百度开源的echarts结合的数据可视化工具。新版的1.X和旧版的0.5.X版本代码规则大不相同，新版详见官方文档https://gallery.pyecharts.org/#/README
# pip install pyecharts -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Requirement already satisfied: pyecharts in d:\anaconda\lib\site-packages (0.1.9.4)
Requirement already satisfied: jinja2 in d:\anaconda\lib\site-packages (from pyecharts)
(3.0.2)
Requirement already satisfied: future in d:\anaconda\lib\site-packages (from pyecharts)
(0.18.2)
Requirement already satisfied: pillow in d:\anaconda\lib\site-packages (from pyecharts)
(8.3.2)
Requirement already satisfied: MarkupSafe>=2.0 in d:\anaconda\lib\site-packages (from
jinja2->pyecharts) (2.0.1)
Note: you may need to restart the kernel to use updated packages.
U_Id列缺失值数目为0 T_Id列缺失值数目为0 C_Id列缺失值数目为0 Be_type列缺失值数目为0 Ts列缺失值数目为0

复制代码

饼图

# 例如，我们想画一张漂亮的饼图来看各种用户行为的占比 data["Be_type"]

复制代码

漏斗图

复制代码

复制代码

数据分析

时间戳转换

dask对于时间戳的支持非常不友好

复制代码

复制代码

抽取一部分数据来调试代码

复制代码

用户流量和购买时间情况分析

用户行为统计表

复制代码

总访问量成交量时间变化分析(天)

复制代码

由总访问量、成交量时间变化分析知，从17年11月25日至17年12月1日访问量和成交量存在小幅波动，2017年12 月2日访问量和成交量均出现大幅上升，2日、3日两天保持高访问量和高成交量。此现象原因之一为12月2日和3 日为周末，同时考虑2日3日可能存在某些促销活动，可结合实际业务情况进行具体分析。(图中周五访问量有上升，但成交量出现下降，推测此现象可能与周末活动导致周五推迟成交有关。)

总访问量成交量时间变化分析(小时)

复制代码