全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
791 0
2020-09-29
分析商店访问者
我们的电信客户正在开发一种大数据产品,该产品将描述商店访客的人口统计数据(年龄,性别,收入,种族,婚姻状况),这些访客从商店中放置的wi-fi路由器接收信息。客户端过去每天在其服务器中接收路由器数据的提要,然后将其上传到数据湖中的HDFS / Hive表中进行分析。
保持数据质量是一个严重的问题,没有这些报告,它们将是错误的。每天由自动R代码生成的电子邮件,用于对昨晚的数据负载进行完整性检查。过去曾对严重问题进行调查并报告以进行更正。
数据质量中的两个主要问题是过滤掉随身携带数据和员工数据。由于目标是分析商店访客数据,因此出于质量目的,我们需要排除这些噪音。
偷渡记录是由未进入商店但在经过的时候在wi-fi路由器中产生短暂会话的人们生成的wi-fi会话。在滤除持续时间少于90秒的会话之前,经过了很多分析,这些记录都是路过的记录。
上方直方图显示了来自5万条记录的Wi-Fi会话持续时间。有人解释说,在2小时的高峰时段是由商店中的员工每隔2小时休息一下而产生的。因此,任何持续时间约2小时的wi-fi会话都将被过滤掉,作为员工数据。
进行了许多此类数据科学分析,以验证客户为制定公司级和特许级市场决策而开发的商店访客分析器的功能。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群