全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
600 0
2020-10-10
从数据收集到模型选择的电信数据科学项目
我们的业务部门之一希望通过个性化的产品/报价来针对竞争对手的客户。为此,企业需要了解谁是竞争对手的预付费/后付费客户来推送相关的个性化产品/报价,而他们没有此数据。现在,这是一个二进制分类问题,我们希望应用机器学习机器方法来预测竞争对手客户要预付或后付的可能性。
数据科学项目中的步骤:为了解决问题,我遵循了以下步骤,从数据收集到模型选择
收集数据:业务单元有3点来自供应商公司里载体明智的每个网络交易已经从网站和移动应用的实施像素捕获方的数据。它涵盖了20%-30在市场网络交易的%,包括所有的自有物业如自己的App,自己的网站和其他3次方的数据通过Agoda,travoloka等,还通过加密/解密过程与第一方的手机号码映射。为了训练模型,我使用自己的客户作为我的真值集,并使用其预付费/后付费客户来标记数据。
干净的数据和创建要素变量:工作3次聚会互联网数据有很多非结构化的和不必要的数据点。因此,我必须根据URL和捕获的主要KPI(例如运营商,设备,平台,位置)创建要素变量数据集。
已使用bigquery创建了以下角色和特征变量
活动:将活动划分为不同的时间特征(周末,每月十分位和早晨/晚上)
运营商:按交易总数,平均交易量,每天,每月,每个运营商的钱包份额对运营商进行细分
设备:按屏幕尺寸,电池,相机像素,顶部设备,
流动性:基于位置信息(邮政编码)的流动性配置文件
探索数据并查找模式:创建特征变量后,我使用了Google datastudio来可视化数据并查看合作伙伴。我们还进行了主成分分析(PCA),以查看最显着的变量以及关键的统计参数平均值,中位数,标准差,最大值,百分位数,以了解真相集的模式。另请参阅两组之间的相关性。
构造和拟合模型:我已经应用了两种方法:平衡,不平衡,向上采样,向下采样以比较结果。为了为每种方法训练模型,我运行了逻辑回归,随机森林,XGboost和SVM算法来比较结果。我已经使用sklearn库来运行代码。
但是,对于测试和验证,我还保留20%作为测试基础,并保留一个代表整个基础的主验证基础。
为了评估已开发模型的性能,并将每个ML模型的最佳算法与常规logistic回归(CLR)进行比较,方法是测量组合集的接收器工作特征(ROC)曲线(AUC)下的面积,其中包括培训和测试集。用测试集和主验证集对ROC曲线进行比较。还为测试集和主验证集计算了平均精度召回(AP),F得分,准确性得分和混淆矩阵。
我还进行了交叉验证,以确保模型能够正确地从数据中获取大多数模式,并且不会在噪声中拾取过多的东西,换句话说,它的偏倚和方差很小。
反馈和学习:  
模型一旦开发,便从外行的角度介绍给业务团队。商业接受了结果,并决定在现实生活中测试模型输出。我从模型中提取了概率最高的示例输出,并进行了测试活动以查看实际结果。运行了A / B测试广告系列,并在模型输出中对该广告系列的常规受众进行了展示。根据测试结果,模型已移交给技术团队进行部署。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群