全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1942 0
2020-10-23
减少数据维数的七种技术
牛逼而不会降低性能最高的,他减速比是通过分析在很多随机森林的决定削减(随机森林/合奏树)获得。但是,即使只是计算缺失值的数量,测量列差异和测量列对的相关性,也可以达到令人满意的缩减率,同时保持性能相对于基线模型不变。
最近记录和属性数量激增的数据集大小引发了许多大数据平台以及并行数据分析算法的发展。但是,与此同时,它已推动使用数据降维程序。确实,更多并不总是更好。有时,大量数据可能会在数据分析应用程序中产生较差的性能。
我最近的项目之一恰好是关于客户流失预测并使用2009 KDD Challenge大数据集。该数据集的特殊性在于其具有15K数据列的非常高的维度。大多数数据挖掘算法都是按列执行的,这使得它们在越来越多的数据列上越来越慢。然后,该项目的第一个里程碑是减少数据集中的列数,并同时损失尽可能少的信息。
ROC曲线用于衡量各种技术的性能
以该项目为借口,我们开始探索数据分析领域当前可用和接受的降维技术。
价值缺失率。缺少太多值的数据列不太可能携带很多有用的信息。因此,可以删除缺失值数量大于给定阈值的数据列。阈值越高,减少越积极。
低方差滤波器。与先前的技术类似,数据中几乎没有变化的数据列几乎没有信息。因此,将删除方差低于给定阈值的所有数据列。请注意:方差取决于范围;因此,在应用此技术之前需要进行标准化。
高相关滤波器。趋势非常相似的数据列也可能携带非常相似的信息。在这种情况下,仅其中之一就足以满足机器学习模型的需求。在这里,我们计算数值列之间和标称列之间的相关系数,分别作为Pearson乘积矩系数和Pearson的卡方值。相关系数高于阈值的成对的列减少为仅一对。请注意:相关性是规模敏感的;因此,列标准化需要进行有意义的相关比较。
随机森林/合奏树。决策树集成,也称为随机森林,除了是有效的分类器之外,还可用于特征选择。降维的一种方法是针对目标属性生成大型且精心构建的树集,然后使用每个属性的使用情况统计信息来找到功能最丰富的子集。具体来说,我们可以生成一大组(2000个)非常浅的树(2个级别),每个树都在属性总数的一小部分(3个)上训练。如果经常选择一个属性作为最佳分割,则很有可能保留该信息性。根据随机森林中属性使用统计数据计算出的分数告诉我们to与其他属性?的相关性,它们是最具预测性的属性。
主成分分析(PCA)。主成分分析(PCA)是一种统计过程,可将 数据集的原始n个坐标正交变换 为一组新的 n个 坐标,称为主成分。转换的结果是,第一个主成分具有最大可能的方差;每个后续组件在与前面的组件正交(即不相关)的约束下,具有最大可能的方差。仅保持前 m <n 组件在保留大部分数据信息(即数据的变化)的同时降低了数据维数。注意,PCA转换对原始变量的相对缩放敏感。在应用PCA之前,需要对数据列范围进行标准化。还要注意,新坐标(PC)不再是系统实际生成的变量。将PCA应用于数据集将失去其可解释性。如果结果的可解释性对于您的分析很重要,则PCA并不是您项目的转换。
后向特征消除。在该技术中,在给定的迭代中,在n个 输入特征上训练选定的分类算法 。然后,我们一次删除一个输入功能,并培养在同一个模型 n-1个 输入功能 ? 倍。删除后错误率增加最小的输入要素被删除,剩下n-1个 输入要素 。然后使用n-2个 特征重复分类 ,依此类推。每次迭代 k都会生成一个基于nk 特征和错误率 e(k)训练的模型 。 选择最大可容忍的错误率,我们定义了使用所选机器学习算法达到该分类性能所需的最少特征数。
前进特征建设。这是“后向特征消除”的逆过程。我们仅从1个功能开始,然后一次逐渐添加1个功能,即该功能产生的性能提升最高。后向特征消除和前向特征构造这两种算法都相当耗时且计算量大。它们实际上仅适用于输入列数已经相对较少的数据集。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群