全部版块 我的主页
论坛 休闲区 十二区 休闲灌水
1143 0
2015-12-09

广州数据分析师招聘_数据挖掘的方法及工具


广州数据分析师招聘_数据挖掘的方法及工具 :

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,或者有复杂的数据结构、维数大。最后,数据挖掘是许多学科的交叉运用,它综合了统计学、计算机科学、数学等学科的技术。以下是常见和应用最广泛的算法和模型:

1) 传统统计方法:

① 抽样技术:通常在数据挖掘的过程中我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,因此需要在理论的指导下进行合理的抽样。

② 多元统计分析:如因子分析、聚类分析等。

③ 统计预测方法:如回归分析、时间序列分析等。

2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中会运用许多?述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

数据挖掘的具体流程

第一步:数据准备:( 70%时间)

● 获取数据(爬虫,数据仓库)

● 验证数据

● 数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)

● 使用 python 进行文件读取 csv 或 txt 便于操作数据文件( I/O 和文件串的处理,逗号分隔)

● 抽样(大数据时。关键是随机)

● 存储和归档

第二步:数据观察(发现规律和隐藏的关联)

● 单一变量:点图、抖动图;直方图、核密度估计;累计分布函数

● 两个变量:散点图、 LOESS 平滑、残差分析、对数图、倾斜

● 多个变量:假色图、马赛克图、平行左边图

第三步:数据建模

● 推算和估算(均衡可行性和成本消耗)

● 缩放参数模型(缩放维度优化问题)

● 建立概率模型(二项、高斯、幂律、几何、泊松分布与已知模型对比)

第四步:数据挖掘

● 选择合适的机器学习算法(蒙特卡洛模拟,相似度计算,主成分分析)

● 大数据考虑用 Map/Reduce

● 得出结论,绘制最后图表

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群