数据挖掘工具_开源数据挖掘工具箱
数据挖掘软件的出现并没有多少年,甚至数据挖掘这个词也是在上世纪九十年代才出现的。现在的商用
数据挖掘软件已经很成熟了,也提供易用的可视化界面,集成了数据处理、建模、评估等一整套功能。尽管开源数据挖掘工具在稳定性和成熟性上可能都无法跟商用数据挖掘软件相比(但有些开源工具还是做得不错的,用户可以选择它来做一些相对不那么重要的分析挖掘工作。
1.提供一组基本的统计工具,用于对数据进行常规探索;
2.多种数据可视化技术,例如histograms, scatterplots, distribution charts, parallel coordinate visualizations, mosaic and sieve diagrams等等;
3.标准的数据处理组件,包括querying from databases, case selection, feature ranking and subset selection, and feature discretization等等;
4.无 指导的数据分析技术,比如principal component analysis, various clustering techniques, inference of association rules, and subgroup mining techniques等等;
5.有指导的数据分析技术,比如classification rules and trees, support vector machines, naive Bayesian classifiers, discriminant analysis等等;
6.模型评估和评分工具,包括对结果的图形化展示(比如ROC曲线和lift图);
7.推断模型的可视化功能(例如用树状结构来显示训练好的决策树,用气泡图来显示聚类,用网络图来显示关联等等);
提供探索型数据分析环境
8.可以把模型保存为标准格式(例如PMML),以便进行共享和移植
9.提供报表功能,可以生成分析报告,并允许保存用户的备注或说明