我在本专版无意中下载的台湾教程中看见有Insightful Miner 方面的信息,感到非常适合本人这样的菜鸟使用,因为它对使用人员的要求很低,更为重要的是可以使用splus的金融模块,本来我也在用spss的clementine 可惜它没有金融模块,和splus的金融模块也没有接口。所以请有知道情况的高手能告知哪里可以下载使用,谢谢!下面是一篇宏软公司的Insightful Miner技术摘要:
Insightful Miner 7.0 特征列表
Insightful Miner 7.0新特征
- 新的和改进的的数据处理节点,包括多个输入的聚合join和附加append;探测重复(detect duplicates);重排(reorder)列
- 改进的图形工具,例如新的多维数据探索图trellis hexbin plot 和 hexbin matrix,以及无需抽样创建Charts图的能力
- 扩展表达式语句:通过提高字符串和日期的处理
- 扩展支持的文件格式,包括支持64-bit SAS、compressed SAS,以及新的报告和图形输出格式。
- 绩效提高,包括提高排序Sort 、洗牌shuffle和关联 join的绩效
- 包括S-PLUS Script Node和20 多Chart Node,无需单独的S-PLUS license。
- 提供两个版本,包括个人用户的桌面版(desktop)和企业用户的服务器版(Insightful Miner Server)。
Insightful Miner 特征列表
可视化工作流环境
- 创建自备案可视化程序
- 直观的拖拉、点击界面
- 连接节点来描述分析流程
- 屏幕注释
- 节点级的变化跟踪以满足多用户协作
- 有效性(Validity)和存盘(Caching)的可视确认
- 保存和共享worksheets模版
- 输出worksheet image 于文件
数据存取(导入和导出)
- 有分隔符的ASCII文件(Delimited ASCII files )
- 固定格式的ASCII文件(Fixed format ASCII)
- 支持数据字典
- SAS®, SPSS®, Excel® 和许多别的浮点文件
- ODBC连接兼容数据库 (Windows®)
- 本地连接 Oracle®, DB2, Microsoft® SQL Server, Sybase
数据操纵
- 强大的抽样,包括分层抽样方法
- 行操纵: 聚合(Aggregate)、附加(Append)、过滤(Filter)、划分(Partition)、抽样(Sample)、 洗牌(Shuffle)、 排序(Sort)、堆栈(Stack)和反堆栈(Unstack)
- 列操纵: 分箱(Bin)、创建新列(Create Columns)、过滤列(Filter Columns)、关联(Join)、重排(reorder)、修改列(Modify Columns)、正规化(Normalize)和转置(Transpose )
- 自动把连续变量分箱:连续数据离散化
- 连续型、日期、分类和字符串数据类型
- 用强大的表达式语言创建或修改列和过滤行
数据清洗
- 探测和修复缺失值
- 探测重复
- 缺失值处理:删除、替换、分布生成和前方相邻观察值
- 稳健的多维异常点探测
探索性数据分析和可视化
- Trellis图,快速显示高维数据结构
- 单变量描述性统计,相关和协方差计算
- Table浏览和交叉表
- 比较数据,用于数据确认
- 1-D 图: 饼图(Pie), 条形图(Bar), 柱状图(Column), 点图(Dot), 直方图(Histogram), 箱形图(Boxplot)
- 2-D 图: 散点图(Scatterplot), 箱形图(Boxplot), 航线图(Strip plot), QQ图(Quantile-Quantile), 密度图(Density)
- 六边形箱图(Hexagonal Binning chart):观察大数据集变量之间的关系
- 3-D图:等高线图 (Contour),水平图(Level plot), 曲面图(Surface plot), 云图(Cloud plot)
- 多变量图:多个2维图(Multiple 2-D plot),散点图阵(Scatterplot matrix),六边形箱图阵(Hexbin Matrix),平行图(Parallel plot)
- 时间序列图:线图( Line plot), 高低图(High-Low plot), 堆栈条形图 (Stacked Bar plot)
模型、算法和可视化工具
- 预测和分类模型:具有基础和高级模型选项
- 高弹性的算法:无需抽样或聚合,采用大数据训练模型
- 分类决策树(Classification Trees)和回归决策树(Regression Trees):提供单个树(Single)和多个树(Ensemble)方法,用Block Model Averaging;K-Fold Cross-Validation、附加Gini 和Entropy 划分规则
- 线性回归(Linear Regress)和logistic回归(Logistic Regress) :implemented as QR decomposition with Householder transformations
- 多层感知器神经网络(Neural Networks)
- 神经网络训练方法: Resilient Propagation, Quick Propagation, Delta-Bar-Delta, Conjugate Gradient, and Online methods
- 神经网络: 最多三个隐层,用户指定每层节点数
- 交互的神经网络训练过程可视化工具,允许实时控制学习过程
- 朴素贝叶斯分类器(Naive Bayes)
- 主成分分析(Principal Components)
- Cox比例风险模型(Cox Proportional Hazard models):分析时变的终检数据
- K均方聚类(K-Means):客户细分
- 有交互系统树图的可展开的树的结构浏览
- 模型评估:收益图(gain charts)、提升图 (lift charts)、 ROC charts 和一致矩阵(agreement matrices)
- 变量重要性工具: 选择最重要的变量
- 自动计算哑变量和交互列
弹性
- 所有组建运行out-of memory 和 in-memory
- 独一无二的 "管道式架构" ,在各处理组件间分块传递数据
- 经典叠加技术
- Block Model Averaging技术
- 自适应分块大小,优化计算资源使用
- 自动和手动控制存盘(Caching),以平衡快速响应和大规模计算要求
扩展性
- 复合节点:一个节点内创建完整处理流程
- 用S语言创建新节点
- 完全获取 S-PLUS 7 Enterprise Developer函数和 libraries
- 创建自定义的预测模型、图和报告
- 创建和共享用户自定义节点libraries
- 管理多个自定义libraries
模型发布和打分
- 基于Web的图形化报告
- HTML. PDF, PostScript and RTF 模型汇总输出
- 所有组件非交互式批处理功能**
- 模型端口,支持自动更新打分组件
- 用S-PLUS创建处理大数据集的打分预测模型
- PMML( Predictive Model Markup Language ) 导入和导出
- 生成C代码,满足实时打分**
注意: ** 仅Insightful Miner Server满足
系统要求
- Windows 2000, Windows XP Professional, Windows Server 2003 , 32位x86处理器。 (最小系统配置:奔III, 512M内存, C或D驱动器上350M硬盘空间)
- Solaris 8 或者Solaris 9 ,32位SPARC处理器 (最小系统配置: 350M硬盘空间)
- 支持微软终端服务(Microsoft Terminal Services)
- 最小数据大小的5倍自由空间用于数据分析,推荐10倍