全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
38959 152
2012-10-02
   DW(数据仓库)和BI(商业智能)是密切关联、相辅相成的,共同促进了大数据时代的来临。大数据不仅意味着DW或者BI的技术升级,更是一场世界范围的新技术革命。
    大数据技术在企业中的推广和应用,将促进实现企业运营成本的降低和决策理念的升级。然而,当前的大数据工具多数是高成本的、低效率的,业务分析人员的日常工作通常需要高度专业化的技术人员来辅助完成。比如,为了实现Excel软件的大数据分析功能,微软开发了一个实现Excel与Hadoop接口的插件。这类基于简单分析和初级编辑的解决方案只是象征性的。
    SAS系统在20世纪70年代以“统计分析”和“线性数学模型”获得了业界和学界的充分认可。然而,在90年代以后,SAS Institute将更多资金投入了BI产品的研发竞争,推出了显著不同于Oracle、Informix、NCR Teradata、Business Objects以及Sybase等供应商的数据仓库解决方案。当前,SAS Institute已经成为全球领先的商业分析软件与服务供应商,也是BI市场最大的独立厂商。它的数据仓库产品功能完善、性能卓越,包括了几十个专用模块。比如,SAS数据仓库管理系统(SAS/WA)是建立和维护数据仓库的核心系统,功能包括:定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等。此外,SAS/MDDB是专用于在线分析的多维数据库Server,SAS/IT Service Vision则为对Web服务器以及电话系统等IT项目进行评估和管理的模块。
SAS/WA提供了一个用于管理数据仓库的可视化环境。借助于它的窗口功能,用户可以进行数据源、数据存储、代码库以及其它仓库资源的元数据定义。(元数据无非就是数据的定义或描述。)SAS/WA使用两类元数据:物理的和业务的。表格的物理元数据可能用来指定一些行和列,以及被施加了一定转换的列。表格的业务元数据表可能用来描述表格的用途,以及表中信息准确性的责任人。SAS/WA将使用这类元数据来生或者获取一些代码,实现将抽取、转换以及加载数据进入数据仓库的过程。
    SAS/WA使用元数据生成或者获得代码,实现数据的提取、清洗、转换过程,最后加载数据进入数据仓库。比较于简单地写一些代码来完成特定任务,SAS/WA的这种元数据驱动方式或许看起来或许是缺乏效率的。然而,SAS/WA却具有相对前者的不可比拟优势:
    1.以单一控制方式来管理数据仓库资源,因为这些资源在元数据库中已经定义了;
    2.获得一致的、成文的、跨越多个计算平台的信息流;
    3.不仅可以从信息源头上跟踪整个数据仓库,还能够有效提高数据流的质量;
    4.可以使用元数据来自动执行多项任务。例如,借助用户输入的元数据,能产生代码来创建和加载数据存储;
    5.可以使用元数据来"俯瞰"整个数据仓库。例如,通过导出数据仓库的一些元数据,业务分析人员能够解答可能需要回答的问题,比如:报告中的数据来源、指标含义,以及这些指标的产生过程。

    通过窗口操作方式,SAS/WA能够实现数据仓库的创建和维护的复杂过程,已成为大数据时代BI先锋的攻坚利器。该产品目前已经被一部分零售业、制造业以及银行与金融服务业的企业所选择应用。实践表明,基于该产品进行大数据分析所实现的价值发现功能比较之前预想的要强大得多。这样,SAS/WA吸引了越来越多的企业关注。

视频链接:
http://v.youku.com/v_show/id_XNDU3MDk2MDA0.html
http://www.tudou.com/programs/view/jODOHpzdL1I/





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-10-3 08:46:00
广而告之?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-10-3 09:01:17
zkymath 发表于 2012-10-3 08:46
广而告之?
科普推介的帖子  内容有问题吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-10-3 09:07:43
没问题,我什么都用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-10-3 09:25:23
zkymath 发表于 2012-10-3 09:07
没问题,我什么都用
先生您一定也精通SAS/WA/MDDB等模块了
请不吝对主帖的观点和内容给出批判吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-10-3 10:34:43
很不错。
我最近在处理一个1.4t的一个数据集。因为太大,普通的sort在我的pc机上都做不了。想改变一些变量的长度和格式,因为无法知道具体的特征,做不下去。我想问一下,这个数据仓库会用到很多资源吗?比如说再用sql并表的时候会不会产生很大的临时文件?另外速度怎么样?我的是普通的pc机。我在考虑用MySQL建一个库,然后在出来。跟专家咨询后,说是MySQL整理也很慢。
谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群