图书封面
 习题答案
习题答案
1. 简答题
( 1)简述大数据业务处理的基本流程与关键技术。
大数据处理流程为数据采集与预处理、 数据存储与
数据分析、数据可视化与应用。
| 技术层面 | 功能 | 
| 数据采集 | 利用 ETL 工具将分布的、异构数据源中的数据如关系数据、平面数据文件 等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数
 据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的
 数据作为流计算系统的输入,进行实时处理分析
 | 
| 数据存储 和管理
 | 利用分布式文件系统、数据仓库、关系数据库、 NoSQL 数据库、云数据库等, 实现对结构化、半结构化和非结构化海量数据的存储和管理
 | 
| 数据处理 与分析
 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现 对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理
 解数据、分析数据
 | 
| 数据可视 化
 | 对分析结果进行可视化呈现, 帮助人们更好地理解数据、 分析数据 | 
| 数据隐私 和安全
 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据 保护体系和数据安全体系,有效保护个人隐私和数据安全
 | 
( 2)简述大数据的特征。
数据量大( Volume)、速度快(Velocity)、数据类型多样(Variety)和价值密度低( Value)。