昨日阅读4小时,总计34小时
《大数据基础及应用》-吕云翔-钟巧灵等编著--清华Press-2017-3
内容简介:从基本概念,由浅入深讲解。除必要的大数据理论外,通过大数据实践讲述其应用,包括如何使用阿里云大数据技术平台分析和解决实际问题。
分三个部分:概述及基础、大数据处理、大数据分析与应用
基础部分:数据组织、重要数据结构、大数据协同技术、存储技术等
大数据处理:大数据处理框架(批处理、流处理)
大数据分析与应用:数据分析技术、机器学习,及利用阿里云的数加平台进行基本的大数据开发
ch1
大数据概念和发展背景
狭义的大数据反映的是数据规模大以至于无法在一定时间内用常规数据处理软件和方法对其内容进行有效的抓取、管理和处理。
主要指海量数据的获取、存储、管理、计算分析、挖掘与应用的全新技术体系。
广义上,包括大数据技术、大数据工程、大数据科学、大数据应用等各种相关领域,含规划、建设、运营、管理等
特点:体量巨大、速度极快、模态多样、潜在价值大等
大数据通常由机器自动生成。
大数据的发展可分六大方向:大数据采集与预处理、存储与管理、计算模式方向(大数据查询分析计算如Hive,批处理计算如Hadoop MapReduce、流式计算如Strom、迭代计算如HaLoop、图计算如Pregel和内存计算如HANA等)、大数据分析与挖掘方向、大数据可视化分析方向、大数据安全方向。
应用场景
ch2
大数据系统架构概述
总体架构概述
设计原则
满足大数据的3V要求(大数据容量和各种类型数据的加载、处理和分析,大数据处理速度)
满足企业级应用的要求(高可扩展性、高可用性、安全性和隐私保护、开放性、易用性
满足对原始数据格式数据进行分析的要求
总体架构参考模型
大数据基础(序列化、分布式协同等基础服务):Avro取代Hadoop原有的IPC机制、ZooKeeper分布式锁设施,一个分布式应用程序的集中配置管理器。
大数据存储:HDFS
大数据处理:MapReduce
大数据访问与分析:在Hadoop+MapReduce之上架构的是基础平台服务,在基础平台上是大数据分析与应用平台。Pig是基于Hadoop的并行计算高级编程语言,类似于SQL的数据分析高级文本语言;Hive是Facebook贡献的数据仓库工具,Hive SQL可以查询和分析存储在Hadoop中的大规模数据;Sqoop是由Cloudera开发的用于在Hadoop与传统数据库间进行数据传递的开源工具,将数据从关系源导入HDFS或相反;Mahout是Apache提供分布式机器学习和数据挖掘库;Hama是基于BSP的超大规模科学计算框架。
运行架构概述
物理架构:Google和FaceBook都采用大量的廉价商用硬件来搭建自己的分布式系统(运行效率、可靠性、可扩展性都被证明不错,可经受大规模、高并发、海量数据的检验)
集成架构:(总体集成,即各组成部分之间的集成;专项集成即系统开放接口的集成)
安全架构:分三层,即用户层、应用层、数据层