全部版块 我的主页
论坛 数据科学与人工智能 大数据分析
742 3
2022-01-10
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

Spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

Spark是基于内存计算框架,计算速度非常之快,但是它仅仅只是涉及到计算,并没有涉及到数据的存储,后期需要使用spark对接外部的数据源。在常规的Spark介绍中,一定会跟大家介绍的就是Spark的各种特性内容:

一.spark特性

①速度快









②易用性









③通用信









④兼容性









二.数仓(数据分层)及常见的OLAP开源引擎

大数据分析中,底层基础的架构内容如数仓相关基础知识内容。类似数仓模型建设中,内容有关于明细模型、汇总模型、以及应用模型,然后在此基础上生成报表,辅助分析,引导规则或策略的制定等相关内容,其实也是各位同学非常关注的内容。









数据从底层结构到业务系统,其实是经过了各种ETL转换:









而实现这一块需要解决相关的常见的OLAP开源引擎,如:

Hive、Presto、kylin、impala、SparkSql、Druid、Clickhouse等等












在相关的底层据仓库的建设中,还有几大基础模型如,这个内容之前也更大家介绍过:

①星型模型

•星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。












②雪花模型

雪花模型也是维度建模中的一种选择。雪花模型的维度表可以拥有其他维度表的,虽然这种模型相比星型模型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。









③星座模型

星座模型是星型模型延伸而来,星型模型是基于一张事实表的,而星座模型是基于多张事实表的,而且共享维度信息。通过构建一致性维度,来建设星座模型,也是很好的选择。比如同一主题的细节表和汇总表共享维度,不同主题的事实表,可以通过在维度上互相补充来生成可以共享的维度。









关于本次大数据相关的更系统性的内容,有兴趣的童鞋可关注:《第二期的数据分析训练营》








~原创文章

..

end


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-1-11 13:10:01
滨滨有利123 发表于 2022-1-10 20:30
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

...
不错不错
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-1-11 13:10:14
滨滨有利123 发表于 2022-1-10 20:30
在相关的大数据分析工具中,有一个好用的工具就是Spark。Spark是针对于大规模数据处理的统一分析引擎。

...
不错不错
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-1-20 08:56:19
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群