全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
3870 11
2016-01-28


CDA数据分析师学习之路(3),附赠《JAVA程序调用》视频教程


怎么选择Hadoop的基准测试


       我们部署好Hadoop集群,在测试和学习环境下对通过参数配置来提供集群资源的利用效率重视不够,但是在实际工作环境下这一点相当重要,这直接影响线上任务的执行时间,系统的吞吐量和资源利用率等。


       怎么才能得到符合实际工作需要的最佳参数配置呢?一般是基于在各种情况下对集群性能进行测试得出,这称之为benchmark。伴随参与Hadoop商业化的厂家不断涌现的情况下,各种benchmark工具或者套件也随之产生出来,那么,遴选出一种适合自身需求的工具也就显得重要起来。


       针对Hadoop集群性能测试的工具,主要包括GridMix、TPC-DS、YCSB、Hibench、BigDataBench、BigBench等。Intel设计开发的Hibench成为主要的选择,针对Hadoop的基准测试,通过模拟集群工作负载,对它的HDFS IO和MapReduce CPU利用率进行考察,并且通过相关参数调整来对比性能的变化从而达到优化的目的。


       Hibench所包含的负载测试用例主要有Sort(IO密集型)、WordCount(CPU密集型)、TeraSort(两者兼有),这些基本上继承了Apache社区早已有之的用例。当然,它还包括搜索引擎和机器学习方面的负载测试。


       当然,也应该选择其它的方案来辅助进行负载测试以进一步确定优化方案是否合理。BigDataBench选用了SQL作为测试工具,而Hive是基于Hadoop的数据仓库解决方案,提供了类似SQL的工具,可以通过Hive运行Scan Query、Aggregation Query、Join Query和External Script Query等检查Hadoop系统性能。


感谢宋广磊老师提供文章资料!


附赠《JAVA程序调用》视频教程:


【CDA数据分析师学习之路】《JAVA程序调用》视频教程


特好消息:


CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!


CDA数据分析师就业班第四期4月10号开课啦!https://bbs.pinggu.org/thread-4160404-1-1.html


CDA大数据分析师就业班第二期4月17号开课啦!https://bbs.pinggu.org/thread-4160397-1-1.html


上一篇:

CDA数据分析师学习之路(2)https://bbs.pinggu.org/thread-4194571-1-1.html


下一篇:

CDA数据分析师学习之路(4)https://bbs.pinggu.org/thread-4198048-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-1-28 09:22:13
CDA数据分析师学习之路(2)https://bbs.pinggu.org/thread-4194571-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-28 09:30:21
前天上了两篇帖子,今天的终于来了,这几天有盼头了,小编加油,期待提供更多干货
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-28 09:30:46
这个模式好,不仅有文字介绍还有视频可以学习,可以微课微学习了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-28 09:35:16
Java程序调用,好东西啊,这个Hadoop文章有点高大上啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-28 09:48:10
Hadoop,大数据应用必备的技能,Java程序调用的视频也是好东西啊,感谢CDA数据分析师学习之路,以后会持续关注,相信会跟着学习到很多实用的关于大数据和数据分析的知识,楼楼加油噢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群