全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1168 2
2016-06-13

       首先非常感谢各位读者的关注,前段时间由于某些原因导致学习之路的文章和视频停更了一段时间给各位读者带来的不便敬请谅解,现在会继续更新,欢迎大家继续关注我们,关注学习之路!

       CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(64)了,欢迎观看学习!
       另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)


CDA数据分析师学习之路(64)


附赠《模型综合预测》干货视频


大数据的模型设计

   


        学习hive或者hbasehadoop生态中的大数据处理工具,很多人忽视或者不在于表或者模式的设计,其实这对一位出色的开发人员来说是至关重要的,这决定hive/hbase等的利用效率、稳定性。




同时,如果我们对hive/hbase的原理和工作机制认识不清楚、不到位,也无法设计出合格的表结构或者表模式。也有一些人一旦掌握架构或者原理,就很兴奋,但是却不能很优秀的完成数据模型设计,这是值得注意的地方。



      比如,业界把外部表/内部表、分区/桶、SerDe称为hive模式设计的三把斧,表面上看比较浅显,无非要与业务紧密结合,把业务模型转化为物理模型,恰恰这物理模型是我们要特别注意的,比如使用哪种存储格式,textfile还是RCFile,行式存储还是列式存储,要不要压缩,在何时以及以何种方式压缩等等,都要在数据模型设计中体现。



      HBase同样也是如此,而且表现更为显著,比如行健设计中怎么避免出现“热点”,在数据写入时就能够将数据均匀的分布在各个RegionServer上,如何设计使得基本查询更加高效,这样的问题使得行健设计变得非常高级。我们主张最好在一个列族中放下所有的列,这充分利用同一个列族会保存在同一个HFile中,等等。



      通过上面举例,我们能深刻认识到数据模型的重要性和为了设计出一个出色的数据模型需要掌握工具的基本原理和架构。

感谢宋广磊老师提供资料!


附赠《模型综合预测》干货视频

【CDA数据分析师学习之路】模型综合预测

感谢丁亚军老师提供视频资料!


***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!

投稿联系方式:

小段老师QQ:28819897132881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************

相关链接:

CDA数据分析师就业班第五期7月10号开课啦!   https://bbs.pinggu.org/thread-4588274-1-1.html


CDA大数据分析师就业班第三期7月17号开课啦!https://bbs.pinggu.org/thread-4588371-1-1.html


上一篇:


CDA数据分析师学习之路(63)https://bbs.pinggu.org/thread-4643508-1-1.html

下一篇:


CDA数据分析师学习之路(65)https://bbs.pinggu.org/thread-4651409-1-1.html


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-6-14 11:54:07
学习之路系列视频文章知识点将于近期进行改版,敬请期待
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-7 10:06:58
thanks
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群