史上最实用的大数据实施系统计划！

hsj987

1162

收藏 2016-02-25

因此在实际应用上，大数据的实际实施系统可以有很多种方式。通过你的预算和思考规划，你将能使用最便捷、最实用、又最低成本的大数据实施系统。

1. 你的数据有多大?

3. 你想要怎样展现数据?

下面是基于对前两个问题的不同回答，推荐采用的一些工具。

这个是批处理(batch processing)适用的场景。一个可行的方案是：AWS S3 + Apache Spark。你可以执行Spark任务，读取S3中的数据，然后将计算结果存成CSV文件，最后用Excel分析或者可视化结果。

这个通常是交互式查询适用的场景。一个可行的方案是：AWS Redshift + Tableau。 Redshift提供低延迟查询处理，Tableau提供很好的数据可视化功能，二者结合起来可以轻松的分析大量数据，只是需要一定的成本。需要提醒的是，你最好提前规划好 Redshift集群的规模和容量，减少随机动态调整，因为在Redshift中，扩展集群(scale up or scale out)是个比较痛苦的过程。

这个场景适用于预算有限的情况，或者你不想在AWS Redshift和Tableau上投入太多。你将需要对大数据比较了解的开发人员，从而可以自己搭建企业内部的大数据集群。一个可行的解决方案是：Apache Cassandra + Presto Query Engine + H2 Console (from H2 Database Engine)。

（来源：大数据魔镜博客）

更多内容关注CDA数据分析师

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群