昨日阅读3小时,总计65.5小时
《大数据技术体系详解-原理、架构与实践》-董西成著-机械Press-2018.4
经典的
LA应用案例:
推荐系统
场景:电子商务、视频、新闻等。设计目的是根据用户的兴趣特点和购买行为,向用户推荐感兴趣的信息和商品。
推荐系统建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助商家为其顾客购物提供完全个性化的决策支持和信息服务。
最核心的模块是推荐算法(会根据用户的兴趣特点和历史行为数据构建推荐模型以预测用户可能刚兴趣的信息和商品,进而推荐给用户)
一个典型的推荐系统数据流水线架构:产生的数据----(用户行为数据)----->Kafka---(以小时为单位、实时导入)---->
1.MapReduce/Spark批处理层 2.Storm/Spark Streaming流式处理层 ------->Redis(服务层)---->结果
为解决冷启动(新用户推荐问题),往往会引入流式处理层:实时收集用户的行为,并基于此数据通过简单的推荐算法快速产生推荐结果并存储起来。
服务层提供对外访问接口,比如网站后台在渲染某个访问页面时,可能从广告系统、推荐系统以及内容存储系统中获取对应的结果,并返回给客户端。
Hadoop和Spark版本选择及安装部署
目前知名的Hadoop发行版有
- Apache Hadoop:社区原始版本(其他商用发行版的基础)
- CDH(Cloudera Distributed Hadoop):社区版所有源代码开源,企业版闭源收费,是使用最广泛的发行版
- HDP(Hortonworks Data Platform):社区版所有源代码开源,企业版闭源收费
知名的Spark发行版
- Apache Spark:社区原生版
- Databricks Spark:社区版所有源代码开源,内置企业版,增加安全、审计、云等方面的支持
- Hadoop企业发行版:各大Hadoop企业发行版,比如HDP和CDP都内置对Spark的支持