立即打开
豆瓣电影大数据分析附带爬虫豆瓣对数据处理数据分析可视化含程序源代码
(含采用Python + BeautifulSoup + urllib进行爬虫数据采集的源代码,及相关的分析建模数据)
平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析该项目主要分为以下几部分:1:数据采集主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python + BeautifulSoup + urllib进行数据采集2:ETL预处理3:数据分析4:可视化代码封装完好,适用于对作影视感情分析,影评分析,电影类型分析,推荐系统的建立
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群