全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
6227 11
2018-06-24
我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行,还是说,需要将脚本进行mapreduce转化后才能运行,如果是转化,怎么转化,很难吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-6-25 08:13:21
顶一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-26 10:22:23
首先 由于python默认应用于单机环境,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。
MapReduce是hadoop处理数据的引擎(框架),在hadoop上运行的程序都是基于这种思想来编写的。因此Python脚本必须做这样的转换才可以。可以参考一下 pydoop、mrjob 、hadoop streaming、这些来对自己代码做转换。因为是进群模式运行,因此集群中的每个节点都要安装相同的python环境(python解释器+相关的包)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-26 12:57:44
hunter.Z 发表于 2018-6-26 10:22
首先 由于python默认应用于单机环境,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在had ...
请问这种转换是分两步吗?先写单机环境下的Python 脚本,然后再进行mapreduce 转换。还是直接用Python 语言就可以直接写基于Hadoop的程序?
未来会不会有像hive 这样的语言壳子,直接将单机环境下的Python 脚本直接转换成Hadoop 环境下运行的脚本,这样就不需要了解Hadoop 了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-26 13:58:05
liuben822 发表于 2018-6-26 12:57
请问这种转换是分两步吗?先写单机环境下的Python 脚本,然后再进行mapreduce 转换。还是直接用Python 语 ...
直接按MapReduce方式写  map和 reduce部分的代码,其实可以选择用spark ,spark提供了更全面的python接口,开发起来效率更高一些。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-6-27 15:27:41
hunter.Z 发表于 2018-6-26 13:58
直接按MapReduce方式写  map和 reduce部分的代码,其实可以选择用spark ,spark提供了更全面的python接口 ...
非常感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群