全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
860 0
2020-10-27
开始使用在大数据集群中安装Jupyter的PySpark开发
众所周知,Jupyter,Apache Zeppelin或最近推出的Cloud Data Lab和Jupyter Lab等数据科学工具是日常工作必不可少的,因此如何结合轻松开发模型的能力和大数据集群的计算?在本文中,我将分享一个非常简单的步骤,以开始在GCP的Data Proc Cluster中将Jupyter笔记本用于PySpark。      
最终目标
Jupyter Spark的图像结果
先决条件
1.拥有一个Google Cloud帐户(只需登录您的Gmail并在一年内自动获得$ 300的信用额)[1]
2.用您喜欢的名称创建一个新项目
脚步
为了简化部署,我将使用一个beta功能,该功能仅在通过Google Cloud Shell创建Data Proc Cluster时才适用。对于我们的集群,我们需要定义许多功能,例如工作人员数量,主机的高可用性,RAM数量和硬盘驱动器等等。为了简化起见,我建议通过UI模拟集群的创建。首先,我们需要启用Dataproc(图1和2)。
图1启用Dataproc API I
图2启用Dataproc API II
2.获得等效的命令行,以您自己的集群大小来模拟创建过程。我将设定基本规格:  
地区:全球
集群模式:标准
主节点:2个vCPU,7.5GB内存和300个磁盘大小
工作节点:2vCPU,7.5GB内存和200磁盘大小
通过UI模拟创建集群
基本规格
重要:您应该单击高级选项,然后将Image更改为1.3 Debian 9,以使beta参数起作用。
要访问,请单击高级选项。
更改为1.3 Debian 9
3.获取等效命令行
在命令行中单击
复制gcloud命令
4.关闭模拟,然后单击以激活Cloud Shell
激活云外壳
5.修改您的命令添加并运行(可能需要几分钟)
—可选组件= ANACONDA,JUPYTER
更改
从gcloud dataproc 集群 到gcloud beta dataproc集群

gcloud beta dataproc群集创建cluster-jupyter —子网默认值— zone-west-west1-d —主计算机类型n1-standard-2 —主引导磁盘大小300 — num-workers 2 —工人计算机类型n1 -standard-2-工人启动磁盘大小200-可选组件= ANACONDA,JUPYTER-图像版本1.3-deb9-项目jupyter-cluster-223203
在外壳中运行
集群创建
6.允许Jupyter端口进入流量,在登录页面中搜索防火墙规则并创建一个规则。
搜索防火墙规则VPC网络
点击创建规则
7.定义防火墙规则打开端口8123并保存。
参数
规则运作
8.输入您的Jupyter笔记本!(您需要您的主IP并添加jupyter默认端口,例如http://30.195.xxx.xx:8123)
获得主人的IP
9.让我们创建我们的第一个Pyspark笔记本
创建第一个Pyspark笔记本
10.验证运行良好
奖励:检查Spark UI
要访问Spark UI,您需要添加另一个防火墙规则,如步骤7。打开端口8088、4040、9870和4041。
创建Spark UI规则
单击我们的第一个笔记本中的Spark UI链接,您将收到ERR_NAME_NOT_RESOLVED错误,只需将URL替换为主IP
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群