开始使用在大数据集群中安装Jupyter的PySpark开发

941

收藏 2020-10-27

开始使用在大数据集群中安装Jupyter的PySpark开发
众所周知，Jupyter，Apache Zeppelin或最近推出的Cloud Data Lab和Jupyter Lab等数据科学工具是日常工作必不可少的，因此如何结合轻松开发模型的能力和大数据集群的计算？在本文中，我将分享一个非常简单的步骤，以开始在GCP的Data Proc Cluster中将Jupyter笔记本用于PySpark。
最终目标
Jupyter Spark的图像结果
先决条件
1.拥有一个Google Cloud帐户（只需登录您的Gmail并在一年内自动获得$ 300的信用额）[1]
2.用您喜欢的名称创建一个新项目
脚步
为了简化部署，我将使用一个beta功能，该功能仅在通过Google Cloud Shell创建Data Proc Cluster时才适用。对于我们的集群，我们需要定义许多功能，例如工作人员数量，主机的高可用性，RAM数量和硬盘驱动器等等。为了简化起见，我建议通过UI模拟集群的创建。首先，我们需要启用Dataproc（图1和2）。
图1启用Dataproc API I
图2启用Dataproc API II
2.获得等效的命令行，以您自己的集群大小来模拟创建过程。我将设定基本规格：
地区：全球
集群模式：标准
主节点：2个vCPU，7.5GB内存和300个磁盘大小
工作节点：2vCPU，7.5GB内存和200磁盘大小
通过UI模拟创建集群
基本规格
重要：您应该单击高级选项，然后将Image更改为1.3 Debian 9，以使beta参数起作用。
要访问，请单击高级选项。
更改为1.3 Debian 9
3.获取等效命令行
在命令行中单击
复制gcloud命令
4.关闭模拟，然后单击以激活Cloud Shell
激活云外壳
5.修改您的命令添加并运行（可能需要几分钟）
—可选组件= ANACONDA，JUPYTER
更改
从gcloud dataproc 集群到gcloud beta dataproc集群
跑
gcloud beta dataproc群集创建cluster-jupyter —子网默认值— zone-west-west1-d —主计算机类型n1-standard-2 —主引导磁盘大小300 — num-workers 2 —工人计算机类型n1 -standard-2-工人启动磁盘大小200-可选组件= ANACONDA，JUPYTER-图像版本1.3-deb9-项目jupyter-cluster-223203
在外壳中运行
集群创建
6.允许Jupyter端口进入流量，在登录页面中搜索防火墙规则并创建一个规则。
搜索防火墙规则VPC网络
点击创建规则
7.定义防火墙规则打开端口8123并保存。
参数
规则运作
8.输入您的Jupyter笔记本！（您需要您的主IP并添加jupyter默认端口，例如http：//30.195.xxx.xx：8123）
获得主人的IP
9.让我们创建我们的第一个Pyspark笔记本
创建第一个Pyspark笔记本
10.验证运行良好
奖励：检查Spark UI
要访问Spark UI，您需要添加另一个防火墙规则，如步骤7。打开端口8088、4040、9870和4041。
创建Spark UI规则
单击我们的第一个笔记本中的Spark UI链接，您将收到ERR_NAME_NOT_RESOLVED错误，只需将URL替换为主IP
1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群