每个数据科学家都应该知道的Google BigQuery和Data Studio基本介绍!
在当今数据驱动的时代,云平台在减少对物理IT系统的依赖以及在存储,效率和可伸缩性方面切换到更无缝的体验方面一直是个福音。众所周知,Google Cloud Platform(GCP)是提供各种服务的此类领先云提供商之一,本文将重点介绍其查询语言平台BigQuery和可视化分析工具Data Studio。
什么是BigQuery?
Google BigQuery是一个无服务器的数据仓库平台,您可以在其中查询和处理大量数据。最好的部分是,即使数据集相对较大,也可以在几秒钟内运行多个查询。如果您熟悉SQL(结构化查询语言),那将很容易掌握。让我们开始使用基本的BigQuery!
1.打开console.cloud.google.com -GCP窗口将打开。理想情况下,您必须为此拥有一个Google帐户。在“搜索”选项卡中,输入BigQuery,这会将您重定向到BigQuery查询编辑器窗口,如下所示:
数据工作室bigquery
数据工作室bigquery搜索
2.让我们首先使用GCP现有的公共数据集存储库(是的!GCP也有示例数据集可供探索!)转到窗口的左侧,您将在其中找到“添加数据”选项-在这里,选择“探索公共数据集”,公共可用数据集将如下所示列出(或者,也可以使用“外部数据源”选项添加自己的数据)。选择要查看的数据集,它将在主编辑器窗口中的项目名称“ bigquery-public-data”下添加。在我们的例子中,我们已经加载了Covid-19数据集。
数据工作室bigquery-GCP
数据工作室bigquery数据集
3.现在您已经准备好数据,您可以单击左侧的特定数据集,BigQuery会为您提供该数据集的摘要–从使用的列及其数据类型到数据预览:
BigQuery covid 
4.单击“查询表”选项,将在编辑器中显示示例查询语句。您可以立即使用基于SQL的查询来探索数据!
5.让我们接下来通过创建表来子集Covid19数据集。为此,您需要创建自己的“项目”(例如数据的文件夹位置)。转到蓝色栏的左上角,然后转到“选择您的项目”。将打开一个弹出窗口。单击右上角的“新建项目”,然后输入新的项目名称,如下所示:
数据工作室bigquery-新项目
项目设置
创建后,它将反映在主编辑器窗口的左侧。现在我们已经准备好一个项目,接下来,我们将必须在此位置下创建一个数据集来存储我们要创建的新表。
6.为此,请单击左侧的项目名称(在本例中为'bigqueryproject2020'),然后转到“创建数据集”选项。输入数据集的名称,然后单击“创建数据集”。
创造
创建数据集
7.在查询编辑器中,我们现在将使用SQL查询在新创建的位置中创建表“ myproject_covid_data”,如下所示:
sql查询
现在,我们的数据集中有按国家和日期分类的已确认,已死亡和已恢复的Covid病例数。现在,我们想从这些数据中得出一些见解–这就是Data Studio发挥作用的地方。
什么是Data Studio?
Google Data Studio是一个可视化平台,您可以从中创建快速的仪表板和数据报表。GCP提供了一个非常有用的选项,可以将BigQuery上的数据导出到Data Studio,这样就可以立即开始研究洞察力!让我们在下一部分中对此进行探讨。
1.在上一节中,我们创建了子表“ myproject_covid_data”。要在Data Studio中对其进行可视化,请转到下面查询结果窗格上的“导出”选项,然后选择“使用Data Studio浏览”。将打开一个新窗口以进行可视化:
资料室
联合探险家
2.您将在右侧看到很多图表/可视化选项,以及将在可视化中表示的指标。现在,让我们创建一个可视化视图,该视图按日期显示已确认的Covid案例与已恢复的Covid案例数量,并按国家/地区对其进行过滤以查看结果。
在右侧,选择组合图(条形图+折线图)。在右下角,您将看到2个“数据”和“样式”标签-您可以在“数据”标签下添加所需的指标,并在“样式”标签下直观地设置图表格式。
3.在“数据”选项卡下,在“维度”下添加“日期”列,并在“指标”下添加“ new_confirmed”和“ new_recovered”。您会注意到为这些列选择了自动汇总,这就是我们要查看的内容。
4.接下来,将“ country_name”和“ date”列拖到图表上方的“筛选器”窗格中。从过滤器下拉列表中选择一个国家,例如–印度,以及日期范围–例如– 20年9月1日至9月30日。您的视觉效果应如下所示。另外,请确保使用图表中的sort选项对X轴日期进行排序(在第二张图片中):
仪表板
可视化
5.如您所见,该图表在20年9月1日至20日的时间段内在印度的折线图上绘制了确认的病例数,并在条形图上绘制了已恢复的病例数。将鼠标悬停在数据栏或数据线上将显示该数据点的确切值。
6.我们可以使用右下角的“样式”选项卡进一步设置此图表的格式,使其在视觉上更具吸引力。然后,我们的最终视觉效果如下所示,瞧!通过在BigQuery中创建数据集并在Data Studio中对其进行可视化,您已经获得了见解!
题库