Bradley Kavanagh博士与天体物理学大数据发展
由于基于
机器学习的图像识别和AI驱动的优化技术的进步,大数据在计算机科学领域的影响备受关注。但是今天,我们将探索大数据对科学最令人兴奋的领域之一的影响。布拉德利·卡瓦纳格(Bradley Kavanagh)博士说,过去20年中,天体物理学一直是5个诺贝尔奖获得者的舞台,这在很大程度上要归功于大数据的发展。
布拉德利·卡瓦纳(Bradley Kavanagh)是阿姆斯特丹大学的一名天体物理学家。他是一位理论家,目前专门从事暗物质研究。有关Dr.Kavanagh的更多信息,请访问他的网站
www.bradkav.net 和他的Github github.com/bradkav。
我采访了Kavanagh博士,以了解他对走向越来越大的数据收集和处理规模的影响如何影响他的研究领域的想法。我认为,由于天体物理学趋于竭尽全力进行测量,大数据将对天体物理学家的能力产生深远影响。卡瓦那博士(Dr. Kavanagh)在下面详细阐述了他的领域与计算机数据收集之间的交织。
天文学一直以来都是由数据驱动的,但是我问卡瓦那博士,他如何看待越来越多的数据处理对理论上有多少天体物理学家以及测量工具开发和
数据分析方面有何影响?
[我实际上不认为这是考虑的方式。从我的角度来看,您50年前作为观察者会想到的(从望远镜中观察图像),它们的作用已成为技术性的。当您进行大型的,全天候的调查时,实验人员的工作不仅是拍摄图像,而且是编写处理图像中所有数据并将其转化为有用的代码的工具。]
是的,所以您认为它已经变得更加专注于软件,但是,不是真的将理论家引入了基于实验的东西吗?
[是的,实验者不一定要拍摄一堆图像,您需要理论家来处理它。实验学家的工作已经改变并转变为既要处理实验又要处理实验数据的人。
您认为这使实验家的工作变得更难或更轻松了吗?就他们可能花费多少时间在特定纸张或开发上?
[这很难说,我认为这使工作更加艰辛,但回报却越来越大。有很多需要进行的详细数据分析,但是其中一些涉及自动化任务,这些任务本可以花10多年的时间才能完成,因此现在您可以实现更多的目标。]
能够快速将大量原始数据发送到世界各地的其他研究机构,显然提高了天体物理学家合作的程度,但是我问卡瓦那博士,他认为数据驱动的变化是改善国际合作的下一个最佳步骤。
[问题之一是,如果您仅向某人提供一堆数据,您会认为这将给他们提供使用该数据的机会,但实际上有很多基础设施(例如如何使用这些数据) )。例如,大型强子对撞机一直在生成海量数据,而由于物理数据太多,它们实际上无法释放所有数据。他们是唯一拥有足够空间来存储所有内容的人,因此共享它只是没有意义。但是他们一直在尝试使用中间级别的数据。因此,他们所做的是,他们获取自己拥有的所有原始数据,并做出他们认为是[数据处理]中最有用的中间步骤。这是一种综合,他们还可以使用它们提供某种工具或解释(供使用)。
费米卫星一直在做类似的事情,慢慢释放数据集和工具,以便人们可以实际使用[卫星]产生的东西。
仅凭数据是不够的,它把数据转换成人们可以使用的格式,并为人们提供了使用工具。这实际上是将人们联系起来并使人们在这些事情上进行协作的原因。]
那么,您认为在项目之间使用某种数据分发标准是一个好主意吗?
[很难制定出适合所有人的数据标准。有时,我会尝试复制[本领域其他研究人员]发表的结果,并且这样做并不需要他们拥有的所有数据,因此需要一些经过精心策划的数据;有用的摘要。一段时间以来,我们中的一些人试图提出一种摘要格式。例如,检测器的尺寸,运行时间多长,在特定条件下的响应等等。我们很快发现,要使每个不同的实验都适合特定的数据集将变得非常困难。 。
相反,您最好要做的是使每个人尽可能公开其数据,还提供尽可能多的元数据,以便其可重复使用。]
卡瓦纳博士与他的学术出版物一起发布了很多代码,我问他是否认为物理学家编写自己的软件以进行研究是由于其领域内向大数据迈进的结果,或者这是否会出于纯粹的兴趣发生了任何事情。
[就我而言,它开始发生是因为人们试图重现实验结果。我们遇到了这个问题,我想问[另一所大学的其他研究人员]他们是如何做到的,他们会给我一个大概的想法,但实际上我们无法进行比较。我认为解决此问题的唯一方法是发布代码,以建立标准。
由于我们越来越多地进行数据分析和编码,因此,如果您不释放这样做的管道,那么人们就很难进行审查,因为该管道已成为您所做研究的一部分,因此您基本上没有发布您的方法。
因此,我认为,从长远来看,科学可能会更多地涉及数据科学领域,这正在驱使人们编写自己的代码并将其公开,因为不能再将所有内容都包含在论文中了。]
从卡瓦纳博士的 出版物 中可以看出,他专注于天体物理学的理论方面,但是我问他,他认为收集大量数据对于该领域的发展有多重要。换句话说,截至目前,该领域是由测量驱动还是由理论驱动?
[目前绝对是数据驱动的。过去,粒子和天体物理学已经经历了拥有一堆数据的阶段,这些数据似乎以奇怪的方式连接在一起,而且没人知道它是如何连接或为什么连接的。如果您只是理论上的一员,那将是一个天堂,因为您可以获取该[数据]并对其进行观察并尝试理解它。
目前,并不是说我们没有数据,而是我们拥有的所有数据都与我们对事物的基本理解相一致。因此,人们正在寻找令人兴奋的事物,极端情况,极端情况和异常现象来尝试解释事物。所以,我绝对认为我们是在类型的数据匮乏的情况下,其中的很多东西[研究员]做涉及理论化,你有什么 可以 配合下,向上和未来的实验做。
例如,在我的暗物质研究领域,我们没有任何新的有趣的数据,因此人们开始转向拥有更多数据的其他领域。]
暗物质理论之所以具有吸引力,是因为它为现象提供了很好的解释,例如普遍膨胀发生的方式或质量绕其星系轨道的方式。实际上,该理论非常适合数据,物理学家认为其存在是理所当然的。但是还没有直接检测到暗物质颗粒的信息,因此肯定有爆炸声,但是我们还没有发现吸烟枪。
作为暗物质专家,Kavanagh博士必须非常适应这种明显的数据缺失。我问他哪种暗物质检测方法是什么,他认为如果数据收集规模更大,那将证明是成功的。
[有一种非常酷的暗物质检测方法,称为定向暗物质检测,在这种方法中,触发检测器后,您将尝试跟踪撞击它的粒子的路径,以便可以追溯到暗物质粒子的来源。 。如果您可以为足够的粒子执行此操作,那将是一支令人难以置信的吸烟枪,因为您会看到所有粒子都沿着地球的方向通过银河系移动。问题是,要做到这一点,您需要一个密度不高的检测器,因为您需要能够跟踪粒子。但是,如果检测器不是很稠密,那么您希望检测的次数会减少,因为与粒子碰撞的次数会更少。在这种情况下,您需要检测器很大以获取足够的数据。但是,大型检测器会给您带来很多数据收集方面的技术挑战,这需要大量资金来克服。]
理论通常会揭示全新的方法来解释既定的实验结论,但是我问卡瓦那博士是否能想到一个例子,其中天体物理数据的规模揭示了该理论的新发现
[当观察星系旋转曲线时,在80年代,人们需要一年左右的时间才能使用望远镜,测量星系中恒星和气体的旋转,并绘制出旋转曲线。但是我们现在生活在一个太空望远镜自动执行此操作,并将结果发送给物理学家的时代,物理学家清理并确保它有意义并处理成旋转曲线。但是您不能从旧数据中得知,仅仅是因为没有足够的数据,就是如果您将[每个星系中的所有曲线]排列在一起,它们以非常奇怪的方式匹配,并且散布很少它们之间。看来星系自转曲线之间的这种模式是某种普遍定律,并被认为是暗物质的证据。还有很多其他的解释,但要点是,如果仅拍摄一个星系并绘制其旋转曲线,则看不到任何东西。只有对具有3000个数据点的200个星系执行此操作,每个数据点都有自己的数据处理管道,您才会看到这种相关性。]
大数据的真正含义或有用性通常只有在以正确的方式显示或存储时才能显示出来。我问卡瓦纳博士,在天体物理学中呈现大量数据的标准是什么(图形,数据存储格式,模式分析)。他是否认为可以通过更高的标准化(即论文作者减少样式选择)来改善它们?
[我会说它开始变得标准化。人们已经开始使用特定的高密度文件格式,例如天文学中的FITS文件格式。它是专门为包含天文学测量所需的所有元数据而设计的。这是必要的,因为您将要对来自数千颗恒星的大量数据进行成像,因此您需要一种方法来优化过程。
在天体粒子物理学中,我认为我们还没有真正走到那一步,因为每个实验都如此不同。FITS文件来自一堆像素,它们是您的数据,因此[研究人员]有一种明智的方式来同意他们的数据看起来像什么。在天体物理学中,有时您的数据例如是电压,有时是事件列表,因此很难标准化。
您是否认为这是因为天体物理学仍然是一个年轻的领域?还是您认为这仅仅是内在的?
[我认为,如果有一个明显的领域,一个年轻领域将提出一个标准。天体物理学是一个年轻的领域,有许多不同的参与者在做不同的事情,这很棘手。]
最后,最后,我问卡瓦纳博士,他是否可以通过弹指而入想要获取的任何数据,那是吗?
[我的头告诉我,我想要的要么是银河系中的恒星,要么是宇宙中各处的星系。所以银河系中每颗恒星的位置和速度都很有趣,因为盖亚卫星(我什至没有谈到)几乎可以为您提供。由此可以重建银河系中的质量分布,这将是一件非常酷的事情。
另一个是星系在整个宇宙中的相关性,我什至不知道该怎么做,但这是我的大脑要做的第一件事!有人想要使用它。
我认为这有时就是天体物理学。收集已经存在的数据,并思考可能会发生的奇怪事情。因此,如果我对宇宙中所有星系的分布有硬盘驱动器,我想我可以想到一些有趣的事情。]

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!