加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

人工智能是大数据天体物理时代的万能钥匙吗?

发布时间:2021-04-07 08:18:23 所属栏目:业界 来源:未知
导读:我曾经写过一篇文章《和Wall-E一起仰望星空》,里面介绍了机器学习在大数据天体物理时代的应用,其高效性、自动化、准确性都给人们留下了深刻的印象。 看上去,人工智能也许能够帮助天文学家有效地解决大数据天体物理时代所面临的难题。然而,人工智能真的是
副标题[/!--empirenews.page--]

我曾经写过一篇文章《和Wall-E一起仰望星空》,里面介绍了机器学习在大数据天体物理时代的应用,其高效性、自动化、准确性都给人们留下了深刻的印象。

看上去,人工智能也许能够帮助天文学家有效地解决大数据天体物理时代所面临的难题。然而,人工智能真的是万能的么?本文将从目前机器学习的局限性探讨一下机器学习在天体物理中的应用范围。

01 刚需:大数据天体物理时代到来

随着观测技术的发展,天文数据呈指数型增长。例如,著名的斯隆巡天(The Sloan Digital Sky Survey)[1]开始于2000年,观测到了约300万个天体,数据量大约是40TB。而目前正在运行的暗能量巡天(The Dark Energy Survey)[2]的数据量至少是斯隆巡天的100倍。未来欧洲的欧几里得巡天(Euclid)[3]以及美国的大视场时空巡天(LSST)[4]则会把数据量推到惊人的50PB和200PB(1PB=1024TB)。

仅仅是可观测星系一种天体的样本数目,就将达到数十亿。因此,以往传统编程加人工处理方式的效率已经不足以应付这样庞大的数据量了。例如,把上百亿的星系按照哈勃星系图表(图1)分类的工作量就多到让人望而却步,这还仅仅是天体物理学研究的基本操作。

也就是说,高效的自动化数据处理将成为刚需。幸好人工智能技术在过去的十几年里有了突飞猛进的发展,比如图样识别技术已经可以快速地把互联网上的图片进行分类。天文学家们受此启发,开始把人工智能领域里的相关技术应用到天文数据的自动化处理中。

图1. 哈勃星系分类图表 ,最左侧分支(E)是椭圆星系,由左到右椭率逐渐增大。S0代表椭圆星系和漩涡星系的临界点。Sa,b,c分支代表常规漩涡星系,由a到b星系的光度中漩臂占的比重越来越大。SB分支代表具有棒结构的漩涡星系,由a到b的排序不只考虑了光度比还考虑的悬臂的开放程度。图片来源:https://en.wikipedia.org/wiki/Hubble_sequence

02 应用:分类、回归与生成

著名科学家赫伯特·西蒙(Herbert Simon,1975年图灵奖和1978年诺贝尔经济学奖得主)给机器学习下过定义——“机器学习是计算机程序通过摄取数据来自行改进性能的过程”。机器学习和传统程序根本的不同就是编程逻辑:机器学习的理念是归纳法,而传统编程更倾向于演绎法。

例如,如果想用传统编程方法对星系的形状分类,我们需先测量星系的形状参数,然后设定阈值,再根据形状参数和阈值的关系对星系分类;而机器学习的逻辑则是:先建立一个普适的模型,不提供特定参数或阈值,只输入星系图像和归类标签,这个模型就会根据输入的数据自我调整,从而演化成一个可用于星系形状分类的分类器。图2展示了传统程序和机器学习程序工作流程的差异。

图2. 传统编程和机器学习编程逻辑的差异。图片来源:

https://www.futurice.com/blog/differences-between-machine-learning-and-software-engineering/

眼下,天文学家主要应用机器学习解决分类、回归、生成等分体,成功案例包括星系形状分类和指定天体辨识(图3)、天体物理现象的快速自动化建模(图5)以及仿真图像的生成(图6)。综合来看机器学习在解决天体物理学问题上具有以下优点:1)覆盖范围广,普适性好;2)数据驱动,上限明显高于传统方法;3)开发难度越来越低,移植性好。这些优点使得机器学习的方法在天体物理尤其是大数据时代的天体物理中越来越流行,几乎在各个天体物理学领域甚至各个科学领域都能看到其身影。

图3. 应用监督学习和非监督学习进行星系形状分类的范例。上图为监督学习分类结果的范例[5],下图为非监督学习星系分类结果的范例[6]。两个方法都能比较好地根据形状对星系进行分类了,如果有兴趣了解更多细节,请访问图片来源链接里的论文(文末参考文献,下同)。

图4. 应用机器学习解决“回归问题”的实例。左图为宇宙中的投影物质分布示意图,右图为机器学习的方法根据宇宙中的投影物质分布预言的宇宙学参数[7]。这个应用的基本思想是通过机器学习的算法建立起左图和由图中宇宙学参数的对应关系,这样在将来有新的物质分布的数据的时候,只要输入训练好的模型中,就可以快速地返回对应的宇宙学参数了。

图5. 机器学习算法生成的仿真星系图像与真实图像的对比[8]。左图为机器学习生成的无噪音漩涡星系,中图为添加噪音之后的仿真图像,右图为哈勃望远镜所观测到的图像。生成尽可能真实的数值模拟的图像有助于天文学家测试和校正数据处理软件和科学建模软件。

03 短板:门槛、数据与黑盒子

然而,机器学习并非无所不能。首先其超高的计算量和特别的硬件需求使其入门门槛要高于传统方法。另外,模型设计非常复杂,要投入大量的人力、物力和时间来开发新算法及模型,大部分人只能使用现有的模型。而且,机器学习是一个随机的过程,结果的统计性是自洽的,但无法在个体结果上实现多次完美重现。

例如,应用机器学习实现分类操作时,小部分目标天体每次的分类结果都会不一样;应用机器学习实现回归计算时,每次预言的参数也都不是可重复的固定值,尽管不确定性很小。因此,应用机器学习研究天体物理学问题时,有明确一对一关系的物理过程(如星系动力学仿真和引力透镜光线追踪仿真等)依然需要传统方法来实现。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读