【新智元导读】KAN的诞生,开启了机器学习的新纪元!而这背后,竟是MIT华人科学家最先提出的实践想法。从KAN到KAN 2.0,这个替代MLP全新架构正在打开神经网络的黑盒,为下一步科学发现打开速通之门。
神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时,没有什么能够与之竞争。
圆周理论物理研究所研究员Sebastian Wetzel,对神经网络给予了高度的评价。
其中一个基本组件——多层感知器(MLP),尽管立了大功,但这些建立在MLP之上的神经网络,却成为了「黑盒」。
为此,AI界的研究人员们一直在想,是否存在不同类型的神经网络,能够以更透明的方式,同样输出可靠的结果?
比起MLP,KAN架构更加透明,而且几乎可以完成普通神经网络,在处理某类问题时的所有工作。
这个已经埋了30多年的数学原理,如今在DL时代被这位华人科学家和团队重新发现,再次发光发亮。
虽然,这项创新仅仅诞生了5个月的时间,但KAN已经在研究和编码社区,掀起了巨浪。
约翰霍普金斯大学计算机教授Alan Yuille赞扬道,KAN更易于解释,可以从数据中提取科学规则,因此在科学领域中有着极大的应用」。
一层层人工神经元/节点,通过人工突触/边,进行连接。信息经过每一层,经过处理后再传输到下一层,直到最终将其输出。
在所谓的训练期间,这些权重会不断调整,最终使得神经网络输出越来越接近正确答案。
神经网络的一个常见的目标是,找到一种数学函数、曲线,以便最好地连接某些数据点。
假设神经网络模拟了物理过程,理想情况下,输出函数将代表描述该物理过程的方程,相当于物理定律。
KAN以一种不同于MLP的方式,进行函数拟合,将神经网络输出的点连接起来。
同时,KAN的边函数是非线性和可学习的,这使得它们比MLP更灵活、敏感。
1989年,由MIT物理学家转计算机神经科学家Tomaso Poggio,共同撰写的一篇论文中明确指出:
1957年,数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数,你可以把它转换成多个函数的组合,每个函数都有一个变量。
这个定理产生的单个变量函数,可能是「不平滑的」,意味着它们可能产生尖锐的边缘,就像V字的顶点。
这对于任何试图使用这个定理,重建多变量函数的神经网络来说,都是一个问题所在。
因为这些更简单的单变量部分,需要是平滑的,这样它们才能在训练过程中,学会正确地调增匹配目标值。
直到去年1月,MIT物理学研究生Ziming Liu,决定重新探讨这个话题。
他和导师Max Tegmark,一直致力于让神经网络在科学应用中,更加容易被人理解,能够让人们窥探到黑匣子的内部。
导师却在这时,泼了一盆冷水,因为他对Poggio论文观点太过熟悉,并坚持认为这一努力会是一个死胡同。
不过,Ziming Liu却没有被吓到,他不想在没有先试一下的情况下,放弃这个想法。
他们突然认识到,即使由该定理产生的单值函数,是不平滑的,但神经网络仍可以用平滑的函数逼近数值。
因为自Poggio发表论文,已经过了35年,当下的软件和硬件取得了巨大的进步。
大约肝了一周左右的时间,Liu深入研究了这一想法。在此期间,他开发了一些原型KAN系统,所有系统都有两层。
因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理,明确地将多变量函数分解为,不同的内部函数和外部函数集。
但令Liu沮丧的是,所设计的原型KAN并没有在科学相关任务上,表现地更好。
导师Tegmark随后提出了一个关键的建议:为什么不尝试两层以上的KAN架构,或许能够处理更加复杂的任务?
这个羽翼未丰的原型架构,为他们带来了希望。很快,他们便联系了MIT、加州理工、东北大学的同事,希望团队能有数学家,并计划让KAN分析的领域的专家。
他们给出了一个示例,三层KAN可以准确地表示一个函数,银河官方官网而两层KAN却不能。
不过,研究团队并没有止步于此。自那以后,他们在多达六层的KAN上进行了实验,每一层,神经网络都能与更复杂的输出函数,实现对准。
论文合著作者之一 Yixuan Wang表示,「我们发现,本质上,可以随心所欲堆叠任意多的层」。
2021年,DeepMind团队曾宣布,他们已经搭建了一个MLP,再获得足够纽结的其他属性后,可以预测出给定纽结的特定拓扑属性。
其目的是,预测特定相变将发生的边界,然后确定描述该过程的数学公式。同样,也只有KAN做到了在这一点。
Tegmark表示,「但与其他形式的神经网络相比,KAN的最大优势在于其可解释性,这也是KAN近期发展的主要动力」。
紧接着,7月,来自新加坡国立大学的研究人员们,对KAN和MLP架构做了一个全面的分析。
他们得出结论,在可解释性的相关任务中,KAN的表现优于MLP,同时,他们还发现MLP在计算机视觉和音频处理方面做的更好。
这一结果在人意料之中,因为KAN团队的重点一直是——科学相关的任务,而且,在这些任务中,可解释性是首要的。
8月,KAN原班人马团队再次迭代了架构,发表了一篇名为「KAN 2.0」新论文。
论文合著者认为,KAN不仅仅是一种达到目的的手段,更是一种全新的科学研究方法。
长期以来,「应用驱动的科学」在机器学习领域占据主导地位,KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。
比如,在观察天体运动时,应用驱动型研究人员,专注于预测它们的未来状态,而好奇心驱动型研究人员,则希望揭示运行背后的物理原理。
Liu希望,通过KAN,研究人员可以从中获得更多,而不仅仅是在其他令人生畏的计算问题上寻求帮助。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。