KAN干翻MLP开创神经网络新范式!一个数十年前数学定理竟被MIT华人学者复活了

  【新智元导读】KAN的诞生,开启了机器学习的新纪元!而这背后,竟是MIT华人科学家最先提出的实践想法。从KAN到KAN 2.0,这个替代MLP全新架构正在打开神经网络的黑盒,为下一步科学发现打开速通之门。

  神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时,没有什么能够与之竞争。

  圆周理论物理研究所研究员Sebastian Wetzel,对神经网络给予了高度的评价。

  其中一个基本组件——多层感知器(MLP),尽管立了大功,但这些建立在MLP之上的神经网络,却成为了「黑盒」。

  为此,AI界的研究人员们一直在想,是否存在不同类型的神经网络,能够以更透明的方式,同样输出可靠的结果?

  比起MLP,KAN架构更加透明,而且几乎可以完成普通神经网络,在处理某类问题时的所有工作。

  这个已经埋了30多年的数学原理,如今在DL时代被这位华人科学家和团队重新发现,再次发光发亮。

  虽然,这项创新仅仅诞生了5个月的时间,但KAN已经在研究和编码社区,掀起了巨浪。

  约翰霍普金斯大学计算机教授Alan Yuille赞扬道,KAN更易于解释,可以从数据中提取科学规则,因此在科学领域中有着极大的应用」。

  一层层人工神经元/节点,通过人工突触/边,进行连接。信息经过每一层,经过处理后再传输到下一层,直到最终将其输出。

  在所谓的训练期间,这些权重会不断调整,最终使得神经网络输出越来越接近正确答案。

  神经网络的一个常见的目标是,找到一种数学函数、曲线,以便最好地连接某些数据点。

  假设神经网络模拟了物理过程,理想情况下,输出函数将代表描述该物理过程的方程,相当于物理定律。

  KAN以一种不同于MLP的方式,进行函数拟合,将神经网络输出的点连接起来。

  同时,KAN的边函数是非线性和可学习的,这使得它们比MLP更灵活、敏感。

  1989年,由MIT物理学家转计算机神经科学家Tomaso Poggio,共同撰写的一篇论文中明确指出:

  1957年,数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数,你可以把它转换成多个函数的组合,每个函数都有一个变量。

  这个定理产生的单个变量函数,可能是「不平滑的」,意味着它们可能产生尖锐的边缘,就像V字的顶点。

  这对于任何试图使用这个定理,重建多变量函数的神经网络来说,都是一个问题所在。

  因为这些更简单的单变量部分,需要是平滑的,这样它们才能在训练过程中,学会正确地调增匹配目标值。

  直到去年1月,MIT物理学研究生Ziming Liu,决定重新探讨这个话题。

  他和导师Max Tegmark,一直致力于让神经网络在科学应用中,更加容易被人理解,能够让人们窥探到黑匣子的内部。

  导师却在这时,泼了一盆冷水,因为他对Poggio论文观点太过熟悉,并坚持认为这一努力会是一个死胡同。

  不过,Ziming Liu却没有被吓到,他不想在没有先试一下的情况下,放弃这个想法。

  他们突然认识到,即使由该定理产生的单值函数,是不平滑的,但神经网络仍可以用平滑的函数逼近数值。

  因为自Poggio发表论文,已经过了35年,当下的软件和硬件取得了巨大的进步。

  大约肝了一周左右的时间,Liu深入研究了这一想法。在此期间,他开发了一些原型KAN系统,所有系统都有两层。

  因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理,明确地将多变量函数分解为,不同的内部函数和外部函数集。

  但令Liu沮丧的是,所设计的原型KAN并没有在科学相关任务上,表现地更好。

  导师Tegmark随后提出了一个关键的建议:为什么不尝试两层以上的KAN架构,或许能够处理更加复杂的任务?

  这个羽翼未丰的原型架构,为他们带来了希望。很快,他们便联系了MIT、加州理工、东北大学的同事,希望团队能有数学家,并计划让KAN分析的领域的专家。

  他们给出了一个示例,三层KAN可以准确地表示一个函数,银河官方官网而两层KAN却不能。

  不过,研究团队并没有止步于此。自那以后,他们在多达六层的KAN上进行了实验,每一层,神经网络都能与更复杂的输出函数,实现对准。

  论文合著作者之一 Yixuan Wang表示,「我们发现,本质上,可以随心所欲堆叠任意多的层」。

  2021年,DeepMind团队曾宣布,他们已经搭建了一个MLP,再获得足够纽结的其他属性后,可以预测出给定纽结的特定拓扑属性。

  其目的是,预测特定相变将发生的边界,然后确定描述该过程的数学公式。同样,也只有KAN做到了在这一点。

  Tegmark表示,「但与其他形式的神经网络相比,KAN的最大优势在于其可解释性,这也是KAN近期发展的主要动力」。

  紧接着,7月,来自新加坡国立大学的研究人员们,对KAN和MLP架构做了一个全面的分析。

  他们得出结论,在可解释性的相关任务中,KAN的表现优于MLP,同时,他们还发现MLP在计算机视觉和音频处理方面做的更好。

  这一结果在人意料之中,因为KAN团队的重点一直是——科学相关的任务,而且,在这些任务中,可解释性是首要的。

  8月,KAN原班人马团队再次迭代了架构,发表了一篇名为「KAN 2.0」新论文。

  论文合著者认为,KAN不仅仅是一种达到目的的手段,更是一种全新的科学研究方法。

  长期以来,「应用驱动的科学」在机器学习领域占据主导地位,KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。

  比如,在观察天体运动时,应用驱动型研究人员,专注于预测它们的未来状态,而好奇心驱动型研究人员,则希望揭示运行背后的物理原理。

  Liu希望,通过KAN,研究人员可以从中获得更多,而不仅仅是在其他令人生畏的计算问题上寻求帮助。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。