银河国际科学研究院_KAN干翻MLP开创神经网络新范式！一个数十年前数学定理竟被MIT华人学者复活了

银河国际·Galaxy(中国)官方网站 > 学者介绍

KAN干翻MLP开创神经网络新范式！一个数十年前数学定理竟被MIT华人学者复活了

个人介绍

　　【新智元导读】KAN的诞生，开启了机器学习的新纪元！而这背后，竟是MIT华人科学家最先提出的实践想法。从KAN到KAN 2.0，这个替代MLP全新架构正在打开神经网络的黑盒，为下一步科学发现打开速通之门。

　　神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时，没有什么能够与之竞争。

　　圆周理论物理研究所研究员Sebastian Wetzel，对神经网络给予了高度的评价。

　　其中一个基本组件——多层感知器（MLP），尽管立了大功，但这些建立在MLP之上的神经网络，却成为了「黑盒」。

　　为此，AI界的研究人员们一直在想，是否存在不同类型的神经网络，能够以更透明的方式，同样输出可靠的结果？

　　比起MLP，KAN架构更加透明，而且几乎可以完成普通神经网络，在处理某类问题时的所有工作。

　　这个已经埋了30多年的数学原理，如今在DL时代被这位华人科学家和团队重新发现，再次发光发亮。

　　虽然，这项创新仅仅诞生了5个月的时间，但KAN已经在研究和编码社区，掀起了巨浪。

　　约翰霍普金斯大学计算机教授Alan Yuille赞扬道，KAN更易于解释，可以从数据中提取科学规则，因此在科学领域中有着极大的应用」。

　　一层层人工神经元/节点，通过人工突触/边，进行连接。信息经过每一层，经过处理后再传输到下一层，直到最终将其输出。

　　在所谓的训练期间，这些权重会不断调整，最终使得神经网络输出越来越接近正确答案。

　　神经网络的一个常见的目标是，找到一种数学函数、曲线，以便最好地连接某些数据点。

　　假设神经网络模拟了物理过程，理想情况下，输出函数将代表描述该物理过程的方程，相当于物理定律。

　　KAN以一种不同于MLP的方式，进行函数拟合，将神经网络输出的点连接起来。

　　同时，KAN的边函数是非线性和可学习的，这使得它们比MLP更灵活、敏感。

　　1989年，由MIT物理学家转计算机神经科学家Tomaso Poggio，共同撰写的一篇论文中明确指出：

　　1957年，数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数，你可以把它转换成多个函数的组合，每个函数都有一个变量。

　　这个定理产生的单个变量函数，可能是「不平滑的」，意味着它们可能产生尖锐的边缘，就像V字的顶点。

　　这对于任何试图使用这个定理，重建多变量函数的神经网络来说，都是一个问题所在。

　　因为这些更简单的单变量部分，需要是平滑的，这样它们才能在训练过程中，学会正确地调增匹配目标值。

　　直到去年1月，MIT物理学研究生Ziming Liu，决定重新探讨这个话题。

　　他和导师Max Tegmark，一直致力于让神经网络在科学应用中，更加容易被人理解，能够让人们窥探到黑匣子的内部。

　　导师却在这时，泼了一盆冷水，因为他对Poggio论文观点太过熟悉，并坚持认为这一努力会是一个死胡同。

　　不过，Ziming Liu却没有被吓到，他不想在没有先试一下的情况下，放弃这个想法。

　　他们突然认识到，即使由该定理产生的单值函数，是不平滑的，但神经网络仍可以用平滑的函数逼近数值。

　　因为自Poggio发表论文，已经过了35年，当下的软件和硬件取得了巨大的进步。

　　大约肝了一周左右的时间，Liu深入研究了这一想法。在此期间，他开发了一些原型KAN系统，所有系统都有两层。

　　因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理，明确地将多变量函数分解为，不同的内部函数和外部函数集。

　　但令Liu沮丧的是，所设计的原型KAN并没有在科学相关任务上，表现地更好。

　　导师Tegmark随后提出了一个关键的建议：为什么不尝试两层以上的KAN架构，或许能够处理更加复杂的任务？

　　这个羽翼未丰的原型架构，为他们带来了希望。很快，他们便联系了MIT、加州理工、东北大学的同事，希望团队能有数学家，并计划让KAN分析的领域的专家。

　　他们给出了一个示例，三层KAN可以准确地表示一个函数，银河官方官网而两层KAN却不能。

　　不过，研究团队并没有止步于此。自那以后，他们在多达六层的KAN上进行了实验，每一层，神经网络都能与更复杂的输出函数，实现对准。

　　论文合著作者之一 Yixuan Wang表示，「我们发现，本质上，可以随心所欲堆叠任意多的层」。

　　2021年，DeepMind团队曾宣布，他们已经搭建了一个MLP，再获得足够纽结的其他属性后，可以预测出给定纽结的特定拓扑属性。

　　其目的是，预测特定相变将发生的边界，然后确定描述该过程的数学公式。同样，也只有KAN做到了在这一点。

　　Tegmark表示，「但与其他形式的神经网络相比，KAN的最大优势在于其可解释性，这也是KAN近期发展的主要动力」。

　　紧接着，7月，来自新加坡国立大学的研究人员们，对KAN和MLP架构做了一个全面的分析。

　　他们得出结论，在可解释性的相关任务中，KAN的表现优于MLP，同时，他们还发现MLP在计算机视觉和音频处理方面做的更好。

　　这一结果在人意料之中，因为KAN团队的重点一直是——科学相关的任务，而且，在这些任务中，可解释性是首要的。

　　8月，KAN原班人马团队再次迭代了架构，发表了一篇名为「KAN 2.0」新论文。

　　论文合著者认为，KAN不仅仅是一种达到目的的手段，更是一种全新的科学研究方法。

　　长期以来，「应用驱动的科学」在机器学习领域占据主导地位，KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。

　　比如，在观察天体运动时，应用驱动型研究人员，专注于预测它们的未来状态，而好奇心驱动型研究人员，则希望揭示运行背后的物理原理。

　　Liu希望，通过KAN，研究人员可以从中获得更多，而不仅仅是在其他令人生畏的计算问题上寻求帮助。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇：挖、查、测、研……川大这个实验室是干什么的？

下一篇： “非常非常痛苦的两周”特朗普终于清醒了学者：早干嘛去了！

地址：广东省广州市银河国际·Galaxy(中国)官方网站
电话：400-966-85366 传真：+86-966-85366 邮箱：81kw.com