KAN 架构浅析

原创

咖喱猫

修改于 2024-05-06 19:49:06

1.5K0

修改于 2024-05-06 19:49:06

目前全新的神经网络价格 KAN 一发布就引起了广泛的关注，其灵感源自Kolmogorov-Arnold 表示定理，跟MLP的一个主要的不同是MLP激活函数是在神经元上，而KAN把可学习的激活函数放在权重上。

而 MLP 之所以经久不衰，就是因为他简单，快速，能scale-up。KAN让人想起来之前的Neural ODE，催生出来比如LTC（liquid time constant）网络这种宣称19个神经元做自动驾驶。（当然只是名字噱头，其实只是自动驾驶最简单的车道保持任务）。KAN 从本质上讲就是向量激活函数，把 1 个实数映射成 1+N 个实数，m是 B-spline 基函数的个数，从理论上来讲 KAN 就是把权重参数忠的元素从实数推广到为实数到实数的映射。

KAN 的优点很明显，就是精度要比传统的 MLP 要求更高，这也意味着要求更高的算力和训练难度会更高，然而目前的 AI 芯片和算力的挑战是巨大的，对于这类模型支持普遍不好。从结果来看KAN现阶段就是不如MLP合适。KAN更适合高精度和可解释的计算和科学发现。如下图所示，这是目前的 KAN 架构，从原理图来看本身就复杂于 MLP，这也是对于其精度更高的原因所在。

但是现在是大模型时代，KAN 模型的发展可能也依赖于算力和后续该模型结构的优化与发展，我们依然需要看后续 KAN 是否能够适配于 transformer。

我正在参与2024腾讯技术创作特训营最新征文，快来和我瓜分大奖！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S6

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S6

登录后参与评论

0 条评论

热度

KAN 架构浅析

KAN 架构浅析

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐