前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KAN 架构浅析

KAN 架构浅析

原创
作者头像
咖喱猫
修改2024-05-06 19:49:06
1.5K0
修改2024-05-06 19:49:06

目前全新的神经网络价格 KAN 一发布就引起了广泛的关注,其灵感源自Kolmogorov-Arnold 表示定理,跟MLP的一个主要的不同是MLP激活函数是在神经元上,而KAN把可学习的激活函数放在权重上。

而 MLP 之所以经久不衰,就是因为他简单,快速,能scale-up。KAN让人想起来之前的Neural ODE,催生出来比如LTC(liquid time constant)网络这种宣称19个神经元做自动驾驶。(当然只是名字噱头,其实只是自动驾驶最简单的车道保持任务)。KAN 从本质上讲就是向量激活函数,把 1 个实数映射成 1+N 个实数,m是 B-spline 基函数的个数,从理论上来讲 KAN 就是把权重参数忠的元素从实数推广到为实数到实数的映射。

KAN 的优点很明显,就是精度要比传统的 MLP 要求更高,这也意味着要求更高的算力和训练难度会更高,然而目前的 AI 芯片和算力的挑战是巨大的,对于这类模型支持普遍不好。从结果来看KAN现阶段就是不如MLP合适。KAN更适合高精度和可解释的计算和科学发现。如下图所示,这是目前的 KAN 架构,从原理图来看本身就复杂于 MLP,这也是对于其精度更高的原因所在。

但是现在是大模型时代,KAN 模型的发展可能也依赖于算力和后续该模型结构的优化与发展,我们依然需要看后续 KAN 是否能够适配于 transformer。

我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com