首页
学习
活动
专区
工具
TVP
发布

自然语言处理(NLP)论文速递

专栏作者
321
文章
288149
阅读量
59
订阅数
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性。
ShuYini
2024-05-11
890
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
ShuYini
2024-05-11
1510
ICLR 2024| 用巧妙的「传送」技巧,让神经网络的训练更加高效
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。
ShuYini
2024-05-10
510
中山&港大| 提出DQ-LoRe框架,自动选择上下文示例,为LLMs复杂推理开辟新道路!
大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法,利用中间推理步骤来辅助模型生成。那么,如何有效地选择优秀示例来提升LLMs上下文学习能力呢?
ShuYini
2024-05-10
1330
LSTM依然能打!最新xLSTM架构:怒超先进Transformer和状态空间模型(SSM)
LSTM( Long Short-Term Memory)最早源于20世纪90年代,为人工智能的发展做出了重要贡献。然而,随着Transformer技术的出现,LSTM逐渐淡出了人们的视野。那么,如果将 LSTM 扩展到数十亿个参数,利用LLM技术打破LSTM的局限性,LSTM在语言建模方面还能走多远呢?
ShuYini
2024-05-09
4080
7262篇提交,ICLR 2024爆火,两篇国内论文获杰出论文提名
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二届,于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。
ShuYini
2024-05-09
1040
拒绝造神!KAN网络技术最全解析:能干掉MLP和Transformer吗?
陈巍:KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点(“神经元”)上具有固定的激活函数,而 KAN 在边(“权重”)上具有可学习的激活函数。在数据拟合和 PDE 求解中,较小的 KAN 可以比较大的 MLP 获得更好的准确性。
ShuYini
2024-05-08
1.1K0
微软| 发布Phi-3技术报告,3.8B参数量超越GPT-3.5,手机可跑!
过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语言处理任务上的性能也越来越好。
ShuYini
2024-05-07
1560
五一假期,您可能忽略的最新研究进展:涉及大模型Agent、多模态、图神经网络、SLM等!
五一假期转瞬即逝,明天又要投入到紧张而充实的工作学习中了。假期的最后一天,作者总结了假期期间一些优秀的学术成果,供大家学习交流。这些论文不仅涵盖了多模态、大模型Agent、移动设备神经网络、小模型研究、图网络推荐、大模型效率提升等方向,还充满了新颖的观点和深刻的见解。
ShuYini
2024-05-06
2640
斯坦福 | 提出OctopusV3,参数不超1B,媲美GPT-4V和GPT-4
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。
ShuYini
2024-05-06
880
华为诺亚| 提出自推测解码框架:Kangaroo,降低成本,提升大模型推理效率!
为了提升大模型的推理效率,本文作者提出一种新型的自推测解码框架:Kangaroo,该框架将大模型的一个固定浅层子网络作为自草稿模型(self-drafting model),同时引入双提前退出机制,在保持高Token接受率的同时,显著提高了大模型的推理速度和参数利用效率。在Spec-Bench基准测试中实现了高达1.7倍的速度提升,并且在参数数量上比Medusa-1模型少了88.7%。
ShuYini
2024-05-06
1720
微软 | WizardLM-2被紧急撤回,有内幕?
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。
ShuYini
2024-05-06
790
分享最新10篇大模型论文,涉及应用、多模态、推理增强、剪枝等热点话题!
好久没有给大家梳理文章了,今天分享8篇有关大模型(LLMs)的最新研究进展,其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式,后台回复:20240414
ShuYini
2024-05-06
2260
斯坦福 | Altman闭门演讲!GPT-5比GPT-4强得多,GPT-6在路上!
奥特曼指出:GPT-5会比GPT-4强得多,GPT-6还会更强;Scaling Law还未过时,我们远未达到这条曲线的顶端;谷歌用GPT-4复刻出Gemini很容易,但难的是新范式的创新。
ShuYini
2024-05-06
1010
Unimore| 提出多模态大模型检索生成架构:Wiki-LLaVA,大幅提升视觉QA性能!
多模态大模型是大模型发展的必然趋势,它拓展了大模型的性能,超越了纯文本问答模式。对于大模型来说,为了能够尽快适配快速变化的事实知识,目前常见的方法就是检索增强生成(RAG)。
ShuYini
2024-05-06
1620
微软 & 清华 | 提出LoRAs专家混合方法:MOLE,可动态、高效地组合多个LoRA!
LoRA模块化架构让研究人员们开始探索组合多个LoRA方法,旨在实现学习特征的联合生成,增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷,为了能够动态、高效地组合多个训练后的 LoRA,本文作者提出了LoRA专家混合方法:MOLE,不仅在LoRA组合中提升了性能,还节约了计算开销,保证了LoRA的灵活性。
ShuYini
2024-04-26
1670
苹果 | 发布OpenELM系列模型,含代码、权重、训练全过程!
要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。
ShuYini
2024-04-26
1970
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot ICL)却受限于高质量人类生成示例。
ShuYini
2024-04-26
1380
无限长又来了!Meta | 提出MEGA LODON架构:参数7B,已开源!
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
ShuYini
2024-04-19
1570
浙大 & 蚂蚁 | 提出MyGO框架,旨在提升多模态知识图谱(MMKG)完整性!
如何有效融合图像、文本等多模态信息以提高多模态知识图谱(MMKG)完整性,一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义细节,进而影响了模型性能。
ShuYini
2024-04-19
3900
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com