腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

自然语言处理(NLP)论文速递

专栏作者

321

文章

288149

阅读量

59

订阅数

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

模型数据性能优化基础

目前多模态LLMs主要通过增加文图对（ text-image）数据和增强LLMs来提升性能，然而，此类方法计算成本较高，同时忽略了从视觉方面提升模型能力的重要性。

2024-05-11

890

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

内存数据效率 token 模型

来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLLMs），能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。

2024-05-11

1510

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

技巧模型算法优化神经网络

众多神经网络模型中都会有一个有趣的现象：不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损失函数的结果。基于这一发现，传送算法（teleportation）被设计出来，它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力，但其背后的确切机制尚不清楚。

2024-05-10

510

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

数据测试框架模型排序

大模型（LLMs）在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现，人们提出思维链”（Chain-of-Thought，CoT）的方法，利用中间推理步骤来辅助模型生成。那么，如何有效地选择优秀示例来提升LLMs上下文学习能力呢？

2024-05-10

1330

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

模型网络 lstm ssm 架构

LSTM（ Long Short-Term Memory）最早源于20世纪90年代，为人工智能的发展做出了重要贡献。然而，随着Transformer技术的出现，LSTM逐渐淡出了人们的视野。那么，如果将 LSTM 扩展到数十亿个参数，利用LLM技术打破LSTM的局限性，LSTM在语言建模方面还能走多远呢？

2024-05-09

4080

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

论文模型数据性能机器人

ICLR 全称为国际学习表征会议（International Conference on Learning Representations），今年举办的是第十二届，于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。

2024-05-09

1040

拒绝造神！KAN网络技术最全解析：能干掉MLP和Transformer吗？

函数模型数据数学网络

陈巍：KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点（“神经元”）上具有固定的激活函数，而 KAN 在边（“权重”）上具有可学习的激活函数。在数据拟合和 PDE 求解中，较小的 KAN 可以比较大的 MLP 获得更好的准确性。

2024-05-08

1.1K0

微软| 发布Phi-3技术报告，3.8B参数量超越GPT-3.5，手机可跑！

gpt 模型手机数据性能

过去几年，借助Scaling Laws的魔力，预训练的数据集不断增大，使得大模型的参数量也可以越做越大，从五年前的数十亿参数已经成长到今天的万亿级，在各个自然语言处理任务上的性能也越来越好。

2024-05-07

1560

五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

推荐系统 agent 模型性能神经网络

五一假期转瞬即逝，明天又要投入到紧张而充实的工作学习中了。假期的最后一天，作者总结了假期期间一些优秀的学术成果，供大家学习交流。这些论文不仅涵盖了多模态、大模型Agent、移动设备神经网络、小模型研究、图网络推荐、大模型效率提升等方向，还充满了新颖的观点和深刻的见解。

2024-05-06

2640

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

模型数据系统 gpt 开发

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

2024-05-06

880

华为诺亚| 提出自推测解码框架：Kangaroo，降低成本，提升大模型推理效率！

框架模型网络效率华为

为了提升大模型的推理效率，本文作者提出一种新型的自推测解码框架：Kangaroo，该框架将大模型的一个固定浅层子网络作为自草稿模型（self-drafting model），同时引入双提前退出机制，在保持高Token接受率的同时，显著提高了大模型的推理速度和参数利用效率。在Spec-Bench基准测试中实现了高达1.7倍的速度提升，并且在参数数量上比Medusa-1模型少了88.7%。

2024-05-06

1720

微软 | WizardLM-2被紧急撤回，有内幕？

开源强化学习测试模型数据

前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。

2024-05-06

790

分享最新10篇大模型论文，涉及应用、多模态、推理增强、剪枝等热点话题！

性能框架论文模型内存

好久没有给大家梳理文章了，今天分享8篇有关大模型(LLMs)的最新研究进展，其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式，后台回复：20240414

2024-05-06

2260

斯坦福 | Altman闭门演讲！GPT-5比GPT-4强得多，GPT-6在路上！

人工智能游戏开源 gpt 模型

奥特曼指出：GPT-5会比GPT-4强得多，GPT-6还会更强；Scaling Law还未过时，我们远未达到这条曲线的顶端；谷歌用GPT-4复刻出Gemini很容易，但难的是新范式的创新。

2024-05-06

1010

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

数据性能 wiki 架构模型

多模态大模型是大模型发展的必然趋势，它拓展了大模型的性能，超越了纯文本问答模式。对于大模型来说，为了能够尽快适配快速变化的事实知识，目前常见的方法就是检索增强生成（RAG）。

2024-05-06

1620

微软 & 清华 | 提出LoRAs专家混合方法：MOLE，可动态、高效地组合多个LoRA！

性能 LoRa 函数模型数据

LoRA模块化架构让研究人员们开始探索组合多个LoRA方法，旨在实现学习特征的联合生成，增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷，为了能够动态、高效地组合多个训练后的 LoRA，本文作者提出了LoRA专家混合方法：MOLE，不仅在LoRA组合中提升了性能，还节约了计算开销，保证了LoRA的灵活性。

2024-04-26

1670

苹果 | 发布OpenELM系列模型，含代码、权重、训练全过程！

数据性能开源模型苹果

要说 ChatGPT 拉开了大模型竞赛的序幕，那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中，苹果似乎掀起的水花不是很大。

2024-04-26

1970

充分发挥潜力！Google | 大模型(LLMs)的专属：多样本上下文学习（Many-shot ICL）

google 解决方案模型数据性能

大语言模型非常擅长上下文学习（ICL），随着大模型上下文窗口的不断扩展，它可以让我们使用数百或者上千个样例，然而，当前多样本上下文学习(many-shot ICL)却受限于高质量人类生成示例。

2024-04-26

1380

无限长又来了！Meta | 提出MEGA LODON架构：参数7B，已开源！

模型效率开源 meta 架构

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训练效率和下游任务准确性方面表现不佳。

2024-04-19

1570

浙大 & 蚂蚁 | 提出MyGO框架，旨在提升多模态知识图谱（MMKG）完整性！

性能知识图谱框架模型数据

如何有效融合图像、文本等多模态信息以提高多模态知识图谱（MMKG）完整性，一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义细节，进而影响了模型性能。

2024-04-19

3900

点击加载更多

社区活动

RAG七天入门训练营

鹅厂大牛手把手带你上手实战

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态