暂无搜索历史
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一...
大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法...
LSTM( Long Short-Term Memory)最早源于20世纪90年代,为人工智能的发展做出了重要贡献。然而,随着Transformer技术的出现,...
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二...
陈巍:KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点(“神经元”)上具有固定的激活函数,而 KAN 在边(“权重”)上具有可学...
过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语...
五一假期转瞬即逝,明天又要投入到紧张而充实的工作学习中了。假期的最后一天,作者总结了假期期间一些优秀的学术成果,供大家学习交流。这些论文不仅涵盖了多模态、大模型...
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) ...
为了提升大模型的推理效率,本文作者提出一种新型的自推测解码框架:Kangaroo,该框架将大模型的一个固定浅层子网络作为自草稿模型(self-drafting ...
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。
好久没有给大家梳理文章了,今天分享8篇有关大模型(LLMs)的最新研究进展,其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式,...
奥特曼指出:GPT-5会比GPT-4强得多,GPT-6还会更强;Scaling Law还未过时,我们远未达到这条曲线的顶端;谷歌用GPT-4复刻出Gemini很...
多模态大模型是大模型发展的必然趋势,它拓展了大模型的性能,超越了纯文本问答模式。对于大模型来说,为了能够尽快适配快速变化的事实知识,目前常见的方法就是检索增强生...
LoRA模块化架构让研究人员们开始探索组合多个LoRA方法,旨在实现学习特征的联合生成,增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷,为了...
要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot IC...
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训...
如何有效融合图像、文本等多模态信息以提高多模态知识图谱(MMKG)完整性,一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义...
在文本生成方面,大语言模型表现出了超强的性能。然而,随着时间的推移,大模型会面临知识更新问题,特别是对于发生在模型知识截止日期之后的事件。例如:当前ChatGP...
紧跟技术发展趋势,快速了解NLP领域最新动态。好久没有给大家梳理文章了,今天作者结合最近一周的研究动态,梳理了8篇有关大模型(LLMs)的最新研究进展,其中涉及...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址