ShuYini

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV0

发表了文章 20分钟前2024-05-10 11:01:07

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

众多神经网络模型中都会有一个有趣的现象：不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损失函数的结果。基于这一...

ShuYini 20分钟前2024-05-10 11:01:07

技巧、模型、算法、优化、神经网络

发表了文章 21分钟前2024-05-10 11:00:20

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

大模型（LLMs）在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现，人们提出思维链”（Chain-of-Thought，CoT）的方法...

ShuYini 21分钟前2024-05-10 11:00:20

数据、测试、框架、模型、排序

发表了文章 1天前2024-05-09 11:04:40

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

LSTM（ Long Short-Term Memory）最早源于20世纪90年代，为人工智能的发展做出了重要贡献。然而，随着Transformer技术的出现，...

ShuYini 1天前2024-05-09 11:04:40

模型、网络、lstm、ssm、架构

发表了文章 1天前2024-05-09 11:04:24

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

ICLR 全称为国际学习表征会议（International Conference on Learning Representations），今年举办的是第十二...

ShuYini 1天前2024-05-09 11:04:25

论文、模型、数据、性能、机器人

发表了文章 1天前2024-05-08 11:28:41

拒绝造神！KAN网络技术最全解析：能干掉MLP和Transformer吗？

陈巍：KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点（“神经元”）上具有固定的激活函数，而 KAN 在边（“权重”）上具有可学...

ShuYini 1天前2024-05-08 11:28:41

函数、模型、数据、数学、网络

发表了文章 3天前2024-05-07 10:06:22

微软| 发布Phi-3技术报告，3.8B参数量超越GPT-3.5，手机可跑！

过去几年，借助Scaling Laws的魔力，预训练的数据集不断增大，使得大模型的参数量也可以越做越大，从五年前的数十亿参数已经成长到今天的万亿级，在各个自然语...

ShuYini 3天前2024-05-07 10:06:22

gpt、模型、手机、数据、性能

发表了文章 3天前2024-05-06 16:44:51

五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

五一假期转瞬即逝，明天又要投入到紧张而充实的工作学习中了。假期的最后一天，作者总结了假期期间一些优秀的学术成果，供大家学习交流。这些论文不仅涵盖了多模态、大模型...

ShuYini 3天前2024-05-06 16:44:51

推荐系统、agent、模型、性能、神经网络

发表了文章 3天前2024-05-06 16:44:38

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) ...

ShuYini 3天前2024-05-06 16:44:38

模型、数据、系统、gpt、开发

发表了文章 3天前2024-05-06 16:44:25

华为诺亚| 提出自推测解码框架：Kangaroo，降低成本，提升大模型推理效率！

为了提升大模型的推理效率，本文作者提出一种新型的自推测解码框架：Kangaroo，该框架将大模型的一个固定浅层子网络作为自草稿模型（self-drafting ...

ShuYini 3天前2024-05-06 16:44:25

框架、模型、网络、效率、华为

发表了文章 3天前2024-05-06 16:44:08

微软 | WizardLM-2被紧急撤回，有内幕？

前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。

ShuYini 3天前2024-05-06 16:44:08

开源、强化学习、测试、模型、数据

发表了文章 3天前2024-05-06 16:43:53

分享最新10篇大模型论文，涉及应用、多模态、推理增强、剪枝等热点话题！

好久没有给大家梳理文章了，今天分享8篇有关大模型(LLMs)的最新研究进展，其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式，...

ShuYini 3天前2024-05-06 16:43:54

性能、框架、论文、模型、内存

发表了文章 3天前2024-05-06 16:42:29

斯坦福 | Altman闭门演讲！GPT-5比GPT-4强得多，GPT-6在路上！

奥特曼指出：GPT-5会比GPT-4强得多，GPT-6还会更强；Scaling Law还未过时，我们远未达到这条曲线的顶端；谷歌用GPT-4复刻出Gemini很...

ShuYini 3天前2024-05-06 16:42:29

人工智能、游戏、开源、gpt、模型

发表了文章 3天前2024-05-06 16:42:11

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

多模态大模型是大模型发展的必然趋势，它拓展了大模型的性能，超越了纯文本问答模式。对于大模型来说，为了能够尽快适配快速变化的事实知识，目前常见的方法就是检索增强生...

ShuYini 3天前2024-05-06 16:42:11

数据、性能、wiki、架构、模型

发表了文章 13天前2024-04-26 20:42:32

微软 & 清华 | 提出LoRAs专家混合方法：MOLE，可动态、高效地组合多个LoRA！

LoRA模块化架构让研究人员们开始探索组合多个LoRA方法，旨在实现学习特征的联合生成，增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷，为了...

ShuYini 13天前2024-04-26 20:42:32

性能、LoRa、函数、模型、数据

发表了文章 13天前2024-04-26 20:41:56

苹果 | 发布OpenELM系列模型，含代码、权重、训练全过程！

要说 ChatGPT 拉开了大模型竞赛的序幕，那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中，苹果似乎掀起的水花不是很大。

ShuYini 13天前2024-04-26 20:41:57

数据、性能、开源、模型、苹果

发表了文章 13天前2024-04-26 20:41:10

充分发挥潜力！Google | 大模型(LLMs)的专属：多样本上下文学习（Many-shot ICL）

大语言模型非常擅长上下文学习（ICL），随着大模型上下文窗口的不断扩展，它可以让我们使用数百或者上千个样例，然而，当前多样本上下文学习(many-shot IC...

ShuYini 13天前2024-04-26 20:41:11

google、解决方案、模型、数据、性能

发表了文章 20天前2024-04-19 16:38:55

无限长又来了！Meta | 提出MEGA LODON架构：参数7B，已开源！

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训...

ShuYini 20天前2024-04-19 16:38:55

模型、效率、开源、meta、架构

发表了文章 20天前2024-04-19 16:37:25

浙大 & 蚂蚁 | 提出MyGO框架，旨在提升多模态知识图谱（MMKG）完整性！

如何有效融合图像、文本等多模态信息以提高多模态知识图谱（MMKG）完整性，一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义...

ShuYini 20天前2024-04-19 16:37:27

性能、知识图谱、框架、模型、数据

发表了文章 20天前2024-04-19 16:36:35

微软 | 利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！

在文本生成方面，大语言模型表现出了超强的性能。然而，随着时间的推移，大模型会面临知识更新问题，特别是对于发生在模型知识截止日期之后的事件。例如：当前ChatGP...

ShuYini 20天前2024-04-19 16:36:36

数据库、模型、事件、数据、性能

发表了文章 20天前2024-04-19 16:36:03

大模型前沿进展：涉及推理、应用、多模态等热点话题！

紧跟技术发展趋势，快速了解NLP领域最新动态。好久没有给大家梳理文章了，今天作者结合最近一周的研究动态，梳理了8篇有关大模型(LLMs)的最新研究进展，其中涉及...

ShuYini 20天前2024-04-19 16:36:04

框架、模型、内存、数据、开发

12 3 4 5 6 7 8...17 下一页

个人简介

暂未填写公司和职称
公众号：AINLPer
深度学习 pytorch github 人工智能
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2019-08-07

个人成就

获得 610 次赞同
文章被阅读 283.9K 次
文章获得 1 次首页推荐

关注了：1关注者：57