zenRRan

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV0

发表了文章 1小时前2024-05-11 14:17:41

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开...

zenRRan 1小时前2024-05-11 14:17:42

开源、测试、模型、内存、数据

发表了文章 1小时前2024-05-11 14:16:40

陈丹琦团队提出最新MoE架构Lory

陈丹琦团队提出了一种名为 Lory 的新型混合专家（Mixture-of-Experts，简称 MoE）模型，专门用于自回归语言模型的预训练。以下是对文章内容的...

zenRRan 1小时前2024-05-11 14:16:40

模型、数据、基础、架构、路由

发表了文章 1小时前2024-05-11 14:16:23

大语言模型对齐的四种方法！

语言模型的对齐在20年就有相关工作，22年谷歌提出基于指令微调的Flan，Openai则提出InstructGPT，ChatGPT，大模型的对齐工作受到广泛的关...

zenRRan 1小时前2024-05-11 14:16:23

函数、模型、数据、优化、工作

发表了文章 1小时前2024-05-11 14:15:18

全新神经网络架构KAN来了！

比如，200个参数的KANs，就能复现DeepMind用30万参数的MLPs发现数学定理研究。

zenRRan 1小时前2024-05-11 14:15:18

机器学习、神经网络、函数、架构、数学

发表了文章 1小时前2024-05-11 14:15:05

深度解析DPO及其变体在多种任务上的表现如何，该如何选择

今天，我要带大家深入了解一项关于大型语言模型(LLMs)的研究，这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta B...

zenRRan 1小时前2024-05-11 14:15:05

模型、数学、算法、性能、优化

发表了文章 1小时前2024-05-11 14:14:08

多模态图表理解新SOTA: TinyChart-3B，兼顾性能和效率

作为一种重要的信息来源，图表（Chart）能够直观地展示数据关系，被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增，自动化图表理解受到...

zenRRan 1小时前2024-05-11 14:14:08

效率、性能、程序、模型、图表

发表了文章 1小时前2024-05-11 14:12:42

LSTM一作新作xLSTM架构：大幅领先Transformer和状态空间模型（SSM）

这篇论文介绍了一种名为xLSTM（Extended Long Short-Term Memory）的新型递归神经网络架构，旨在解决传统LSTM（Long Sho...

zenRRan 1小时前2024-05-11 14:12:42

ssm、架构、论文、模型、lstm

发表了文章 10天前2024-04-30 17:14:04

OpenAI最新研究——利用指令层次结构应对LLM攻击

今天要给大家介绍一篇OpenAI的在今年4月19日发表的一篇研究，该研究提出了一种指令层次结构（instruction hierarchy），以减少LLM被攻击...

zenRRan 10天前2024-04-30 17:14:04

openai、模型、数据、系统、LLM

发表了文章 10天前2024-04-30 17:13:22

Bert类模型也具备指令遵循能力吗？

BERT模型，依托Transformer架构及其大规模预训练，为自然语言处理领域带来了深远的影响。BERT模型架构包含多层双向Transformer编码器，通过...

zenRRan 10天前2024-04-30 17:13:22

模型、数据、算法、性能、架构

发表了文章 15天前2024-04-25 19:28:19

LLM能否依据角色的过去预测未来？一篇有趣的研究

你是否想过，如果有一天，当你面临人生重大抉择时，有一个AI助手能够为你提供决策甚至能帮你做出决定？

zenRRan 15天前2024-04-25 19:28:20

LLM、模型、内存、数据、性能

发表了文章 22天前2024-04-19 11:10:02

最强MOE开源：Mixtral 8x22B 发布！

权重地址：https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

zenRRan 22天前2024-04-19 11:10:02

数学、效率、性能、开源、模型

发表了文章 22天前2024-04-19 11:09:47

Meta无限长文本大模型来了：参数仅7B，已开源

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训...

zenRRan 22天前2024-04-19 11:09:47

模型、性能、开源、meta、架构

发表了文章 22天前2024-04-19 11:09:28

《跨语言大模型》最新综述

跨语言大模型（MLLMs）能够利用强大的大型语言模型处理和回应多种语言的查询，在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破，但仍然缺乏一份全面...

zenRRan 22天前2024-04-19 11:09:28

数据、网站、开源、工作、模型

发表了文章 22天前2024-04-18 17:19:32

对谷歌最新提出的Infini-transformer模型进行代码复现

这篇文章主要内容为我个人对谷歌最新提出的Infini-transformer模型的个人见解，复现代码以及训练细节。

zenRRan 22天前2024-04-18 17:19:32

开源、论文、模型、数据、优化

发表了文章 29天前2024-04-11 16:27:06

每日论文速递 | DeepMind提出SAFE，用LLM Agent作为事实评估器

摘要：大语言模型（LLM）在回答开放式话题的事实搜索提示时，经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试，我们首先使用 GPT-4...

zenRRan 29天前2024-04-11 16:27:07

性能、LLM、agent、论文、模型

发表了文章 29天前2024-04-11 16:26:35

每日论文速递 | sDPO-不要一次就把对齐数据用完

A：这篇论文试图解决的问题是如何在大型语言模型（LLMs）的训练过程中，更有效地与人类偏好对齐。具体来说，它提出了一种名为逐步直接偏好优化（stepwise D...

zenRRan 29天前2024-04-11 16:26:36

论文、模型、数据、性能、优化

发表了文章 29天前2024-04-11 16:25:22

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

刚刚，人工智能初创公司 Anthropic 宣布了一种「越狱」技术（Many-shot Jailbreaking）—— 这种技术可以用来逃避大型语言模型（LLM...

zenRRan 29天前2024-04-11 16:25:22

gpt、漏洞、论文、模型、安全

发表了文章 29天前2024-04-11 16:24:32

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

摘要：尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的变化，而不是改善 LLM 的下游性能。不明确的偏好...

zenRRan 29天前2024-04-11 16:24:32

强化学习、框架、论文、模型、性能

发表了文章 29天前2024-04-11 16:24:00

每日论文速递 | 一次编码平行解码：高效Transformer解码

摘要：基于Transformer的 NLP 模型功能强大，但计算成本较高，限制了应用场景。经过微调的编码器-解码器模型在专业领域很受欢迎，其性能优于 GPT-4...

zenRRan 29天前2024-04-11 16:24:00

编码、论文、模型、效率、性能

发表了文章 29天前2024-04-11 16:23:26

每日论文速递 | NAACL'24：自生成翻译记忆缓解翻译持续学习遗忘问题

摘要：现代神经机器翻译系统在几种不同的语言中表现出强劲的性能，并在不断改进。然而，它们的持续学习能力仍然受到灾难性遗忘问题的严重限制。在这项工作中，我们利用en...

zenRRan 29天前2024-04-11 16:23:26

系统、性能、翻译、论文、模型

12 3 4 5 6 7 8...52 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
神经网络深度学习 python 机器学习人工智能
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2018-04-03

个人成就

获得 2.6K 次赞同
文章被阅读 1.2M 次

关注了：2关注者：202