暂无搜索历史
我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开...
陈丹琦团队提出了一种名为 Lory 的新型混合专家(Mixture-of-Experts,简称 MoE)模型,专门用于自回归语言模型的预训练。以下是对文章内容的...
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关...
比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。
今天,我要带大家深入了解一项关于大型语言模型(LLMs)的研究,这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta B...
作为一种重要的信息来源,图表(Chart)能够直观地展示数据关系,被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增,自动化图表理解受到...
这篇论文介绍了一种名为xLSTM(Extended Long Short-Term Memory)的新型递归神经网络架构,旨在解决传统LSTM(Long Sho...
今天要给大家介绍一篇OpenAI的在今年4月19日发表的一篇研究,该研究提出了一种指令层次结构(instruction hierarchy),以减少LLM被攻击...
BERT模型,依托Transformer架构及其大规模预训练,为自然语言处理领域带来了深远的影响。BERT模型架构包含多层双向Transformer编码器,通过...
你是否想过,如果有一天,当你面临人生重大抉择时,有一个AI助手能够为你提供决策甚至能帮你做出决定?
权重地址:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训...
跨语言大模型(MLLMs)能够利用强大的大型语言模型处理和回应多种语言的查询,在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破,但仍然缺乏一份全面...
这篇文章主要内容为我个人对谷歌最新提出的Infini-transformer模型的个人见解,复现代码以及训练细节。
摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试,我们首先使用 GPT-4...
A:这篇论文试图解决的问题是如何在大型语言模型(LLMs)的训练过程中,更有效地与人类偏好对齐。具体来说,它提出了一种名为逐步直接偏好优化(stepwise D...
刚刚,人工智能初创公司 Anthropic 宣布了一种「越狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来逃避大型语言模型(LLM...
摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好...
摘要:基于Transformer的 NLP 模型功能强大,但计算成本较高,限制了应用场景。经过微调的编码器-解码器模型在专业领域很受欢迎,其性能优于 GPT-4...
摘要:现代神经机器翻译系统在几种不同的语言中表现出强劲的性能,并在不断改进。然而,它们的持续学习能力仍然受到灾难性遗忘问题的严重限制。在这项工作中,我们利用en...
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市