首页
学习
活动
专区
工具
TVP
发布

大数据杂货铺

专栏成员
309
文章
442371
阅读量
45
订阅数
遗留和现代数据库中的向量搜索
向量数据库是一种将数据(包括文本、图像、音频和视频)存储为向量的数据库,向量是高维空间中对象或概念的数学表示。
大数据杂货铺
2024-05-27
720
AI Agent的类型、优势及应用
AI 代理是重塑商业动态的关键技术进步。了解这些代理的运作方式,发现它们的关键优势包括效率、可扩展性和成本效益。我们将探索代理的实例及它们在各领域的应用,为未来的人工智能趋势和对客户体验的影响铺平道路。
大数据杂货铺
2024-05-27
680
使用 LlamaParse 进行 PDF 解析并创建知识图谱
此 Python 笔记本提供了有关利用 LlamaParse 从 PDF 文档中提取信息并随后将提取的内容存储到 Neo4j 图数据库中的综合指南。本教程在设计时考虑到了实用性,适合对文档处理、信息提取和图形数据库技术感兴趣的开发人员、数据科学家和技术爱好者。
大数据杂货铺
2024-05-27
570
Elasticsearch 与 OpenSearch:扩大性能差距
对于任何依赖快速、准确搜索数据的组织来说,强大、快速且高效的搜索引擎是至关重要的元素。对于开发人员和架构师来说,选择正确的搜索平台可以极大地影响您的组织提供快速且相关结果的能力。在我们全面的性能测试中,Elasticsearch? 成为明智的选择。Elasticsearch 比 OpenSearch 快 40%--140%,同时使用更少的计算资源。
大数据杂货铺
2024-05-09
1410
全文检索、向量检索和混合检索的比较分析
畅游当今的信息海洋既是一个奇迹,又是一个迷宫。全文和矢量搜索使我们能够构建搜索体验,使用户能够找到相关的产品、内容等。随着我们对搜索精度和上下文的追求不断发展,出现了一个问题:我们能否平衡全文搜索的词汇灵活性和向量搜索的语义深度?
大数据杂货铺
2024-04-24
2700
深入研究向量数据库
有一天,我请我最喜欢的大型语言模型(LLM)帮助我向我快 4 岁的孩子解释向量。几秒后,它就催生了一个充满神话生物、魔法和向量的故事。瞧!我为一本新的儿童读物绘制了草图,它给人留下了深刻的印象,因为独角兽被称为"LuminaVec"。
大数据杂货铺
2024-04-22
2090
掌控心理学:使用 Mistral-7B 和 LangChain 构建专家 RAG
信息访问:大语言模型无法快速访问其训练集之外的数据。想象一下,你最喜欢的人工智能助手无法为你提供有帮助的答案,但却喋喋不休地告诉你如何获得问题的答案。
大数据杂货铺
2024-04-22
2040
RAG-Fusion 提高 LLM 生成文本的质量和深度
检索增强生成(RAG)显着先进了人工智能。它结合了预训练的密集检索和序列到序列模型的功能来生成响应。在此基础上,出现了一种称为RAG-Fusion的新方法,旨在弥合传统搜索范式与人类查询的多方面维度之间的差距。
大数据杂货铺
2024-04-15
2710
提高大型语言模型 (LLM) 性能的四种数据清理技术
搜索增强生成(RAG)过程彻底增强对大语言模型(LLM)的理解、为它们提供上下文并帮助防止幻觉的潜力而受到欢迎。RAG 过程涉及几个步骤,从分块供应文档提取到上下文,再到用该上下文提示 LLM 模型。虽然 RAG 可以显着改善预测,但有时也会导致错误的结果。几个文档的方式在此过程中发挥了至关重要的作用。例如,如果我们的"上下文文档" " 包含大语言模型的拼写错误或不相似的字符(例如表情符号),则可能会混淆大语言模型对所提供的上下文的理解。
大数据杂货铺
2024-04-15
1620
数据仓库与数据湖与湖仓一体:概述及比较
随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户,公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计,2017 年每天会生成 2.5 百亿字节的数据,到 2025 年,这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据,那么这些数据又有什么用呢?针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。
大数据杂货铺
2024-04-15
2610
Langchain入坑
本指南(以及文档中的大多数其他指南)使用Jupyter 笔记本,并假设读者也使用 Jupyter 笔记本。Jupyter 笔记本非常适合学习如何使用 LLM 系统,因为事情经常可能会出错(意外输出、API 关闭等),而在交互式环境中阅读指南是更好地理解它们的好方法。
大数据杂货铺
2024-04-15
1990
企业生成式AI:2024 年企业的 10 多个用例和最佳实践
与中型市场公司或初创公司相比,生成式人工智能(GenAI)为企业提供了新的机遇,包括:
大数据杂货铺
2024-04-15
2350
知识图谱和 LLM:多跳问答
检索增强生成(RAG)应用程序通过将外部来源的数据集成到 LLM 中,擅长回答简单的问题。但他们很难回答涉及将相关信息之间的点连接起来的多部分问题。这是因为 RAG 应用程序需要一个数据库,该数据库旨在存储数据,以便轻松找到回答这些类型问题所需的所有内容。
大数据杂货铺
2024-04-15
2420
Data Fabric 2024:现代数据集成组件指南
数据管理和数据集成是任何组织数字化转型战略的关键组成部分。在当今的全渠道业务环境中,组织必须实时访问和分析来自各种来源的大规模数据。然而,传统的数据管理方法对于这些要求来说常常太慢。数据编织架构可以帮助克服这些问题。
大数据杂货铺
2024-04-15
980
使用知识图谱实现 RAG 应用
《福布斯》最近将 RAG 应用程序评为人工智能领域最热门的事物。这并不奇怪,因为检索增强生成需要最少的代码,并有助于建立用户对大语言模型的信任。构建出色的 RAG 应用程序或聊天机器人时面临的挑战是处理结构化文本和非结构化文本。
大数据杂货铺
2024-04-03
3640
利用知识图谱提高 RAG 应用的准确性
在 RAG 应用中使用 Neo4j 和 LangChain 构建和检索知识图谱信息的实用指南
大数据杂货铺
2024-04-02
3660
正确完成检索增强生成 (RAG):数据库数据
当我们在生成式 AI 的背景下讨论数据库时,总是首先想到的问题之一是:“我不能告诉数据库我需要什么,而不必制作一个复杂(通常是多页)的 SQL 查询吗?
大数据杂货铺
2024-04-02
4770
使用检索增强生成 (RAG) 增强 SQL 代理
与其他数据库不同,Teradata 通过提供大量高级分析功能而脱颖而出,从数据清理和数据探索到模型训练、文本分析以及路径和模式分析功能。
大数据杂货铺
2024-04-02
1360
LangChain+SQL-彻底改变您的数据探索
在不断发展的数据科学和机器学习世界中,有一个改变游戏规则的LangChain承诺让与你的数据交谈变得轻而易举——进入。这个动态工具不仅仅是另一个玩家;它是您的伙伴,使棘手的数据分析世界变得更简单。和我一起踏上这段旅程,开始我们的设置,对我们的数据说一声“Hello World”,解开LangChain的魔力,并进行一些故障排除。
大数据杂货铺
2024-03-21
2190
使用上下文策略极大提高AI SQL 准确性
拥有一个能够回答商业用户简单的语言问题的自主人工智能智能体的承诺是一个有吸引力的提议,但迄今为止仍难以实现。许多人尝试过让 ChatGPT 进行写入,但成效有限。失败的主要原因是大语言模型对其要求查询的特定数据集缺乏了解。
大数据杂货铺
2024-03-11
1960
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com