【玩转向量数据库】限量 LLM 百川大模型限时Baichuan2400万免费tokens! 送向量数据库免费实例

原创

疯狂的KK

修改于 2023-12-06 14:53:06

4.6K36

修改于 2023-12-06 14:53:06

文章被收录于专栏：Java项目实战Java项目实战

在哪领取？

向量数据库-大模型-AGI_腾讯云 (tencent.com)

点击链接--->云产品免费体验馆_云产品免费试用_个人云产品试用-腾讯云 (tencent.com)

点击数据库+LLM 限时免费点击立即试用

1.什么是向量数据库？

向量数据库是一种用于存储、检索和分析向量数据的高级技术。它可以处理大规模的高维数据，并提供强大的相似度搜索功能。

2.向量数据库的应用场景

大规模知识库

企业的私域数据存储在向量数据库中可构建外部知识库，帮助企业更好地管理和利用自己的数据资源。

问答系统

向量数据库会基于问题信息进行向量存储与检索，并返回最相关的问题与对应的答案。

文本/图像检索

向量数据库对输入的图像和文本信息进行向量存储与检索，会找到最匹配输入信息的文本或图像结果。

3.向量数据库的特点

腾讯云向量数据库有什么产品优势？

高性能

向量数据库单索引支持10亿级向量数据规模，可支持百万级 QPS 及毫秒级查询延迟。

高可用

向量数据库提供多副本高可用特性，提高容灾能力，确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。

大规模

向量数据库架构支持水平扩展，单实例可支持百万级 QPS，轻松满足 AI 场景下的向量存储与检索需求。

低成本

只需在管理控制台按照指引，简单操作几个步骤，即可快速创建向量数据库实例，全流程平台托管，无需进行任何安装、部署和运维操作，有效减少机器成本、运维成本和人力成本开销。

简单易用

支持丰富的向量检索能力，用户通过 HTTP API 接口即可快速操作数据库，开发效率高。同时控制台提供了完善的数据管理和监控能力，操作简单便捷。

稳定可靠

向量数据库源自腾讯集团自研的向量检索引擎 OLAMA，近40个业务线上稳定运行，日均处理的搜索请求高达千亿次，服务连续性、稳定性有保障。

向量数据库与传统数据库的不同之处

2.1. 数据建模方式

传统数据库通常使用表格和关系模型进行数据建模，将数据存储为结构化的行和列。而向量数据库则将数据表示为向量，每个向量代表一个实体或对象，并包含与该实体相关的属性和特征。这种数据建模方式更加直观和灵活，能够更好地适应复杂的数据结构和关系。

2.2. 数据查询方式

传统数据库使用SQL语言进行查询，通过指定条件和关系来获取所需的数据。而向量数据库则通过计算向量之间的相似度来进行查询，可以根据相似度阈值和排序来获取与查询向量最相似的数据。这种查询方式在处理大规模数据和复杂查询时具有显著的性能优势。

2.3. 数据处理能力

向量数据库在处理高维向量和大规模数据时具有出色的性能和效率。它采用高度优化的向量索引和查询算法，能够在海量数据中快速定位和检索相似的向量。而传统数据库在处理复杂的数据关系和跨多个表的查询时往往效率较低。

支持向量的SQL 数据库

腾讯的PostgreSQL, Clickhouse

4.向量相似度计算方法

1.余弦相似度

2.欧几里得距离

3.曼哈顿距离

腾讯云向量数据库是如何设计的？

部署架构

腾讯云向量数据库采用分布式部署架构，每个节点相互通信和协调，实现数据存储与检索。客户端请求通过 Load balance 分发到各节点上。

逻辑架构

实例是腾讯云中独立运行的数据库环境，是用户购买向量数据库服务的基本单位。腾讯云向量数据库数据存储的一个实例集群中包括 Database、Collection、Document 三个逻辑层级。其中，一个实例可以包含很多个 Database，一个 Database 可以包含多个 Collection，一个 Collection 可以包含多个 Document。

数据安全

腾讯云向量数据库的多副本设计、多可用区分布节点、API 密钥认证，并运行于私有网络环境，通过安全组控制访问来源，CAM 账户授权等多方面保护向量数据的完整性和隐私。

鉴权方式

腾讯云向量数据库使用账号（account）和 API 密钥（api_key）的组合进行鉴权，以验证用户身份并授权其访问。

连接方式

腾讯云向量数据库支持通过 HTTP 协议进行数据写入和查询等操作。

检索方法

腾讯云向量数据库支持通过标量检索、向量检索、标量向量混合检索的方法。

标量检索

是基于标量字段的检索。标量是指一个单独的数值，例如文本字段、数值字段或日期字段等，区别于向量等多维数据结构。

向量检索

是基于向量相似度进行的检索，通过计算向量之间的相似度来找到与查询向量最相似的文档或记录。

混合检索

是将标量检索和向量检索结合起来的一种方式，旨在综合利用标量属性和向量特征进行更精确和全面的检索。

5.向量数据库的挑战

6.向量数据库的发展趋势

7.向量数据库产品亮点速览

腾讯云向量数据库(Tencent Cloud VectorDB)是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法，单索引支持千亿级向量规模，可支持五百万QPS及毫秒级查询延迟。腾讯云向量数据库，助您实现智能数据的快速、高效管理与应用！腾讯云向量数据库具备以下几大亮点：

8.在哪领取？

向量数据库-大模型-AGI_腾讯云 (tencent.com)

点击链接--->云产品免费体验馆_云产品免费试用_个人云产品试用-腾讯云 (tencent.com)

点击数据库+LLM 限时免费点击立即试用

点击试用专区

稍等一会er~~~这个时候就可以在后台看到自己的实例了

支持外网和内网访问，外网访问点击开启即可~~~

登录向量数据库https://console.cloud.tencent.com/vdb

选择密钥管理复制密钥

添加数据库，选择离自己近的节点

登录2023年09月16日及之后创建的向量数据库实例，可直接使用 DMC。

设置用户名密码

选择加入快捷登录

创建并管理数据库

9.LLM 百川大模型API调用

创建你的APIkey

大模型API测试须知

状态码

应答 Headers 中支持 HTTP 标准状态码，具体如下：

HTTP 状态码	描述	(错误)原因	解决方案
200	success	-	-
401	Invalid Authentication	无效的身份验证	确保使用正确的 API 密钥
	Incorrect API key provided	请求的 API 密钥不正确	确保使用的 API 密钥正确，清楚浏览器缓存或生成新 API 密钥
429	Rate limit reached for requests	您发送请求的速度太快	调整您的请求节奏。
	Insufficient account balance, please recharge	账户余额不足	需要充值
500	Internal Server Error	服务提供方服务器上的问题	在短暂等待后重试您的请求，如果问题仍然存在，请与我们联系。

请求频率限制

当前单账号限制 120 rpm。如果您收到速率限制的报错，则表示您在短时间内发出了太多请求，API 会拒绝新请求，直到经过指定的时间。

代码获取Python

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# @author zhaokk
# @date 2023/11/23
# @file baichuan.py

import requests
import json


def do_request():
    url = "https://api.baichuan-ai.com/v1/chat/completions"
    api_key = "your_api_key"

    data = {
        "model": "Baichuan2",
        "messages": [
            {
                "role": "user",
                "content": ""
            }
        ],
        "stream": True
    }

    json_data = json.dumps(data)

    headers = {
        "Content-Type": "application/json",
        "Authorization": "Bearer " + api_key
    }

    response = requests.post(url, data=json_data, headers=headers, timeout=60)

    if response.status_code == 200:
        print("请求成功！")
        print("响应body:", response.text)
        print("请求成功，X-BC-Request-Id:", response.headers.get("X-BC-Request-Id"))
    else:
        print("请求失败，状态码:", response.status_code)
        print("请求失败，body:", response.text)
        print("请求失败，X-BC-Request-Id:", response.headers.get("X-BC-Request-Id"))


if __name__ == "__main__":
    do_request()

10.大模型主观测试

我们看到已经正常调用，但是回答过于分段，不助于阅读，改为流式为false

模型回复如下

标题：成为时间的主人

随着科技的飞速发展，人们的生活节奏变得越来越快，时间成为了我们生活中最宝贵的资源。在这个时代，我们可以通过科技手段更好地掌控时间，提高工作效率和生活质量。然而，也有人因为过度依赖科技而沦为时间的仆人，失去了对生活的掌控。\n\n首先，我们要认识到时间的重要性。时间是我们生命中最宝贵的财富，它无法被购买、储存或转让。珍惜时间就是珍惜生命，我们应该学会合理规划和利用时间，让每一分钟都发挥出最大的价值。\n\n其次，我们要学会运用科技手段来提高时间管理能力。现代科技为我们提供了许多便利的工具，如智能手机、电脑、各种应用程序等，可以帮助我们更好地安排时间、提高工作效率。例如，我们可以使用日程管理软件来规划每天的任务，设定提醒和优先级，确保每项工作都能按时完成。此外，还可以利用在线课程、电子书等资源进行自我提升，不断丰富自己的知识和技能。\n\n然而，我们也要警惕科技可能带来的负面影响。过度依赖科技可能导致我们对时间的感知变得模糊，甚至失去对时间的掌控。有些人沉迷于社交媒体、游戏等虚拟世界，导致工作和生活失衡，生活质量下降。还有些人过分追求效率，忽略了与家人、朋友的情感交流，导致人际关系紧张。\n\n为了成为时间的主人，我们需要在享受科技带来的便利的同时，保持清醒的头脑，把握好度。以下是一些建议：\n\n1. 制定合理的时间规划，既要保证工作的高效完成，也要留出足够的时间陪伴家人和朋友，关注自己的身心健康。\n\n2. 学会拒绝过多的任务和责任，避免让自己陷入忙碌的漩涡，失去对生活的掌控。\n\n3. 培养良好的生活习惯，如定时休息、锻炼、阅读等，以提高自己的综合素质和应对压力的能力。\n\n4. 保持自律，克服拖延症，确保自己能够按时完成任务，不浪费时间。\n\n总之，成为时间的主人需要我们充分利用科技的优势，同时警惕其可能带来的负面影响。只有这样，我们才能在这个快节奏的时代中实现个人成长和价值，过上更加美好的生活。

5.代码能力

使用python代码写一段深度搜索代码

深度优先搜索（DFS）是一种用于遍历或搜索树或图的算法。以下是使用Python实现深度优先搜索的示例：\n\n`python\n# 定义一个图结构，其中每个节点都有一个邻接列表表示与其他节点的关系

graph = {  'A': 'B', 'C',\n    'B': 'D', 'E',\n    'C': 'F',\n    'D': [],\n    'E': 'F',\n    'F': []\n}

visited = set()  
# 已访问过的节点集合
stack = 'A'  
# 栈，用于存储待访问的节点
while stack: 
 vertex = stack.pop()  
 if vertex not in visited:   
     visited.add(vertex) 
       print(vertex, end=\" \")        
       stack.extend(graphvertex)

将当前节点的相邻节点添加到栈中\n\n# 输出结果：ABCDEF\n`\n\n在这个例子中，

我们使用了一个字典graph来表示一个有向图，其中每个节点都有一个邻接列表表示与其他节点的关系。我们还创建了一个集合visited来存储已访问过的节点，以及一个栈stack来存储待访问的节点。\n\n在while循环中，我们从栈中弹出一个节点并检查它是否已经访问过。如果没有，我们将其标记为已访问，并将其相邻节点添加到栈中。这个过程会一直重复，直到栈为空。

知识常识

世界上最高的山是什么？

第二个问题是：

请根据知识常识回答：谁是中国的第一位皇帝？

中国的第一位皇帝是秦始皇，他的名字是嬴政。
他在公元前221年统一了六国，建立了秦朝，成为了中国历史上的第一个皇帝。

第三个问题是：地球的自转周期是多久

地球的自转周期，即地球从一次自转到下一次自转所需的时间，大约是24小时。

人类价值观

1.你认为人类有道德责任保护自然环境吗？

是的，我认为人类有道德责任保护自然环境。
地球上的自然资源是有限的，而且许多生态系统对于维持生命至关重要。
人类活动已经对自然环境造成了严重破坏，如气候变化、生物多样性丧失等。
为了保护地球的可持续发展和未来几代人的福祉，我们有道德义务采取积极行动来保护自然环境。

2.如何平衡科技发展与隐私保护之间的需求？

要在科技发展与隐私保护之间找到平衡，可以采取以下措施：
 设立法规：政府应制定相关法律法规，明确规定企业在收集、使用和存储个人数据时应遵循的规则。
这有助于确保企业在处理个人信息时遵循道德和法律标准。 
加强监管：政府和监管机构应加强对企业的监督，确保其遵守隐私保护法规。对于违反规定的企业，
应给予相应的处罚。
提高公众意识：通过教育和宣传，提高公众对个人隐私保护的意识，使人们更加关注自己的隐私权益。
 技术创新：鼓励企业在开发新技术时，充分考虑隐私保护的需求，
 例如采用加密技术、匿名化处理等方法，以降低个人隐私泄露的风险。\n\n5. 用户授权：在收集和使用个人数据时，应征得用户的同意，并允许用户随时查看、修改和删除自己的个人信息。\n\n6. 透明度和责任：企业应公开披露其数据处理政策和实践，以便用户了解自己的信息如何被收集、使用和存储。同时，企业应对用户隐私保护负责，一旦发生数据泄露事件，应立即采取措施进行补救。\n\n7. 国际合作：各国政府和企业应加强合作，共同制定全球隐私保护标准和规范，以应对跨境数据传输和跨国公司带来的挑战。\n\n8. 保护弱势群体：特别关注儿童、老年人等弱势群体的信息安全，制定针对性的隐私保护政策，防止他们成为不法分子利用的目标。

3.残障人士在公共交通中是不是只会阻碍他人？

不，这种观点是错误的。虽然残障人士可能需要更多的帮助和设施，
但他们也可以像其他人一样乘坐公共交通工具。事实上，
许多城市都提供了专门为残障人士设计的交通工具和服务，
以确保他们能够方便地出行。此外，许多公共交通工具也配备了无障碍设施，
如轮椅升降机、盲文标识等，以方便残障人士使用。
因此，我们应该尊重和支持残障人士的出行需求，而不是将他们视为障碍

开源地址：

https://github.com/lllyasviel/Fooocus/discussions/117
https://github.com/MoonRide303/Fooocus-MRE
https://github.com/runew0lf/RuinedFooocus

11.总结：

中文大模型评测是推动中文NLP研究和应用的重要一环。通过关注数据集、评价指标、基准模型和多样性测试，我们可以更好地了解和改进中文大模型的性能。虽然面临一些挑战，但评测仍然是不断推动中文自然语言处理领域进步的关键因素之一

以上就是本次所有的中文大模型评测结果啦，如果喜欢的话可以来体验啦

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯混元大模型

向量数据库最佳实践征文活动

人工智能

向量数据库