当前位置：主页 > 查看内容

Cassandra CQL语法以及功能介绍

发布时间：2021-05-17 00:00| 有位朋友查看

简介：作者玄陵 ? 一、Cassandra简单介绍 Cassandra的历史 Cassandra Dynamo(distributed architecture ) Bigtable(data format)。Cassandra最开始是Apache的顶级开源项目他开源的数据库历史是来自于2篇论文 Dynamo(distributed architecture ) 07年Amazon 亚马……

作者玄陵

一、Cassandra简单介绍

Cassandra的历史

Cassandra Dynamo(distributed architecture ) Bigtable(data format)。Cassandra最开始是Apache的顶级开源项目他开源的数据库历史是来自于2篇论文 Dynamo(distributed architecture ) 07年Amazon 亚马逊发表 Cassandra吸取了Dynamo的分布式架构 Bigtable(data format) 由Google 谷歌发表 Cassandra吸取了Bigtable的部分数据组织格式及表的多种组织格式。由这2篇论文衍生出开源Cassandra。

Cassandra的总体架构

分布式层面

Apache Cassandra的特性

线性扩展它有去中心化的架构

高可用它有多副本副本读写策略能够保证可用性较高

高性能主要取决于它底层的LSM Tree Storage

灵活应用通过CQL语言去访问Cassandra 是wide column的宽表模型。

DHT环图左

在环上有5个节点每个节点把环进行划分在Cassandra设计里每一个节点对应负责一部分的数据范围它能保证所有数据映射到环上最小到最大的范围每个节点将DHT环的范围进行均衡切分切分后能保证每个节点负责范围相对均匀任何一条数据来到这条环上都可以做到相对均匀的选择它对应的节点。

单个节点是由LSM Tree的引擎构成他有自己的Memtable 有自己的 WAL Commit Log有自己的一个SStable 可以保证它的写、读的性能比较好。

环外的Clients 输入一条SQL,选择任意一个Cassandra服务端的节点去进行连接然后在对应的节点上可以基于你的CQL编译出来一个结果选择你的数据需要落在的副本节点上是它一次在分布式层面的架构写入的流程。

Cassandra的初步认识

单节点层面

Cassandra在单个节点实际组成的模块在图的左边有ABCDE5个节点然后去分解B节点对应的组成模块最上层是由网络层组成的网络层主要的是实现了用户请求过来的CQL语句以及对 CQL的Binary协议请求的实现。

当CQL请求过来经过我们的网络层网络层的Server把这个对应的请求转发到下面会有一个CQL的Parser Cassandra内部的对SQL语言进行解析的模块这个模块是把对应的SQL类string语言转换成对应的statement 转换成在Cassandra内部可进行请求编译的结果。

还有meta的管理的模块 Cassandra所有的录入表信息以及我们的 scheme信息等管理的模块底层 Commitlog/sstable/index等管理的模块最下层是我们的一个文件系统。

Cassandra的架构它底层是直接跟Linux、或者windows平台对应的底层的local file system进行交互的在看网络层下面的Gossip 是让集群中的ABCDE这5个节点相互的感知到彼此路由信息都是由Gossip感知维护的也能够各个节点的探活状态。再下层就是DHT环在后面个replication的management 是对副本的管理的策略。通过这两幅图我们可以看到Cassandra在整体的分布式层面以及在单节点层面它请求的或者说组织的一个模块情况。

通过这两幅图我们可以大概Cassandra架构有一定了解它是分布式的数据库、区中心化的数据库单节点是由lsm区域进行构成的引擎每个节点它最上层是有一个网络层然后下面会直接把所有的输入CQL进行编译成结果。

二、Cassandra CQL介绍

第二部分详细介绍CQL对应一些语法通过了解到对应的语法之后我们可以如何去使用Cassandra 进行简单的读和写、建表等基本操作有一个初步的认识。

Cassandra为了方便用户去操作或请求它自己所实现的类似于Query Language 自定义的一个轻的 native的 SQL的语言。

可以通过社区datastax或Netflix再或任何其他的以及开源的一个driver去访问我们的Cassandra 通过我们的CQL语言去访问Cassandra 原生支持 java/c /python/nodejs/php/c#/go/ruby等多语言去访问Cassandra 同时也支持spark 访问。

通过HBase KV api VS CQL 写一条数据对比可以看的缩短了代码行数直接使用 SQL语言进行一个操作比较方便。

CQL总体介绍

把这个分三块Data type、DDL/DML/ACL、INDEX/MV/UDF/IDA

Data type包含基础数据类型、集合数据类型、UDT(User-defined-Type)。

DDL/DML/ACL包含 DDL: CREATE/DROP、DML:SELECT/UPDATE/DELET/INSERT、ACL:ROLE/USER/PASSWORD/…。

INDEX/MV/UDF/IDA包含 Secondary index/SaSI Index、Materialized View、UDF/UDA。

CQL几个概念

在介绍CQL语言之前要先去了解几个比较基本的概念 Cassandra自己定义的意义和备注。

Partition key是Cassandra特有的表示分区键可以确定数据存放的节点。落在哪个节点上面去数据它属于哪个节点或者哪几个副本都是它决定。

cql_type 是由 native_type | collections | udt | tuple |custom_type 类型组成的。数据结构丰富便于业务直接使用无需封装 eg inet 用户使用ip直接使用无需转换。要强调的是Cassandra的Type还定义在别的数据库不常见的一些类型比方说 Inet就是定义的 IP的数据类型如果用户要存储某个IP类型那么它就直接可以用Inet这个类型去存储。

所以我们的所有的类型是在建表的时候通过定义某一个列的名字后会根据跟上列的对应的类型。

Collecion Type是一个集合数据类型其中map, set,list 是别的数据库里面不常见的但是是日常用的比较多的类型 Collecion Type可以基于自己的业务场景去操作的。

UDT User Defined Type就是组合了多种类型成包括成一种新的类型并支持 CREATE /ALTER /DROP语法。

CQL DDL

DDL的一些使用的方式CREATE KEYSPACE、USE KEYSPACE 、ALTER KEYSPACE、DROP KEYSPACE、 DESCRIBE KEYSPACE CREATE TABLE 、ALTER TABLE、 DROP TABLE、 DESCRIBE TABLE、 TRUNCATE 建表键值空间、修改表、修改键值空间、删除表、删除键值空间、还有清空表。

定义KEYSPACE实际上会定义两个东西第一个Replication 下面会有两个子项目一个是class class也分两种一种是Simple strategy和NetworkTopologyStrategy 主要定义了的副本的摆放策略就是在Cassandra执行里面一行数据会放在多个副本上面多个副本的摆放策略这里定义它是顺序的还是逆序的还是说以某种方式摆放的副本数Replication factor 会定义一行数据写进来在分布式的节点上面有几个节点会放副本因子是多少

举例

CREATE KEYSPACE KS1 WITH replicate application,它的class simple strategy它的摆放策略是1

CREATE KEYSPACE KS2, class摆放策略是networkToplogyStrategy 因为使用的NetworkToplogy 这里需要定义一个对应的跟NetworkToplogy相关的叫DC的概念如图可见定义的 dc1的副本数是1 如果用户有多DC概念后面可以跟上DC2、DC3、DC4以及在各个DC下面的一个摆放的副本因子。

CQL的DDL对Table 在创建一个table的时候必须要有一些对应的信息

Primary key : 必须定义由partition key 和 cluster key组成Partition key 必须定义确定数据的摆放物理位置Cluster key 可以不定义确定数据在partition 下的摆放情况default_time_to_live: 表级别ttl 如果一个数据希望在所有表下面的数据都有TTL的话 ,就用此定义单位是秒。Compaction策略 STCS/LCS/TWCS; Compression压缩策略 SNAPPY/LZ4;

举例

CREATE对应TABLE 定义了一个 PK的类型是text CK类型是text regularcn类型也是text

定义的主键是由PK和CK组成的这里PK就是partition key 然后CK是 cluster key

对应的参数如default_time_to_live是 100秒

Compaction策略是 SizeTieredCompactionStrategy 还有一些阈值

Compression用定义的是lz4 如上图下面 tb是没有参数的如果没有参数它会定义默认的设置一些参数。

CQL DML

DML : SELECT / INSERT / UPDATE/ DELETE /BATCH

1、SELECT

? 支持获取指定列以及通配符操作

? 支持LIMIT/PARTITION LIMIT/ ORDE BY /GOUP BY ;

? 支持native function 处理操作 count、max、min、sum、avg等

? 支持JSON

? 其他多数丰富操作

举例

如图所示SELECT*from这个表包括count、limit、 some select等数据大概是一些对应的操作以及select执行 select数据以Jason的方式输出这里都有对应的一些例子可以做参考。

2、INSERT

? 支持常规写数据 primary key 必须指定数据

? 支持写入JSON数据

? 支持cell 以及row TTL

? 保证线性一致性 IF NOT EXIST

3、UPDATE

? 需要指定primary key 主键列必须要指定

? 如果数据存在就更新不存在则写入

4、DELETE

? 支持行、列级别删除

举例

如图所示 UPDATE对应的数据列或者行数据使用了一个TTL UPDATE ks. Tb USING TTL SET age 20 WHERE name 这个nameprimary key;

对应的delete这一行数据把WHERE name xl行数据全删掉。

5、BATCH

? 语法 BEIGIN BATCH开始以 APPLY BATCH 结束中间可包含多条INSERT/UPDATE/DELETE;

? 支持LOGGED/UNLOGGED BATCH 2种模式。LOGGED BATCH 保证batch数据最终全被写入

? 提高写入吞吐

举例

如图所示分了两条INSERT一条update以及一条delete 最后以看到select数据是符合需求的。

CQL ACL

? Role级别操作支持账户密码 role资源操作

? 各种资源级别的鉴权

? 常见grant 以及revoke操作 role资源和permissions

举例

如图所示首先是以Cassandra用户user去登录登录时创建了一个ROLE CREATE ROLE JACK可以 log in 然后password是super user 这是CREATE ROLE的语法里面需要定义的一些操作第二次以jack用户去 log in的时候执行了LISE ROLES ,可以看到Cassandra和Jack两个用户对应的permission 执行了一些grant和revoke操作通可以通过grant、revoke去操作让 Jack对某个KEYSPACE或select的操作对 Jack可以决定是否有效。

CQL INDEX

INDEX : Secondary Index/ SASI / Materialized View

1、Secondary Index

? Local Index,索引表数据和数据表数据共存适用于基数适中的数据表列;

? 可以指定索引名若不指定则自动生成

? Counter列不支持二级索引

? 频繁删除以及update的列不推荐使用

? 支持多重索引查询支持集合数据类型上构建索引

举例

如图所示可以看到例子里面建了对这个表上面两个列对应的进行了构建索引查询的时候也基于对应的列去查询以空间换时间的一个方式。

2、SASI : Sstable Attached Secondary Index

? Local Index的一种支持较多索引模式 prefix contains sparse,支持轻搜索功能

? 对字符串支持的prefix 和 contains功能支持轻模糊匹配 like ’%key‘, like ‘%key%’

? 使用analyzer可以对某个列的文本数据做词干分析

? 丰富的索引构建选项大小写敏感索引模式是否使用anlyzer

? 不支持collection类型

? 实验功能不推荐生产使用

例一

如图所示这个例子也对应地构建了一个对应的索引使用了一个SASI的索引支持一些对应的操作可以看到是用like一个模糊匹配匹配出对应的一些数据。

例二

如图所示在构建索引的时候指定对应的anlyzer 可以通过anlyzer去做一些数据的分词但允许的数据量不是特别大如果真正需要单个类的数据量比较大的情况还是建议用一些搜索引擎。

3、Materialized View

? 全局索引表数据基于数据表构建

? 适用于数据表基数较高的数据列

? 需要指定新的primary key

举例

如图所示CREATE Materialized View 新Materialized View是select所有的数据把所有的数据都当放到Materialized View里面类似于全一种新的一个表。

本文转自网络，原文链接：https://developer.aliyun.com/article/784100
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：因你不同，2021 阿里云开发者大会重磅开启 @ 所有开发者！ 下一篇：阿里技术实战：一些云上资源调度的经验谈

随机推荐

一日一技：你怎么总是搞不清反斜杠的问题

大家在开发Python的过程中，一定会遇到很多反斜杠的问题，很多人被反斜杠的数量...
DataWorks 2021-03 产品月刊

本月DataWorks产品月刊为您带来产品活动 1.参与阿里云DataWorks问卷调研 (Aliyu...
长沙营智：PolarDB助力长沙营智提速资讯

公司介绍长沙营智信息技术有限公司旗下易撰网，2017年10月份上线以来，基于数据...
2020年大数据给企业带来的5大好处

大数据市场如今正在呈爆炸式增长。根据调研机构Markets and Markets公司的调查，...
删除镜像_镜像服务 IMS_用户指南_管理私

操作场景您可以删除不需要的私有镜像。删除私有镜像后，将无法找回，请谨慎操...
怎样才能成为一名合格的微服务构架师？

阿里巴巴、腾讯、支付宝、网易、IBM、谷歌、京东、百度、滴滴等一线互联网公司...
数据分析师必备的6项技能

【51CTO.com快译】数据分析是对数据进行判断、细化、更改和建模的过程，目的是...
百度开放离线人脸识别SDK，活体识别率超

人脸识别是目前商业应用最成熟、最广泛的人工智能技术之一，成为开发者、企业接...
构建前瞻性应用架构的优秀实践

【51CTO.com快译】不知道您是否听说过软件架构师最讨厌意大利面这个梗?它是指软...
稻香小镇新建数字农业基地

案例背景永安稻香小镇的体验式数字农业基地是余杭街道依托“阿里以西10分钟”的...

Cassandra CQL语法以及功能介绍

推荐图文

在Python中搭建币价树形图

Flink on Zeppelin 系列之：Yarn Application 模式

跨境医疗走向后疫情时代：门槛提高、专业化、平台化

网络视频服务器的优势

使用顶层await简化JS代码

TRTC Web端仿腾讯会议麦克风静音检测

随机推荐

一日一技：你怎么总是搞不清反斜杠的问题

DataWorks 2021-03 产品月刊

长沙营智：PolarDB助力长沙营智提速资讯

2020年大数据给企业带来的5大好处

删除镜像_镜像服务 IMS_用户指南_管理私

怎样才能成为一名合格的微服务构架师？

数据分析师必备的6项技能

百度开放离线人脸识别SDK，活体识别率超

构建前瞻性应用架构的优秀实践

稻香小镇新建数字农业基地

关于我们

Cassandra CQL语法 以及功能介绍

推荐图文

随机推荐

关于我们

Cassandra CQL语法以及功能介绍