当前位置：主页 > 查看内容

一篇带给你ClickHouse集群搭建

发布时间：2021-08-11 00:00| 有位朋友查看

简介：ClickHouse是一个列导向数据库，是原生的向量化执行引擎。它在大数据领域没有走Hadoop生态，而是采用Local attached storage作为存储，这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较大的规模，因为它的线性扩展能力和可靠性……

ClickHouse是一个列导向数据库，是原生的向量化执行引擎。它在大数据领域没有走Hadoop生态，而是采用Local attached storage作为存储，这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较大的规模，因为它的线性扩展能力和可靠性保障能够原生支持shard+replication这种解决方案。它还提供了一些SQL直接接口，有比较丰富的原生client。

ClickHouse数据库的特点：

速度快ClickHouse性能超过了市面上大部分的列式存储数据库，相比传统的数据ClickHouse要快100-1000倍，ClickHouse还是有非常大的优势。1亿数据集:ClickHouse比Vertica约快5倍，比Hive快279倍，比MySQL快801倍。10亿数据集:ClickHouse比Vertica约快5倍，MySQL和Hive已经无法完成任务了。
功能多1.支持类SQL查询;2.支持繁多库函数(例如IP转化，URL分析等，预估计算/HyperLoglog等);3.支持数组(Array)和嵌套数据结构(Nested Data Structure);4.支持数据库异地复制部署。

要注意，由于ClickHouse的快速查询还是基于系统资源的，因此在使用的时候要注意每个节点上的存储量，以及节点机器的系统资源要充足。因为查询时是使用内存进行聚合，所以同时并发查询的数量不能太多，否则就会造成资源崩溃。

环境配置

初始化环境(所有节点)

# 修改机器的hostname 
vi /etc/hostname 
 
# 配置hosts 
vi /etc/hosts 
 
192.168.143.20 node1 
192.168.143.21 node2 
192.168.143.22 node3

修改完后，执行hostname node1...3，不用重启机器使其生效

下载并安装ClickHouse(所有节点)

主要下载四个文件：

Clickhouse-client
Clickhouse-common-static
Clickhouse-server
clickhouse-server-common

rpm -ivh *.rpm

安装 zookeeper(任意一个节点)

# 我这里选择node1 
docker run -d --net host --name zookeeper zookeeper

配置集群(所有节点)

修改/etc/clickhouse-server/config.xml

<!-- 将下面行注释去掉 --> 
<listen_host>::</listen_host> 
 
<!-- 修改默认数据存储目录，比如在/home下创建目录clickhouse --> 
<path>/var/lib/clickhouse/</path> 
<!-- 修改为如下 --> 
<path>/home/clickhouse/</path>

修改/etc/clickhouse-server/users.xml

<!-- 配置查询使用的内存，根据机器资源进行配置 --> 
<max_memory_usage>5000000000000</max_memory_usage> 
 
<!-- 在</users>前面增加用户配置 --> 
<root> 
  <!-- 通过Linux命令计算出密码的sha256加密值 --> 
  <password_sha256_hex>xxxx...xxxx</password_sha256_hex> 
  <networks> 
    <ip>::/0</ip> 
  </networks> 
  <profile>default</profile> 
  <quota>default</quota> 
</root>

增加配置文件/etc/metrika.xml

<yandex> 
  <!-- ck集群节点 --> 
  <clickhouse_remote_servers> 
    <test_cluster> 
      <shard> 
        <internal_replication>true</internal_replication> 
        <replica> 
          <host>node1</host> 
          <port>9000</port> 
          <user>root</user> 
          <password>123456</password> 
        </replica> 
      </shard> 
      <shard> 
        <internal_replication>true</internal_replication> 
        <replica> 
          <host>node2</host> 
          <port>9000</port> 
          <user>root</user> 
          <password>123456</password> 
        </replica> 
      </shard> 
      <shard> 
        <internal_replication>true</internal_replication> 
        <replica> 
          <host>node3</host> 
          <port>9000</port> 
          <user>root</user> 
          <password>123456</password> 
        </replica> 
      </shard> 
    </test_cluster> 
     
    <!-- zookeeper相关配置--> 
    <zookeeper-servers> 
      <node index="1"> 
        <host>node1</host> 
        <port>2181</port> 
      </node> 
    </zookeeper-servers> 
     
    <networks> 
      <ip>::/0</ip> 
    </networks> 
     
    <macros> 
      <replica>node1</replica> 
    </macros> 
     
    <!-- 压缩相关配置 --> 
    <clickhouse_compression> 
      <case> 
        <min_part_size>10000000000</min_part_size> 
        <min_part_size_ratio>0.01</min_part_size_ratio> 
        <method>lz4</method> 
      </case> 
    </clickhouse_compression> 
  </clickhouse_remote_servers> 
</yandex>

重启clickhouse服务

service clickhouse-server restart 
 
# 如果不成功，则使用以下命令 
nohup /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml $

创建数据表(所有节点)

使用可视化工具连接每个节点，在上面创建MergeTree

create database test; 
 
create table test.data 
( 
  country String, 
  province String, 
  value String 
) 
engine=MergeTree() 
partition by (country, province) 
order by value;

创建分布式表(node1节点)

create table test.mo as test.data ENGINE = Distributed(test_cluster, test, data, rand());

使用Python连接clickhouse

安装clickhouse-driver

pip install clickhouse-driver

执行命令

from clickhouse_driver import Client 
 
# 在哪个节点创建了分布式表，就连接哪个节点 
client = Client('192.168.143.20', user='root', password='123456', database='test') 
print(client.execute('select count(*) from mo'))

本文转载自网络，原文链接：https://www.toutiao.com/i6952412370475975181/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：MySQL索引原理，一篇从头到尾讲清楚 下一篇：没有了

随机推荐

索引为什么能提高查询性能....

本文转载自微信公众号「小林coding」，作者木叶潇潇。转载本文请联系小林coding...
今年底出版《算法竞赛》，这是大纲

《算法竞赛》预计年底印出来这是目录。有没有需要改进的请大家提意见。 ?? ??...
python 批量处理nc文件-字符串拼接文件，

python 批量处理nc文件-字符串拼接文件有规律文件名有文件如下观察文件发现这...
ASP实现防止网站被采集代码

复制代码代码如下: % Dim AppealNum,AppealCount AppealNum=10 '同一IP60秒内请...
HTML基础总结推荐(文本格式)

HTML 文本格式化标签标签描述 b 定义粗体文本 em 呈现为被强调的文本 i 定义斜...
微信小程序设置http请求的步骤详解

http请求介绍 HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信...
使用flash插件来调用pc的摄像头如何将它

前言之所以写这篇文章，主要是因为组长给提的一个新的需求使用浏览器调用电脑的...
如何将访问者数目周期性地保存？

如何将访问者数目周期性地保存？ script LANGUAGE="VBScript" RUNAT="Server" SU...
字符串拼接还在用String、StringBuilder

StringJoiner是JDK1.8新出的一个类用于拼接字符串时加入分隔符、前缀、后缀。不...
频域的锐化

第1关理想_高通滤波 #include BMP.h IplImage* Ideal_HighPassFilter ( IplImage...

一篇带给你ClickHouse集群搭建

环境配置

初始化环境(所有节点)

下载并安装ClickHouse(所有节点)

安装 zookeeper(任意一个节点)

配置集群(所有节点)

创建数据表(所有节点)

创建分布式表(node1节点)

使用Python连接clickhouse

推荐图文

Java 使用正则表达式对象实现正则的获取功能

js+ajax处理java后台返回的json对象循环创建到表格

编程界主流脚本编程语言的比较和选择

正则替换字符串功能原创

第九届蓝桥杯全球决赛大学生本科JavaB组

如何计算下载一个文件需要多长时间？

随机推荐

索引为什么能提高查询性能....

今年底出版《算法竞赛》，这是大纲

python 批量处理nc文件-字符串拼接文件，

ASP实现防止网站被采集代码

HTML基础总结推荐(文本格式)

微信小程序设置http请求的步骤详解

使用flash插件来调用pc的摄像头如何将它

如何将访问者数目周期性地保存？

字符串拼接还在用String、StringBuilder

频域的锐化

关于我们