大规模Elasticsearch集群管理

发布时间：2021-02-25 11:00:36 所属栏目：动态来源：互联网

导读：大的日志单集群有120个data node，运行于70台物理服务器上。数据规模如下: 单日索引数据条数600亿，新增索引文件25TB (含一个复制片则为50TB) 业务高峰期峰值索引速率维持在百万条/秒历史数据保留时长根据业务需求制定，从10天 90天不等集群共3441个索引、

大的日志单集群有120个data node，运行于70台物理服务器上。数据规模如下:

单日索引数据条数600亿，新增索引文件25TB (含一个复制片则为50TB)
业务高峰期峰值索引速率维持在百万条/秒
历史数据保留时长根据业务需求制定，从10天 – 90天不等
集群共3441个索引、17000个分片、数据总量约9300亿, 磁盘总消耗1PB
Kibana用户600多人, 每日来自Kibana和第三方的API调用共63万次
查询响应时间百分位 75%:0.160s 90%:1.640s 95%:6.691s 99%:14.0039s

运维这样大规模的ES集群，有哪些值得注意的地方?

一. 必不可少的工具

工欲善其事必先利其器，从一开始，哪怕就只有几个node，就应该使用分布式配置管理工具来做集群的部署。随着应用的成熟，集群规模的逐步扩大，效率的提升会凸显。官方提供了ES Puppet Module和Chef Cookbook，熟悉这两个工具的同学可以直接拿过来用。我们自己则是采用的Ansible，编写了一套Playbook来达到类似的效果。用熟这类工具，对于集群的初始部署，配置批量更改，集群版本升级，重启故障结点都会快捷和安全许多。

第二个必备利器就是sense插件。通过这个插件直接调用集群的restful API，在做集群和索引的状态查看，索引配置更改的时候非常方便。语法提示和自动补全功能更是实用，减少了翻看文档的频率。在Kibana5里面，sense已经成为一个内置的控制台，无需额外安装。

二. 硬件配置

我们采用的是32vcoreCPU + 128GB RAM的服务器，磁盘配置大部分服务器是12块4TB SATA机械磁盘做的Raid0，少部分机器是刚上了不久的6块800GB SSD raid0，主要目的是想做冷热数据分离，后面谈到集群架构的时候，再进一步解释一下如何利用硬件资源。

三. 集群的管理

首先很有必要对ES的结点做角色划分和隔离。大家知道ES的data node除了放数据以外，也可以兼任master和client的角色，多数同学会将这些角色混入到data node。然而对于一个规模较大，用户较多的集

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

消息称新款 MacBook A	我们应该向其他恒星系
微星Project ZERO主板	AMD Yes！10年后重夺全