群晖做网站服务器,重庆装修公司平台,微网站工程案例展示,百度推广和网站建设GaussDB运维管理工具#xff08;二#xff09; 集群管理组件cm_ctl工具介绍cm_ctl工具使用查询集群状态启停集群主备切换重建备DN检测进程运行查看实例配置文件手动剔除故障CNCM参数获取和配置停止仲裁 Cluster Manager#xff08;缩写为CM#xff09;是GaussDB的集群管理工… GaussDB运维管理工具二 集群管理组件cm_ctl工具介绍cm_ctl工具使用查询集群状态启停集群主备切换重建备DN检测进程运行查看实例配置文件手动剔除故障CNCM参数获取和配置停止仲裁 Cluster Manager缩写为CM是GaussDB的集群管理工具支持自定义资源监控、节点和实例的启停、实例状态查询、主备切换、日志管理等丰富的数据库管理能力。
集群管理组件
CM包含以下组件
OMM对应的二进制文件为om_monitor。管理服务组件由crontab定时任务控制拉起周期为1min。OMM组件主要负责OMM、etcd、cm_agent进程的保活和启停。etcd对应的二进制文件为etcd。管理服务组件由OMM组件拉起周期为1s。etcd是集群高可用的顶层组件负责协助CMS选主、持久化集群仲裁信息。etcd组件故障会导致CMS无主进而导致无法查看集群状态、无法进行高可用切换。CM Agent对应的二进制文件为cm_agent。管理服务组件由OMM组件拉起周期为1s。CMA主要负责CMS、DN进程的保活和启停仲裁指标采集、仲裁命令执行等。CMS组件故障会导致以下影响 CMS、DN进程和保活能力丢失节点脱管实例级故障检测能力丢失被管理实例状态未知。 CM Server对应的二进制文件为cm_server。管理服务组件由CMA组件拉起周期为1s。CMS是集群的仲裁中心依赖etcd或启用DCC实现自助选主。CMS组件故障会导致以下影响 集群状态无法查看整个集群的高可用切换能力丢失DCF自仲裁模式除外容灾barrier无法推进DCC模式下无法持久化集群信息。 DN对应的二进制文件为gaussdb。数据服务组件由CMA组件拉起周期为1s。DN组件故障会产生以下影响 单异步备故障集群无影响单同步备故障数据服务卡顿卡顿时间取决于异步备到同步的日志量主故障数据服务不可用多数派故障数据服务卡顿直至恢复多数派或者降副本。
组件相关的日志路径如下
$GAUSSLOG/cm/cm_ctl/cm_ctl*.log
$GAUSSLOG/cm/cm_agent/*.log
$GAUSSLOG/cm/cm_server/*.log
$GAUSSLOG/cm/om_monitor/*.logcm_ctl工具介绍
cm_ctl是GaussDB提供的数据库实例管理工具主要供OM调用以及数据库实例自恢复时使用。cm_ctl支持以下功能
启动数据库实例、AZ所有实例、单个主机上的所有实例或者单独启动某个实例进程。停止数据库实例、AZ所有实例、单个主机上的所有实例或者单独停止某个实例进程。重启逻辑数据库实例服务。查询数据库实例状态、或者整个主机状态。切换主备实例、或重置实例状态。重建备机。查看数据库实例配置文件。查看日志级别、一主多备实例部署下cm_server的仲裁模式、AZ之间的切换模式。设置日志级别、一主多备实例部署下cm_server的仲裁模式、AZ之间的切换模式。检测实例的进程状态。
cm_ctl工具使用
查询集群状态
查询集群状态
[ommgaussdb001 ~]$ cm_ctl query -Cvipd -z ALL[ CMServer State ]node node_ip instance state
-------------------------------------------------------------------------------------
AZ1 1 22.68.73.130 22.68.73.130 1 /gauss/app/cluster/data/cm/cm_server Primary
AZ2 2 22.68.73.132 22.68.73.132 2 /gauss/app/cluster/data/cm/cm_server Standby
AZ3 3 22.68.73.128 22.68.73.128 3 /gauss/app/cluster/data/cm/cm_server Standby[ ETCD State ]node node_ip instance state
-----------------------------------------------------------------------------------
AZ1 1 22.68.73.130 22.68.73.130 7001 /gauss/app/cluster/data/etcd StateFollower
AZ2 2 22.68.73.132 22.68.73.132 7002 /gauss/app/cluster/data/etcd StateFollower
AZ3 3 22.68.73.128 22.68.73.128 7003 /gauss/app/cluster/data/etcd StateLeader[ Cluster State ]cluster_state : Normal
redistributing : No
balanced : Yes
current_az : AZ_ALL[ Datanode State ]node node_ip instance state | node node_ip instance state | node node_ip instance state
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
AZ1 1 22.68.73.130 22.68.73.130 6001 5432 /gsdata/dn/dn_6001 P Primary Normal | AZ2 2 22.68.73.132 22.68.73.132 6002 5432 /gsdata/dn/dn_6002 S Standby Normal | AZ3 3 22.68.73.128 22.68.73.128 6003 5432 /gsdata/dn/dn_6003 S Standby Normal
数据库实例状态有以下三种状态
Noraml实例可用且数据有冗余备份所有进程都在运行主备关系正常。Degraded数据库实例可用但是数据没有冗余备份。Unavailable数据库实例不可用。
查询备机REDO状态
[ommgaussdb001 ~]$ cm_ctl query -rv
-----------------------------------------------------------------------cluster_state : Normal
redistributing : No
balanced : Yes-----------------------------------------------------------------------node : 2
instance_id : 6002
node_ip : 22.68.73.132
data_path : /gsdata/dn/dn_6002
type : Datanode
instance_state : Standby
is_by_query : 1
primary_flush_location : 00000000/0FC2D8C0
standby_received_location : 00000000/0FC2D8C0
standby_replay_location : 00000000/0FC2D8C0
static_connections : 2
HA_state : Normal
reason : Normal
redo_start_location : 00000000/070000C8
min_recovery_location : 00000000/0FC2CEA0
read_location : 00000000/0FC2D820
last_replayed_end_location : 00000000/0FC2D8C0
recovery_done_location : 00000000/07000028
local_max_lsn : 00000000/0FC2D8C0
read_xlog_io_counter : 37255
read_xlog_io_total_dur : 493503
read_data_io_counter : 180
read_data_io_total_dur : 6548
write_data_io_counter : 0
write_data_io_total_dur : 0
process_pending_counter : 973393
process_pending_total_dur : 1318236
apply_counter : 728094
apply_total_dur : 1803547
speed(est.) : 0 KB/s
delay(est.) : 0 s
senderPercent : 0%
receiverPercent : 100%
worker_info :
id q_use q_max_use rec_cnt
0 0 926 155459
1 0 644 166582
2 0 1174 392423
3 0 201 258929 ...其中各参数的含义如下
参数名参数说明is_by_query是否通过SQL查询primary_flush_location主机下刷日志的位置standby_received_location备机收到日志的位置standby_replay_location备机回放日志的位置static_connections连接统计redo_start_location回放开始的位置min_recovery_location最小恢复点位置read_location当前回放读取日志的位置last_replayed_end_location上一次回放到的位置recovery_done_location回放结束的位置local_max_lsn本地最大日志位置read_xlog_io_counter读日志的次数read_xlog_io_total_dur读日志的总耗时read_data_io_counter读数据的次数read_data_io_total_dur读数据的总耗时write_data_io_counter写数据的次数write_data_io_total_dur写数据的总耗时process_pending_counter回放主线程日志分发的次数process_pending_total_dur回放主线程日志分发的总耗时apply_counter日志回放同步的次数apply_total_dur日志回放同步的总耗时worker_info回放线程的信息id回放线程序号q_use回放线程队列的使用量q_max_use回放线程队列的最大容量rec_cnt回放线程处理日志的总个数
启停集群
启动集群
cm_ctl start # 启动整个集群
cm_ctl start -z AZ1 # 启动指定的AZ查询AZ名: cm_ctl query -Cvz ALL
cm_ctl start -n 1 # 启动指定的节点查询节点编号: cm_ctl query -Cv
cm_ctl start -n 1 -D /gsdata/dn/dn_6002 # 启动指定实例查询实例数据目录: cm_ctl query -Cvd
cm_ctl start --server # 以DCC模式单独启动CM Server停止集群
cm_ctl stop # 停止整个集群
cm_ctl stop -z AZ1 # 停止指定的AZ查询AZ名: cm_ctl query -Cvz ALL
cm_ctl stop -n 1 # 停止指定的节点查询节点编号: cm_ctl query -Cv
cm_ctl stop -n 1 -D /gsdata/dn/dn_6002 # 停止指定实例查询实例数据目录: cm_ctl query -Cvd
cm_ctl stop -m i # 强制停止集群
cm_ctl stop --server # 停止独立启动的CM Server重启集群流程示例
[ommgaussdb001 ~]$ cm_ctl stop
cm_ctl: stop cluster.
cm_ctl: stop nodeid: 1
cm_ctl: stop nodeid: 2
cm_ctl: stop nodeid: 3
.............
cm_ctl: stop cluster successfully.
cm_ctl: stopping the ETCD cluster.
.
cm_ctl: The ETCD cluster stops successfully.[ommgaussdb001 ~]$ cm_ctl query -Cv
[ CMServer State ]node instance state
--------------------------------
1 22.68.73.130 1 Down
2 22.68.73.132 2 Down
3 22.68.73.128 3 Down[ ETCD State ]node instance state
--------------------------------------
1 22.68.73.130 7001 Down
2 22.68.73.132 7002 Down
3 22.68.73.128 7003 Downcm_ctl: cant connect to cm_server.
Maybe cm_server is not running, or timeout expired. Please try again.[ommgaussdb001 ~]$ cm_ctl start
cm_ctl: starting the ETCD cluster.
.
cm_ctl: the ETCD cluster starts successfully.
cm_ctl: checking cluster status.
cm_ctl: checking cluster status.
cm_ctl: checking finished in 1437 ms.
cm_ctl: start cluster.
cm_ctl: start nodeid: 1
cm_ctl: start nodeid: 2
cm_ctl: start nodeid: 3
.............
cm_ctl: start cluster successfully.
主备切换
主备switchover为数据库维护操作请在集群状态正常、所有业务结束、且主备没有日志延迟时才能进行。 ⭐️ 通过 pgxc_get_senders_catchup_time()视图可查询主备有无日志追赶。 -- 经测试在某些版本中这个视图/函数已经不存在了gaussdb# select pgxc_get_senders_catchup_time();
ERROR: function pgxc_get_senders_catchup_time() does not exist
LINE 1: select pgxc_get_senders_catchup_time();^
HINT: No function matches the given name and argument types. You might need to add explicit type casts.
CONTEXT: referenced column: pgxc_get_senders_catchup_timegaussdb# \d pgxc_get_senders_catchup_time
Did not find any relation named pgxc_get_senders_catchup_time.gaussdb# \sf pgxc_get_senders_catchup_time
ERROR: function pgxc_get_senders_catchup_time does not exist主备切换命令
cm_ctl switchover -z AZ1 # 将所有的GTM和DN主实例切换到指定的AZ
cm_ctl switchover -n 1 -D /gsdata/dn/dn_6001 # 将指定节点的实例切换为主实例cm_ctl switchover -A # 将所有DN实例统一从主切换到备并选择相应分片的其他实例升主
cm_ctl switchover -a # 重置集群主备关系为初始配置状态cm_ctl switchover -n 1 -D /gauss/app/cluster/data/cm/cm_server # DCC模式下指定CM Server主备切换重建备DN
非强制build目标需要处于Down状态或是处于NeedRepair状态的备机、级联备机且reason不为Disconnected或者Connecting。
重建命令
cm_ctl build -n 2 -D /gsdata/dn/dn_6002 # 重建指定节点的备DN
cm_ctl build -c # 重建CM Server检测进程运行
检测命令
cm_ctl check -B gaussdb -T /gsdata/dn/dn_6001 # 检测gaussdb进程运行状态
cm_ctl check -B cm_agent -T /gauss/app/cluster/data/cm/cm_agent # 检测cm_agent进程运行状态
cm_ctl check -B cm_server -T /gauss/app/cluster/data/cm/cm_server # 检测cm_server进程运行状态查看实例配置文件
查看配置文件信息
cm_ctl view # 查看集群配置文件
cm_ctl view -n 1 # 查看指定节点的配置文件手动剔除故障CN
手动剔出指定CN节点
cm_ctl disable -n 1 -D /gsdata/dn/dn_6001CM参数获取和配置 ⭐️ CMS和CMA的参数可通过以下文件查看 /gauss/app/cluster/data/cm/cm_server/cm_server.conf/gauss/app/cluster/data/cm/cm_agent/cm_agent.conf 设置CM Server参数
cm_ctl set --log_levelDEBUG5 # 设置主CM Server日志级别为DEBUG5
cm_ctl set --cm_arbitration_modeMAJORITY # 设置CM Server仲裁模式为多数派模式
cm_ctl set --cm_switchover_az_modeAUTO # 设置AZ之间的自动切换开关为自动切换模式
cm_ctl set --cmsPromoteModeAUTO -I 1 # 设置CMS升主方式为自选主方式获取CM Server参数
cm_ctl get --log_level # 获取主CM Server日志级别
cm_ctl get --cm_arbitration_mode # 获取CM Server仲裁模式
cm_ctl get --cm_switchover_az_mode # 获取AZ之间的自动切换开关设置CM参数
# 格式
cm_ctl set --param --agent -k parametervalue # 设置CMA参数
cm_ctl set --param --server -k parametervalue # 设置CMS参数# 示例
cm_ctl set --param --agent -k incremental_buildon
cm_ctl set --param --server -k switch_rto600动态加载CM参数
cm_ctl reload --param --agent # 动态加载CMA参数
cm_ctl reload --param --server # 动态加载CMS参数列出所有CM参数
cm_ctl list --param --agent # 列出所有CMA参数
cm_ctl list --param --server # 列出所有CMS参数停止仲裁
管理仲裁命令
cm_ctl disablecm --all # 一键禁用所有启停仲裁
cm_ctl disablecm --start # 禁用全部实例启动
cm_ctl disablecm --arbitrateDN_ARBITRATE # 禁用DN仲裁cm_ctl enablecm --all # 一键启用所有启停仲裁
cm_ctl enablecm --start -n 1 -D /gsdata/dn/dn_6001 # 启用单个实例启动
cm_ctl enablecm --arbitrate # 启用全部仲裁