加载中...

OpenShift中etcd集群的某个etcd服务文件损坏，导致节点故障，恢复过程

发表于2020-05-20|更新于2026-04-01

|浏览量:

问题

etcd集群中某个etcd出现故障，使用docker ps -a | grep etcd | grep -v POD查看etcd节点，发现它异常退出。

1
2
3

$ docker logs -f <etcd-container-id>
....
etcdserver : open wal error: wal: file not found

恢复步骤

大方向步骤：
一、将问题etcd节点从etcd集群剥离；
二、将恢复的新的etcd节点添加到etcd集群。
具体步骤如下：

查看etcd状态

$ etcdctl2 cluster-health
$ ## 获取问题节点的member ID
$ etcdctl2 member remove  <member ID>
$ ## 将问题etcd服务从etcd集群中删除

停止问题节点上的etcd服务

1 2	$ mkdir -p /etc/origin/node/pods-stopped $ mv /etc/origin/node/pods/* /etc/origin/node/pods-stopped/

删除问题节点上的etcd数据

1	$ rm -rf /var/lib/etcd/*

4.更新ansible中的inventory hosts内容，设置new_etcd配置

[OSEv3:children]
masters
etcd
nodes
new_etcd

[OSEv3:vars]
openshift_is_atomic=false

[masters]
master-1
master-2
master-3

[nodes]
master-1
master-2
master-3
...
[etcd]
master-1
#master-2
master-3

[new_etcd]
master-2

需要注意：将问题节点从masters/nodes中注释掉，否则执行etcd扩容会报如下错误。
TASK [Run variable sanity checks]
fatal: [master-1]: FAILED! => {"msg": "last_checked_host: master-2, last_checked_var: ansible_python;'NoneType' object has no attribute '__getitem__'"}

更新节点的node group配置

1	$ ansible-playbook playbooks/openshift-master/openshift_node_group.yml

执行etcd扩容脚本

1	$ ansible-playbook playbooks/openshift-etcd/scaleup.yml

执行完成扩容后，进行验证。
注意：如果在hosts中将masters对应的节点注释掉，在etcd安装时会使用本地服务的方式安装运行，这个适合独立的节点部署etcd。

etcd命令

etcd压测脚本

1	$ etcdctl --write-out=table check perf

参考文章

Adding etcd Hosts to existing cluster `

文章作者: Michael Pan

文章链接: https://xhua.eu.org/posts/f7e207fa4001.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Michael Blog！

相关推荐

Openshift-gitlab-redmine-testlink集成

Gitlab:使用Git作为代码管理工具，并在此基础上搭建起来的web服务。Redmine:项目管理和bug跟踪工具。TestLink:基于web的测试用例管理系统，主要功能是测试用例的创建、管理和执行，并且还提供了一些简单的统计功能。Redmine作为项目问题及bug收集汇总的地方，gitlab及testlink通过调用redmine的api进行对问题进行更新。那第它们之间是怎么配置的呢？下面就一起来配置下。 Redmine部署与插件安装相关配置在github项目：https://github.com/xhuaustc/redmine-openshift Dockerfile中更新了docker-entrypoint.sh文件，更新了数据库的编码（mysql: utf8mb4 ) 创建镜像 12$ docker build -t harbor.local.com/public/redmine .$ docker push harbor.local.com/public/redmine 在openshift上创建新的项目创建工程 1$ oc new-project...

Openshift上搭建Jenkins-Gitlab-Sonarqube自动构建

#Jenkins系统配置详情安装插件列表：Git Parameter Plug-In Gitlab Hook Plugin SonarQube Scanner for Jenkins JaCoCo plugin Maven Integration plugin Jenkins配置详情：Jenkins->系统管理->系统配置 SonarQube servers配置 Name: SonarqubeServer Server URL: http://sonarqube-sonarqube.apps.test.openshift.com Server version: 5.3 or higher Server authentication token: $TOKEN(从SonarQube Server上创建） Jenkins->系统管理->Global Tool Configuration Maven Configuration Default settings provider: Use default maven settings Default gl...

OpenShift容器中读取Project信息

背景在日常运维管理中，经常需要获取OpenShift集群资源的信息，甚至创建、编辑或删除资源。我们都很清楚，使用oc命令就能够非常方便地完成这些操作。但是有时，我们希望通过调用接口来实现，以便于与其它组件或者应用进行集成。那么我们该如何做呢？本篇就以读取Project信息为例，展示如何通过HTTP请求操作OpenShift的资源。操作首先需要创建具有读取Project信息权限的clusterrole project_view 12345678910111213$ cat <<EOF | oc create -f -apiVersion: authorization.openshift.io/v1kind: ClusterRolemetadata: name: project_viewrules:- apiGroups: - project.openshift.io resources: - projects verbs: - getEOF 为需要调用的应用POD添加获取Project信息的权限 1$ oc adm policy add-clus...

Openshift集群全环境备份

创建集群全环境备份非常有必要，特别是在生产过程中。当集群发生异常崩溃，数据丢失时，备份的数据就派上了用场，利用备份数据可以将之前的环境重新构建出来。在Openshift平台，我们可以对集群的完整状态备份到外部存储。集群全环境包括：集群数据文件 etcd数据库 Openshift对象配置私有镜像仓库存储持久化卷我们要定期对集群作备份，以防止数据的丢失。集群全环境备份并不是万能的，应用自己的数据我们应该保证有单独的备份。创建Master节点备份在系统基础架构进行更改，都需要对节点做备份。比如说，系统升级，集群升级或者任何重大更新。通过定期备份数据，当集群出现故障时，我们就能使用备份恢复集群。 Master主机上运行着非常重要的服务：API、Controllers。/etc/origin/master目录下存放着许多重要的文件。 API、Controllers服务等的配置文件安装生成的证书云提供商提供的配置文件密钥和其它身份认证文件另外如果有额外自定义的配置，比如更改日志级别，使用代理等。这些配置文件在&#...

OpenShift用户与组的管理功能如何在Kubernetes上实现

OpenShift中有用户及组的概念，并且提供了User与Group资源类型，可以非常方便地为OpenShift集群创建用户，创建组，以组给用户进行组管理，并授权。这也大大方便了集群账号的管理与权限的控制。 12345[openshift@master01 ~] oc create user dev-user # 创建用户dev-user[openshift@master01 ~] oc adm groups new my-group # 创建组my-group[openshift@master01 ~] oc adm groups new my-group dev-user # 创建组my-group，并添加dev-user到该组[openshift@master01 ~] oc adm groups add-users my-group dev-user # 为组my-group添加用户dev-user[openshift@master01 ~] oc adm groups remove-users my-group dev-user # 将用户dev-user从my-gr...

OpenShift-Master1彻底挂了，如何恢复？

小强维护着一套生成的OpenShift集群，突然有一天集群的master1节点出现异常，自动关机了。他尝试了多次，都无法开机，怎么办？他需要赶快恢复master1节点，来满足集群的高可用性。原来的masters在ansible/hosts中的顺序如下 1234567891011121314[masters]master1 ## 重要主节点，安装完后单独保存/etc/etcd/ca中的证书master2master3[etcd]master1master2master3[nodes]master1master2master3 恢复过程如下：新建一台 master1节点，hostname 与 IP 都和原 master1 节点一致在master2上恢复master主节点的证书、ca.serial.txt及openshift软件。通过新增 master 的方式将这个节点重新加回集群通过新增 etcd 的方法，恢复了这台 master 节点 etcd 的状况以下是恢复的具体步骤。一、初始化Master节点与部署机互信开启selinux 关闭firew...

数据加载中