Linux云服务器高可用集群配置完全指南

在当今云计算时代，构建高可用(HA)集群已经成为企业保障业务连续性的关键解决方案。本文将详细介绍如何在Linux云服务器环境下配置高可用集群，涵盖从基础概念到实战部署的全过程。

一、高可用集群基础概念

高可用集群(High Availability Cluster)是指通过软件和硬件技术，将多台服务器组合成一个整体，当其中某个节点发生故障时，集群能够自动将服务转移到其他正常节点，从而保证服务不间断运行。

节点(Node)： 集群中的每台独立服务器
资源(Resource)： 需要保证高可用的服务或应用
VIP(虚拟IP)： 客户端访问的统一入口
隔离(Fencing)： 当节点故障时将其从集群隔离的机制

二、配置前的准备工作

1. 服务器环境要求

建议至少准备两台配置相同的云服务器，推荐配置：

CentOS 7/8 或 Ubuntu 18.04/20.04 LTS
2核CPU，4GB内存以上
相同的网络环境(建议同一VPC内)
配置SSH免密登录

2. 网络规划

节点	内网IP	角色
node1	192.168.1.101	主节点
node2	192.168.1.102	备节点

三、基于Pacemaker+Corosync的HA集群配置

1. 安装必要软件包

# CentOS
yum install -y pacemaker pcs corosync fence-agents-all

# Ubuntu
apt-get install -y pacemaker corosync pcs

2. 配置集群认证

# 设置hacluster用户密码(所有节点执行相同操作)
passwd hacluster

# 启动pcsd服务并设置开机自启
systemctl start pcsd
systemctl enable pcsd

3. 创建集群

# 在主节点执行
pcs cluster auth node1 node2 -u hacluster -p yourpassword
pcs cluster setup --name my_cluster node1 node2
pcs cluster start --all
pcs cluster enable --all

4. 配置集群属性

# 禁用STONITH(生产环境应根据实际情况配置)
pcs property set stonith-enabled=false

# 设置资源粘性(避免资源在节点间频繁切换)
pcs resource defaults resource-stickiness=100

四、配置虚拟IP资源

# 创建虚拟IP资源(假设VIP为192.168.1.100)
pcs resource create ClusterVIP ocf:heartbeat:IPaddr2 ip=192.168.1.100 cidr_netmask=24 op monitor interval=30s

# 验证资源状态
pcs status

五、测试高可用性

通过以下步骤验证集群的高可用性：

使用ping命令持续测试VIP可达性
在主节点上执行systemctl stop corosync模拟节点故障
观察VIP是否自动迁移到备用节点
恢复主节点后，观察资源是否按预期运行

六、高级配置建议

1. 配置DRBD实现共享存储

对于需要数据一致性的服务(如数据库)，建议配置DRBD(分布式复制块设备)实现存储层的高可用。

2. 配置监控告警

使用Prometheus+Grafana等工具监控集群状态，设置关键指标告警。

3. 定期演练

定期进行故障转移演练，确保在实际故障时能够正常切换。

通过本文的步骤，您已经成功在Linux云服务器上配置了一个基础的高可用集群。实际生产环境中，还需要根据具体应用特点进行更细致的调优和测试。高可用集群的维护是一个持续的过程，需要定期检查更新配置，确保集群始终处于最佳状态。

Linux云服务器如何配置高可用集群？