【分布式系统】ceph部署（命令+截图巨详细版）

07-12 1381阅读

一.存储概述

1.单机存储设备

2.单机存储的问题

3.商业存储

4.分布式存储编辑

4.1.什么是分布式存储

4.2.分布式存储的类型

二.ceph概述

1.ceph优点

2.ceph架构

3.ceph核心组件

4.OSD存储后端

5.ceph数据存储过程

6.ceph版本发行生命周期

7.ceph集群部署

三.基于 ceph-deploy 部署 Ceph 集群

1.环境准备

可选步骤：创建 Ceph 的管理用户

1.1.关闭防火墙（五台一起）

1.2.根据规划设置主机名（五台一起）

1.3.配置 hosts 解析（五台一起）

1.4.安装常用软件和依赖包（五台一起）

1.5.在 admin 管理节点配置 ssh 免密登录所有节点

1.6.配置时间同步（五台一起）

1.7.配置 Ceph yum源（五台一起）

1.8.执行完上面所有的操作之后重启所有主机（五台一起）

2.部署 Ceph 集群

2.1.为所有节点都创建一个 Ceph 工作目录，后续的工作都在该目录下进行（五台一起）

2.2.安装 ceph-deploy 部署工具

2.3.在管理节点为其它节点安装 Ceph 软件包

2.4.再添加新的网络适配器

2.5.生成初始配置

2.6.在管理节点初始化 mon 节点

2.7.部署能够管理 Ceph 集群的节点（可选）

2.8.部署 osd 存储节点

2.9.部署 mgr 节点

2.10.开启监控模块

一.存储概述

1.单机存储设备

DAS（直接附加存储，是直接接到计算机的主板总线上去的存储）

IDE、SATA、SCSI、SAS、USB 接口的磁盘所谓接口就是一种存储设备驱动下的磁盘设备，提供

块级别的存储

NAS（网络附加存储，是通过网络附加到当前主机文件系统之上的存储）

NFS、CIFS、FTP

文件系统级别的存储，本身就是一个做好的文件系统，通过nfs接口在用户空间输出后，客户端基

于内核模块与远程主机进行网络通信，把它转为好像本地文件系统一样来使用，这种存储服务是没

办法对它再一次格式化创建文件系统块的

SAN（存储区域网络）

SCSI协议（只是用来传输数据的存取操作，物理层使用SCSI线缆来传输）、FCSAN（物理层使用

光纤来传输）、iSCSI（物理层使用以太网来传输）

也是一种网络存储，但不同之处在于SAN提供给客户端主机使用的接口是块级别的存储

2.单机存储的问题

存储处理能力不足

传统的IDE的IO值是100次/秒，SATA固态磁盘500次/秒，固态硬盘达到2000-4000次/秒。即使磁

盘的IO能力再大数十倍，也不够抗住网站访问高峰期数十万、数百万甚至上亿用户的同时访问，这

同时还要受到主机网络IO能力的限制。

存储空间能力不足

单块磁盘的容量再大，也无法满足用户的正常访问所需的数据容量限制。

单点故障问题

单机存储数据存在单点故障问题

3.商业存储

EMC、NetAPP、IBM、DELL、华为、浪潮

4.分布式存储

4.1.什么是分布式存储

Ceph、TFS、FastDFS、MooseFS（MFS）、HDFS、GlusterFS（GFS）

存储机制会把数据分散存储到多个节点上，具有高扩展性、高性能、高可用性等优点

4.2.分布式存储的类型

块存储（例如硬盘，一般是一个存储被一个服务器挂载使用，适用于容器或虚拟机存储卷分配、日志存储、文件存储）

就是一个裸设备，用于提供没有被组织过的存储空间，底层以分块的方式来存储数据

文件存储（例如NFS，解决块存储无法共享问题，可以一个存储被多个服务器同时挂载，适用于目录结构的存储、日志存储）

是一种数据的组织存放接口，一般是建立在块级别的存储结构之上，以文件形式来存储数据，而文

件的元数据和实际数据是分开存储的

对象存储（例如OSS，一个存储可以被多服务同时访问，具备块存储的高速读写能力，也具备文件存储共享的特性，适用图片存储、视频存储）

基于API接口提供的文件存储，每一个文件都是一个对象，且文件大小各不相同的，文件的元数据

和实际数据是存放在一起的

二.ceph概述

Ceph使用C++语言开发，是一个开放、自我修复和自我管理的开源分布式存储系统。具有高扩展

性、高性能、高可靠性的优点

Ceph目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack，Kubernetes都可与

Ceph整合以支持虚拟机镜像的后端存储

粗略估计，我国70%—80%的云平台都将Ceph作为底层的存储平台，由此可见Ceph俨然成为了开

源云平台的标配

目前国内使用Ceph搭建分布式存储系统较为成功的企业有华为、阿里、中兴、华三、浪潮、中国

移动、网易、乐视、360、星辰天合存储、杉岩数据等。

1.ceph优点

高扩展性：去中心化，支持使用普通X86服务器，支持上千个存储节点的规模，支持TB到EB级的扩展
高可靠性：没有单点故障，多数据副本，自动管理，自动修复
高性能：摒弃了传统的集中式存储元数据寻址的方案，采用 CRUSH 算法，数据分布均衡，并行度高

功能强大：Ceph是个大一统的存储系统，集块存储接口（RBD）、文件存储接口（CephFS）、对象存储接口（RadosGW）于一身，因而适用于不同的应用场景。

2.ceph架构

自下向上，可以将Ceph系统分为四个层次

RADOS 基础存储系统（Reliab1e，Autonomic，Distributed object store，即可靠的、自动化的、分布式的对象存储）

RADOS是Ceph最底层的功能模块，是一个无限可扩容的对象存储服务，能将文件拆解成无数个对

象（碎片）存放在硬盘中，大大提高了数据的稳定性。它主要由OSD和Monitor两个组件组成，

OSD和Monitor都可以部署在多台服务器中，这就是ceph分布式的由来，高扩展性的由来

LIBRADOS 基础库

Librados提供了与RADOS进行交互的方式，并向上层应用提供Ceph服务的API接口，因此上层的

RBD、RGW和CephFS都是通过Librados访问的，目前提供PHP、Ruby、Java、Python、Go、C

和C++支持，以便直接基于RADOS（而不是整个Ceph）进行客户端应用开发

高层应用接口：包括了三个部分

对象存储接口 RGW（RADOS Gateway）

网关接口，基于Librados开发的对象存储系统，提供S3和Swift兼容的RESTful API接口。

块存储接口 RBD（Reliable Block Device）

基于Librados提供块设备接口，主要用于Host/VM。

文件存储接口 CephFS（Ceph File System）

Ceph文件系统，提供了一个符合POSIX标准的文件系统，它使用Ceph存储集群在文件系统上存储

用户数据。基于Librados提供的分布式文件系统接口。

应用层

基于高层接口或者基础库Librados开发出来的各种APP，或者Host、VM等诸多客户端

3.ceph核心组件

Ceph是一个对象式存储系统，它把每一个待管理的数据流（如文件等数据）切分为一到多个固定

大小（默认4兆）的对象数据（Object），并以其为原子单元（原子是构成元素的最小单元）完成

数据的读写。

OSD（Object Storage Daemon，守护进程 ceph-osd）

是负责物理存储的进程，一般配置成和磁盘一一对应，一块磁盘启动一个OSD进程。主要功能是

存储数据、复制数据、平衡数据、恢复数据，以及与其它OSD间进行心跳检查，负责响应客户端

请求返回具体数据的进程等。通常至少需要3个OSD来实现冗余和高可用性。

PG（Placement Group 归置组）

PG 是一个虚拟的概念而已，物理上不真实存在。它在数据寻址时类似于数据库中的索引：Ceph

先将每个对象数据通过HASH算法固定映射到一个 PG 中，然后将 PG 通过 CRUSH 算法映射到

OSD

Pool

Pool 是存储对象的逻辑分区，它起到 namespace 的作用。每个 Pool 包含一定数量（可配置）的

PG。Pool 可以做故障隔离域，根据不同的用户场景统一进行隔离。

Pool中数据保存方式支持两种类型

多副本（replicated）：类似 raid1，一个对象数据默认保存 3 个副本，放在不同的 OSD

纠删码（Erasure Code）：类似 raid5，对 CPU 消耗稍大，但是节约磁盘空间，对象数据保存只有 1 个副本。由于Ceph部分功能不支持纠删码池，此类型存储池使用不多

Pool、PG 和 OSD 的关系

一个Pool里有很多个PG
一个PG里包含一堆对象，一个对象只能属于一个PG

PG有主从之分，一个PG分布在不同的OSD上（针对多副本类型）

Monitor（守护进程 ceph-mon）

用来保存OSD的元数据。负责维护集群状态的映射视图（Cluster Map：OSD Map、Monitor

Map、PG Map 和 CRUSH Map），维护展示集群状态的各种图表，管理集群客户端认证与授

权。一个Ceph集群通常至少需要 3 或 5 个（奇数个）Monitor 节点才能实现冗余和高可用性，它

们通过 Paxos 协议实现节点间的同步数据。

Manager（守护进程 ceph-mgr）

负责跟踪运行时指标和 Ceph 集群的当前状态，包括存储利用率、当前性能指标和系统负载。为外

部监视和管理系统提供额外的监视和接口，例如 zabbix、prometheus、 cephmetrics 等。一个

Ceph 集群通常至少需要 2 个 mgr 节点实现高可用性，基于 raft 协议实现节点间的信息同步。

MDS（Metadata Server，守护进程 ceph-mds）

是 CephFS 服务依赖的元数据服务。负责保存文件系统的元数据，管理目录结构。对象存储和块

设备存储不需要元数据服务；如果不使用 CephFS 可以不安装。

4.OSD存储后端

OSD 有两种方式管理它们存储的数据。在 Luminous 12.2.z 及以后的发行版中，默认（也是推荐

的）后端是 BlueStore。在 Luminous 发布之前，默认是 FileStore，也是唯一的选项

Filestore

FileStore是在Ceph中存储对象的一个遗留方法。它依赖于一个标准文件系统（只能是XFS)，并结

合一个键/值数据库（传统上是LevelDB，现在BlueStore是RocksDB），用于保存和管理元数据

FileStore经过了良好的测试，在生产中得到了广泛的应用。然而，由于它的总体设计和对传统文件

系统的依赖，使得它在性能上存在许多不足

Bluestore

从 Ceph 12.2.0（Luminous）版本开始的。在 Luminous 版本中，BlueStore 被引入作为一种新

的、高性能的 OSD 存储引擎，以替代旧的 FileStore 引擎

在 Ceph 中，BlueStore 可以提供更快的响应时间和更高的数据吞吐量，同时也具有更好的可靠性

和稳定性。相比之下，旧的 FileStore 存储引擎通常需要更多的 CPU 和内存资源，对 IO 延迟的敏

感度也较高

FileStore 将对象存储为块设备基础上的文件系统（通常是 XFS）中的文件

BlueStore 将对象直接存储在原始块设备上，免除了对文件系统层的需要，提高了读写操作速度，

通过直接操作底层块设备来管理数据，而不是传统的文件系统

这种方法提供了更好的性能和可靠性，因为可以将数据划分为较小的块并使用校验和来检测错误。

此外，BlueStore可以直接与Solid State Drive（SSD）交互，并利用其快速读写速度

BlueStore还具有可扩展性，可以处理数百万个物理盘和千亿个对象。它实现了动态负载平衡和自

动恢复机制，以确保高可用性和数据可靠性

5.ceph数据存储过程

1）文件会默认以4M大小进行分片成一个或多个数据对象(object)

2）每个数据对象都有一个oid（由文件ID(ino)和分片编号(non)组成），通过对oid使用hash算法得

到一个16进制的数值，再除以Pool里的PG总数取余，获取到数据对象的pgid

3）通过对pgid使用crush算法获取到PG所映射的OSD的ID，如果是多副本，则会有多个OSD的ID

（PG和OSD的映射关系是在创建Pool的时候就确定好了的）

4）将数据对象存储到PG所映射的OSD里

6.ceph版本发行生命周期

Ceph从Nautilus版本（14.2.0）开始，每年都会有一个新的稳定版发行，预计是每年的3月份发

布，每年的新版本都会起一个新的名称（例如，“Mimic”）和一个主版本号（例如，13代表Mimic，

因为“M”是字母表的第13个字母）

版本号的格式为 x.y.z，x 表示发布周期（例如，13 代表 Mimic，17 代表 Quincy），y 表示发布版

本类型，即

● x.0.z ：y等于 0，表示开发版本

● x.1.z ：y等于 1，表示发布候选版本（用于测试集群）

● x.2.z ：y等于 2，表示稳定/错误修复版本（针对用户）

7.ceph集群部署

目前 Ceph 官方提供很多种部署 Ceph 集群的方法，常用的分别是 ceph-deploy，cephadm 和二

进制

ceph-deploy

一个集群自动化部署工具，使用较久，成熟稳定，被很多自动化工具所集成，可用于生产部署

cephadm

从 Octopus 和较新的版本版本后使用 cephadm 来部署 ceph 集群，使用容器和systemd 安装和管

理 Ceph 集群。目前不建议用于生产环境

二进制

手动部署，一步步部署 Ceph 集群，支持较多定制化和了解部署细节，安装难度较大

三.基于 ceph-deploy 部署 Ceph 集群

实验准备

主机名	Public网络	Cluster网络	角色
admin	192.168.80.101		admin（管理节点负责集群整体部署）、client
node01	192.168.80.102	192.168.80.102	mon、mgr、osd（/dev/sdb、/dev/sdc、/dev/sdd）
node02	192.168.80.103	192.168.80.103	mon、mgr、osd（/dev/sdb、/dev/sdc、/dev/sdd）
node03	192.168.80.104	192.168.80.104	mon、osd（/dev/sdb、/dev/sdc、/dev/sdd）
client	192.168.80.105		client