Ceph 分布式文件系统¶

Ceph 是一个分布式网络文件系统，旨在提供良好的性能、可靠性和可扩展性。

基本功能包括

POSIX 语义

从 1 到数千个节点的无缝扩展

高可用性和可靠性。没有单点故障。

跨存储节点的数据 N 路复制

从节点故障快速恢复

在添加/删除节点时自动重新平衡数据

易于部署：大多数 FS 组件都是用户空间守护进程

此外，

灵活的快照（在任何目录上）

递归记帐（嵌套文件、目录、字节）

与诸如 GFS、OCFS2 和 GPFS 等依赖于所有客户端对共享块设备的对称访问的集群文件系统相比，Ceph 将数据和元数据管理分离到独立的服务器集群中，类似于 Lustre。然而，与 Lustre 不同的是，元数据和存储节点完全作为用户空间守护进程运行。文件数据以大块形式分布在存储节点上，以分配工作负载并提高吞吐量。当存储节点发生故障时，数据由存储节点本身以分布式方式重新复制（在集群监视器的少量协调下），从而使系统非常高效和可扩展。

元数据服务器有效地形成了一个巨大的、一致的、分布式内存缓存，位于文件命名空间之上，它具有极高的可扩展性，可以根据工作负载的变化动态地重新分配元数据，并且可以容忍任意（好吧，非拜占庭式的）节点故障。元数据服务器采用了一种有些非常规的元数据存储方法，以显着提高常见工作负载的性能。特别是，只有单个链接的 inode 嵌入在目录中，允许整个目录的目录项和 inode 通过单个 I/O 操作加载到其缓存中。非常大的目录的内容可以被碎片化并由独立的元数据服务器管理，从而允许可扩展的并发访问。

该系统提供了自动数据重新平衡/迁移，可以在从小型的几个节点的集群扩展到数百个节点时进行，而无需管理员将数据集划分为静态卷或经过在服务器之间迁移数据的繁琐过程。当文件系统接近满容量时，可以轻松添加新节点，并且一切都将“正常工作”。

Ceph 包括灵活的快照机制，允许用户在系统中的任何子目录（及其嵌套内容）上创建快照。快照的创建和删除就像 'mkdir .snap/foo' 和 'rmdir .snap/foo' 一样简单。

快照名称有两个限制

它们不能以下划线 ('_') 开头，因为这些名称保留供 MDS 内部使用。
它们的大小不能超过 240 个字符。这是因为 MDS 在内部使用长快照名称，其格式如下：_<SNAPSHOT-NAME>_<INODE-NUMBER>。由于文件名通常不能超过 255 个字符，并且 <node-id> 占用 13 个字符，因此长快照名称最多可占用 255 - 1 - 1 - 13 = 240 个字符。

Ceph 还提供了目录的递归记帐，用于嵌套文件和字节。您可以运行以下命令

getfattr -n ceph.dir.rfiles /some/dir
getfattr -n ceph.dir.rbytes /some/dir

分别获取嵌套文件的总数及其总大小。这使得可以相对快速地识别大型磁盘空间消耗者，因为不需要 'du' 或类似的递归扫描文件系统。

最后，Ceph 还允许在系统中的任何目录上设置配额。该配额可以限制存储在该目录层次结构下方的字节数或文件数。可以使用扩展属性 'ceph.quota.max_files' 和 'ceph.quota.max_bytes' 设置配额，例如

setfattr -n ceph.quota.max_bytes -v 100000000 /some/dir
getfattr -n ceph.quota.max_bytes /some/dir

当前配额实现的一个限制是，它依赖于挂载文件系统的客户端的合作，以在达到限制时停止写入器。修改过的或对抗性的客户端无法阻止其写入所需的数据量。

挂载语法¶

基本挂载语法是

# mount -t ceph user@fsid.fs_name=/[subdir] mnt -o mon_addr=monip1[:port][/monip2[:port]]

您只需要指定一个监视器，因为客户端在连接时将获得完整列表。（但是，如果您指定的监视器恰好已关闭，则挂载将不会成功。）如果监视器使用默认端口，则可以省略端口。因此，如果监视器位于 1.2.3.4

# mount -t ceph cephuser@07fe3187-00d9-42a3-814b-72a4d5e7d5be.cephfs=/ /mnt/ceph -o mon_addr=1.2.3.4

就足够了。如果安装了 /sbin/mount.ceph，则可以使用主机名而不是 IP 地址，并且可以省略集群 FSID（因为挂载助手将通过读取 ceph 配置文件来填充它）

# mount -t ceph cephuser@cephfs=/ /mnt/ceph -o mon_addr=mon-addr

可以通过用斜杠 (/) 分隔每个地址来传递多个监视器地址

# mount -t ceph cephuser@cephfs=/ /mnt/ceph -o mon_addr=192.168.1.100/192.168.1.101

使用挂载助手时，如果可用，可以从 ceph 配置文件读取监视器地址。请注意，集群 FSID（作为设备字符串的一部分传递）通过将其与监视器报告的 FSID 进行检查来验证。

挂载选项¶

mon_addr=ip_address[:port][/ip_address[:port]]
集群的监视器地址。这用于引导到集群的连接。建立连接后，将遵循监视器映射中的监视器地址。

fsid=cluster-id
集群的 FSID（来自 ceph fsid 命令）。

ip=A.B.C.D[:N]
指定客户端应在本地绑定到的 IP 和/或端口。通常没有太多理由这样做。如果未指定 IP，则客户端的 IP 地址通过查看其到监视器的连接来源的地址来确定。

wsize=X
指定最大写入大小（以字节为单位）。默认值：64 MB。

rsize=X
指定最大读取大小（以字节为单位）。默认值：64 MB。

rasize=X
指定最大预读大小（以字节为单位）。默认值：8 MB。

mount_timeout=X
指定挂载的超时值（以秒为单位），以防 Ceph 文件系统无响应。默认值为 60 秒。

caps_max=X
指定要保留的最大容量数。当容量数超过限制时，将释放未使用的容量。默认值为 0（无限制）

rbytes
当在目录上调用 stat() 时，将 st_size 设置为 'rbytes'，即该目录下方所有嵌套文件的文件大小之和。这是默认设置。

norbytes
当在目录上调用 stat() 时，将 st_size 设置为该目录中的条目数。

nocrc
禁用数据写入的 CRC32C 计算。如果设置，则存储节点必须依赖 TCP 的错误纠正来检测数据有效负载中的数据损坏。

dcache
当客户端的缓存中包含整个目录内容时，使用 dcache 内容执行否定查找和 readdir。（这不会改变正确性；客户端仅在租约或能力确保其有效时才使用缓存的元数据。）

nodcache
不要像上面那样使用 dcache。这避免了大量的复杂代码，牺牲了性能而不影响正确性，并且对于跟踪错误很有用。

noasyncreaddir
不要像上面那样将 dcache 用于 readdir。

noquotadf
在 statfs 中报告整体文件系统使用情况，而不是使用根目录配额。

nocopyfrom
不要使用 RADOS “copy-from” 操作来执行远程对象复制。目前，它仅在 copy_file_range 中使用，如果使用此选项，它将恢复为默认的 VFS 实现。

recover_session=<no|clean>
在客户端被列入黑名单的情况下，设置自动重新连接模式。可用模式为“no”和“clean”。默认值为“no”。

no：当客户端检测到它已被列入黑名单时，永远不要尝试重新连接。在被列入黑名单后，操作通常会失败。

clean：客户端在检测到它已被列入黑名单时会自动重新连接到 ceph 集群。在重新连接期间，客户端会丢弃脏数据/元数据，使页面缓存和可写文件句柄无效。重新连接后，文件锁变为陈旧，因为 MDS 失去了对它们的跟踪。如果 inode 包含任何陈旧的文件锁，则不允许对 inode 进行读/写，直到应用程序释放所有陈旧的文件锁。

Linux 内核

目录

本页

Ceph 分布式文件系统¶

挂载语法¶

挂载选项¶

更多信息¶