好看的小说完本推荐,我欲封天耳根小说零,小说阅读网

大數據需要大存儲，尤其是文件存儲，Hadoop組件之一HDFS也因此得到了快速發展。隨著AI時代的來臨，機器學習對于大存儲提出了更高的要求。分布式、并行、高速、在線擴展、高可用、可靠、安全等等，現代機器學習尤其是深度學習，要做大模型和超大模型訓練，要迭代數以TB級別甚至PB級別的樣本，要做類似spark的checkpoint，要做動態感知計算和網絡環境的調度，等等復雜負載，對文件系統的這些需求逐漸都變成了剛需。

壹

當前比較流行的分布式文件系統，包括HDFS、Ceph/CephFS、Lustre、GPFS、Gluste rFS等，各具特點，并應用于一些特定的場景。作為開源項目的佼佼者，Ceph/CephFS因提供了對象存儲、塊存儲、文件系統三種接口，得到了最為廣泛的應用。常規的場景中，對象存儲可以搭建企業級網盤，塊存儲可以作為OpenStack/KVM的鏡像后端，文件存儲可以替代HDFS支持大數據。在云原生大行其道的今天，Ceph也沒有落后腳步。目前已經提供了Kubernetes/Docker存儲的原生支持。

貳

了解Ceph的人，大都會認為Ceph是一個相對復雜的系統，尤其當磁盤規模達到千塊甚至萬塊時。Ceph經受住了長時間的應用考驗，也說明其架構設計非常之優秀。

在OPPO的機器學習平臺里，Ceph也在發揮著極其重要的作用，提供了諸如深度模型分布式訓練、代碼和數據共享、訓練任務容災、模型急速發布等能力。Ceph的應用場景遠不僅如此，但因為Ceph系統太過“復雜”，導致很多架構師或者技術經理不敢輕易觸碰。

誠然，采納和應用一門新技術，向來不是一個簡單容易的過程，但認識或者理解一門新技術，對于我們這些混跡于IT和互聯網圈的同學，可能從來都不是什么難事兒。

叁

如何快速認識Ceph/CephFS，最簡單的方式就是快速應用它。如果想要理解它的原理，看代碼便是最直接的方式。后面，我們用源碼構建并運行一個小型的Ceph，全面感知下Ceph的魅力。對于了解Docker的同學，可以在容器里進行這個嘗試。

以下演示如何快速編譯并啟動一個管理三塊磁盤的分布式文件系統。圖中Rados Cluster即為構造的Ceph存儲集群， CephFS Kernel Client 是實現Linux VFS標準的內核模塊，兩者通過網絡傳遞磁盤IO。