太原建设网站的公司,wordpress首页缩略图不显示,搜一搜站长工具,开展农业信息网站建设工作总结作者#xff1a;Wayne Gao, Yi Wang, Jie Chen, Sarika Mehta
Alluxio 作为全球领先的 AI 缓存解决方案供应商#xff0c; 提供针对 GPU 驱动 AI 负载的高速缓存。其可扩展架构支持数万个节点#xff0c;能显著降低存储带宽的消耗。Alluxio 在解决 AI 存储挑战方面的前沿技…作者Wayne Gao, Yi Wang, Jie Chen, Sarika Mehta
Alluxio 作为全球领先的 AI 缓存解决方案供应商 提供针对 GPU 驱动 AI 负载的高速缓存。其可扩展架构支持数万个节点能显著降低存储带宽的消耗。Alluxio 在解决 AI 存储挑战方面的前沿技术在很大程度上推动了大语言模型( LLM )在全球范围内的成功。
“Solidigm 和 Alluxio 联合推出了高效的分布式 AI 缓存方案。通过将 Solidigm 的 D5-P5336 用作读缓存D7-PS1010 用于 checkpoint 写入并搭配 Alluxio 的低操作开销解决方案我们帮助客户实现了大规模 AI 场景下成本和性能的最佳平衡。优化后的方案充分利用了Solidigm D7-PS1010 Gen5 TLC SSD 的写入带宽和 D5-P5336 Gen4 QLC SSD 的读取带宽同时将 TLC 和 QLC SSD 的写放大系数保持在 1.02。我们希望与 Alluxio 一道持续为客户提供高效、低成本的AI 解决方案。” - Greg MatsonSolidigm 战略规划与营销高级副总裁。
Alluxio DORA 缓存架构的核心优势 DORA(Decentralized Object Repository Architecture 的缩写 )是 Alluxio 的新一代架构。
作为分布式缓存存储系统DORA 具有低延迟、高吞吐量和节省成本的特点同时旨在为 AI 工作负载提供高性能的数据访问层。
DORA 利用去中心化存储和元数据管理来提供更高的性能和可用性以及可插拔的数据安全和治理从而提高大规模数据访问的可扩展性和管理效率。
DORA 的架构目标
可扩展性可扩展性是 DORA 的首要目标旨在支持数百亿个文件从而满足数据密集型应用如 AI训练的需求。高可用性DORA的架构设计考虑了高可用性具有99.99%的正常运行时间并可以防止在 master 出现单点故障。性能性能是 DORA的核心目标它优先考虑模型训练、模型服务的速度以及用于 AI 工作负载的GPU 利用率。
DORA 架构包含四个重要组件服务注册( service registry )、调度器( scheduler )、客户端( client )和 worker。这些组件共同管理服务发现、分布式负载调度和数据存储等任务同时维持整个系统的最佳性能。
NVMe 存储相关技术亮点
1. 页数据存储能够利用 SSD 的最大性能并保持最佳的写放大系数WAF和耐用性
DORA 使用经严格测试的页存储模块进行缓存存储从而可以更精细地缓存大文件上的小至中等规模的读取请求。这种可靠的页存储技术已在 Meta、Uber 和 TikTok 等应用中得到验证。DORA 的细粒度缓存使得读放大情况降低到原先的1/150并使得文件随机读性能提高了 15 倍。
页数据存储通过日志文件系统将数据分成两级目录包含固定大小的大文件块。所有写操作都附加到这些文件块中而当其中的对象文件被标记为删除时只有在不需要这些文件时才会删除。这种设计确保了即使在使用 PCIe 5.0 TLC SSD 时也能实现最佳性能 同时也保持 SSD 的写放大系数WAF为 1从而最大限度提高 SSD 的耐用性。
例如 当使用 QLC SSD 进行 Alluxio 读缓存时存储引擎会充分利用 QLC 的耐用性不会导致任何内部写放大或垃圾回收写放大从而确保 QLC NVMe SSD 的高效运行。
2. 去中心化的元数据存储
DORA 将元数据传递给每个 worker确保元数据始终可访问且可用。为了优化元数据访问DORA 对元数据条目使用两级缓存系统。第一级缓存是内存缓存它将元数据条目存储在内存中。此缓存具有可配置的最大容量和有效时间 ( TTL ) 设置可设置过期时限。第二级缓存是持久化缓存通过RocksDB 将元数据条目存储在磁盘上。持久化缓存具有无限容量具体取决于可用磁盘空间并且还使用基于 TTL 的缓存驱逐策略防止主动同步或主动失效。存储的元数据类似页存储也是基于完整的 UFS 路径的哈希值来确定分发到哪个 Dora Worker。
内存和持久化缓存的组合有助于确保元数据能够随时可用且可访问同时还可以高效利用系统资源。元数据的去中心化避免了在元数据主要由 master 节点来管理的架构中可能出现的瓶颈。由于每个 DORA worker 节点可存储多达 3000 万至 5000 万个文件, 整个系统便可以支持拥有数百亿文件的大规模数据密集型应用。
经 Solidigm 验证 内存元数据设计与 RocksDB 的组合提供了最佳的元数据存储解决方案。该设计充分利用了 PCIe 4.0 QLC SSD ( 读取 7GB/s写入 3GB/s 和 PCIe 5.0 TLC SSD 读写均为 14.5GB/s 的读写性能。此外RocksDB 通过跳表 skiplist-based ) 写缓存将许多小的写入合并为较大的2MB 顺序写这种方式极其高效有助于将 SSD 写放大系数WAF最小化进一步提升 SSD 的耐用性。
性能测试:Alluxio 搭配 Solidigm™ 的 D7-PS1010 和 D5-P5336
测试配置 在最近一项实验中( Solidigm D7-PS1010 和 D5-P5336 SSD搭配 Intel Gen5 BNC 存储服务器 )Alluxio 展现其在数据快速摄取以及读性能方面的优势特别是在 GPU 扩容的情况下。部署 Alluxio 后取得的显著成效
缓存加载效率: Alluxio 缓存引擎在写入 PCIe 5.0 TLC SSD 时能够有效跑满 UFS QLC 存储的最大读取带宽。Fuse 读取测试: Alluxio 的 FUSE 框架几乎跑满单个 PCIe 5.0 SSD 的读取带宽显示处理 NVMe SSD缓存命中时的开销极低。
为了能够快速部署我们设置了一个单节点测试来展示 Alluxio 存储引擎的强大性能。Alluxio 的最大优势在于能够利用主机侧的分布式复制缓存可随着 GPU 扩展并显著降低南北向存储带宽开销。即使在单节点配置下Alluxio 也表现出超高的效率尤其是在搭配高性能 NVMe SSD 时。在此次测试中我们将缓存配置为使用 PCIe 5.0 TLC 或 PCIe 4.0 QLC而底层文件存储( UFS )使用了 PCIe 4.0 QLC。
重要结论
Alluxio 的缓存加载引擎十分高效能够跑满 UFS QLC 的最大读取带宽并将数据摄入到 PCIe 5.0 TLC 缓存 SSD中。即使 UFS 支持 10GB/s 的读取带宽Alluxio 也能轻松地跑满 Solidigm D7-PS1010 9.3GB/s的写入带宽。Alluxio 的页缓存存储引擎基于 XFS 日志文件系统并使用 Solidigm Alluxio FIO仿真器进行了严格的使用寿命测试。测试结果表明无论使用 TLC 还是 QLC SSDAlluxio 都能实现 1.02 的写放大WAF 。这种接近理想的 WAF1的效果能让 SSD 的性能和耐用性最大化为终端用户提供最佳性能。
重要结论
FUSE 的读开销极小。当执行 FUSE 读取在 SSD 缓存上 100%缓存命中并且绕过 DRAM 页缓存时FUSE 框架几乎可以跑满单个 PCIe 5.0 SSD 的读带宽速度达到 14.8 GB/s。 对于寻求高效缓存方案的客户来说Solidigm 的 61.44TB QLC 是理想选择。Alluxio 的存储引擎对于写放大十分友好作为以读取为主的缓存其写入量极少使得 QLC 完美适配其读缓存路径。鉴于 Alluxio 的高效设计我们可以根据 213 PB 的顺序写总量 PBW来估算 QLC 缓存设备的耐用性这也意味着 Solidigm 支持写入高达 213PB 的数据。即使在 5 年周期内以 50% 的使用率已是较高的阈值计算QLC 仍能支持 2900 MB/s 的写带宽几乎达到其最大值。此外QLC 每块 SSD 可提供高达 6GB/s 的随机读带宽实现高性价比的 Alluxio AI 缓存系统。
Solidigm SSD 如何为 Alluxio 提供合适的存储
就读缓存而言Solidigm D5-P5336 61.44TB QLC 提供了卓越的性能和可扩展性。对于 checkpoint 写入而言PCIe 5.0 D7-PS1010 提供了一流的写性能。
“我们与 Solidigm 团队紧密合作验证了将 Alluxio 分布式缓存技术与 Solidigm SSD 和 NVMe 驱动联合用于 AI 模型训练工作负载的性能优势。通过这次合作我们进一步优化了 Alluxio通过充分发挥 Solidigm 驱动的优势将大规模 AI 工作负载的 I/O 吞吐量最大化。” Alluxio 工程副总裁杜璿表示“我们期待与 Solidigm 继续开展这项重要合作共同为我们的客户提供高性能、高成本效益的解决方案帮助客户构建、训练和部署大规模 AI 模型。”
Alluxio 和 Solidigm 的合作成果表明Solidigm TLC 和 QLC SSD 都能显著提升 Alluxio 的服务同时降低运营成本。此外Solidigm 还提高了质量和可靠性标准并由专门的客户服务团队为 Alluxio 提供出色的支持。