加快网站平台建设,wordpress怎么加入引导页面,qq教程网站源码,房屋平面设计软件手机版企业级大数据平台建设方案 方案简介硬件软件分布式存储#xff1a;Foreman作为集群管理工具Sparkcloudera 方案简介
该方案是多年前在Roadstar.ai任职时的建设方案#xff0c;现将方案部分细节开源#xff0c;结合本博客的其他文章#xff0c;能够建立可靠的企业大数据平台… 企业级大数据平台建设方案 方案简介硬件软件分布式存储Foreman作为集群管理工具Sparkcloudera 方案简介
该方案是多年前在Roadstar.ai任职时的建设方案现将方案部分细节开源结合本博客的其他文章能够建立可靠的企业大数据平台。 硬件
自组双路Xeon E5 64GB SSD250GB 10TB*24 万兆电口 峰值功率~800W 软件
OSCentos7安装到SSD上 存储方案ZFS raidz2(双奇偶校验) 1 hot spare disk(1热备盘)
注意zfs需要0.7x版本以上0.7x解决了两个主要问题 1hot spare(热备)不能在有盘故障的情况下热接入。 2resilver(重同步重同步)太慢 分布式存储
HDFS需要使用3.x的版本erasure code 冗余方案使用EC(纠删码Erasure Coding)104模式(10 个数据块4 个冗余块)需要isa-l加速(英特尔存储加速库)–编译了一个启用native的hadoop。
若机器不足namenode(名字节点)及其backup(备份节点)都和datanode(数据节点)可共用 Foreman作为集群管理工具
Foreman集群管理工具用来管理和自动化物理和虚拟服务器的工具。 Spark
Apache Spark用于大数据处理和分析的快速、通用的分布式计算系统。 cloudera
使用Cloudera部署和管理hadoop集群
CDH 是 Cloudera 公司发布的一个综合性大数据平台它包含了经过 Cloudera 企业级优化和增强的 Apache Hadoop 组件。