邵阳网站seo,wordpress有名的网站,sns有哪些著名的网站,at结尾网站1、HDFS中名称节点的启动过程
名称节点在启动时#xff0c;会将FsImage 的内容加载到内存当中#xff0c;此时fsimage是上上次关机时的状态。然后执行 EditLog 文件中的各项操作#xff0c;使内存中的元数据保持最新。接着创建一个新的FsImage 文件和一个空的 Editlog 文件…1、HDFS中名称节点的启动过程
名称节点在启动时会将FsImage 的内容加载到内存当中此时fsimage是上上次关机时的状态。然后执行 EditLog 文件中的各项操作使内存中的元数据保持最新。接着创建一个新的FsImage 文件和一个空的 Editlog 文件名称节点启动成功。在运行过程中HDFS 中的更新操作都会被写人 EditLog而不是直接被写入Fslmage所以在本次关机时fsimage的内容仍是上次关机时的状态只有下次开机时才会一步步执行editlog更新fsimae为本次关机时的状态。
2、三级寻址 当要访问数据时客户端首先在自己的缓存中查找是否有所需region的位置信息若有则直接前往访问若没有则三级寻址首先访问 ZooKeeper获取-ROOT表的所在Region服务器的位置信息然后访的-ROOT-表获得.META.表所在Region服务器的信息接着访问.META.表找到所需的 Region 具体位于哪个 Regio服务器最后到该 Region 服务器读取数据。
**读写数据 读先在memstore查找没有找到再去storefile查找 写先写入memstore和hlogmemstore缓存满时才刷新写入磁盘
3、HLog的工作原理
每个region服务器配置了个HLog文件写入用户更新数据必须首先被记入HLog日志才能写入 MemStore 缓存。刷新直到 MemStore缓存内容对应的HLog日志已经被写入磁盘之后该缓存内容才会被刷新写入磁盘。故障 Master 主服务器首先会处理该故障 Region 服务器上面遗留的 HLog 文件根据HLog每条日志记录所属的 Region 对象对 HLog 数据进行拆分将失效的 Region与该 Region 对象相关的HLog日志记录重新分配到可用的 Regien 服务器中。Region服务器接收到region及与之相关的hlog日志后会重新做一遍日志记录中的操作把日志记录中的数据写入MemStore缓存然后刷新到磁盘的StoreFile 文件中完成数据恢复。
4、NoSQL四大类型的特点及代表产品
都具有良好的可扩展性
键值数据库使用keyvalue键值对存储由key可以定位value只可以通过键来进行查询。优点是大量写操作的性能好缺点是条件查询效率低无法存储结构化数据。可分为内存键值数据库和持久化键值数据库代表产品redis就是一种内存键值数据库。文档数据库通过键来定位一个文档不仅可以通过键来构建索引也可以通过文档内容也就是值来构建索引两个特点一个是文档自描述文档自身包含了其结构或模式的信息如xmljasonhtml第二个是文档自包含文档自己包含了与其相关的所有信息方便迁移。优点是复杂性低灵活性高缺点是缺乏统一的查询语言。MongoDB列族数据库以列族为单位进行存储每行数据包含多个列族优点是复杂性低查找速度快缺点是大多不支持强事务一致性。HBaseBigTable图数据库图作为数据模型来存储数据处理高度相互关联的数据有些甚至完全兼容ACID原子性一致性隔离性持久性如代表产品Neo4J优点是灵活支持复杂图计算缺点是复杂性高只能支持一定的数据规模。
5、Map端的shuffle过程并画图展示 1. 输入数据来自分布式文件系统执行map任务将输入的一个键值对转化为输出的多个键值对将输出结果写入缓存当缓存满时启动溢写操作将缓存的数据写入磁盘包含对键值对的分区用哈希进行分区排序根据key进行排序合并可选的将具有相同键的值加起来在map任务全部结束之前将所有溢写文件进行归并将具有相同键的值归在一起形成新的值形成一个大的磁盘文件本地通知相应的reduce任务来领取属于自己分区的数据
6、Reduce端的shuffle过程并画图展示
从不同map机器领取回来所有属于自己分区的数据对多个数据文件进行归并如果缓存被占满也会像map端一样执行溢写最终将所有溢写文件进行归并把数据输入给reduce任务输出结果保存到分布式文件系统
7、Mapreduce的6个执行阶段 8、YARN体系结构中有哪些组件各组件的功能
ResourceManager有两个组件resourceschedule负责处理客户端请求、监控NodeManager、资源的分配与调度applicationmanager负责applicationmaster的启动、监控、容错ApplicationManager负责为应用程序申请资源并分配给内部map或reduce任务负责任务的调度、监控、容错NodeManager负责接收来自RM和AM的命令负责单个节点上的资源管理
9、云计算、大数据、物联网三者的关系 10、HDFS HA实现原理 设置两个名称节点其中一个名称节点处于“活跃”状态另一个处于“待命”状态在HDFS HA中处于待命状态的名称节点提供“热备份”也就是一旦活跃名称节点出现故障就可以立即切换到待命名称节点这需要两个NN内存状态一致。以下两点保证1、借助共享存储系统活跃NN将更新数据写入共享存储系统待命NN一直监听该系统一旦发现有新的写入就立即读取这些数据并加载到自己的内存中。2、每个DN向向两个NN发送心跳报告自己所存块的映射信息。另外ZooKeeper保证只有一个NN生效。
11、第二名称节点辅助名称节点进行fsimage和editlog合并过程
替换每隔一段时间第二名称节点会和名称节点通信请求其停止使用 EdiLog 文件暂时将新到达的写操作添加到一个新的文件 EditLog.new 中。合并第二名称节点把名称节点中的 Fslmage 文件和 EdiLog文件拉回本地在内存中逐条执行EdiLog中的操作使 Fslmage 保持最新。发回合并结束后第二名称节点把新的 Fslmage文件发回给名称节点名称节点用该新的FsImage替换旧的 Fslmage 文件用 EditLog.new 文件去替换 Editog 文件从而减小了 EditLog 文件的大小。
12、HDFS采用块block的方式来存储数据的优势有哪些?
支持大规模文件存储不受单个节点容量限制简化系统设计块的大小固定简化存储管理且元数据和文件块分开存储方便元数据管理适合数据备份每个文件块可以冗余存储到多个节点上提高系统容错。
13、spark与hadoop对比 14、RDD运行过程简述 15、sparkstreaming和storm的对比 15、impala和hive的对比 16、hive、pig、hbase的对比
pig是一种数据流语言常作为ETL工具将外部数据转换为用户需要的数据格式再使用hive进行数据分析工作生成bi报表。hbase数据实时访问有自己的数据模式