dede网站白屏,网站策划就业前景,楚雄市住房和城乡建设局门户网站,湖北正规网站建设质量保障一、Apache Hadoop入门
1.1、Hadoop介绍
狭义上#xff1a;hadoop指的是Apache一款java开源软件#xff0c;是一个大数据分析处理平台。 Hadoop HDFS#xff1a;分布式文件系统。 解决了海量数据存储问题。 Hadoop Distributed File System (HDFS™)Hadoop MapReducehadoop指的是Apache一款java开源软件是一个大数据分析处理平台。 Hadoop HDFS分布式文件系统。 解决了海量数据存储问题。 Hadoop Distributed File System (HDFS™)Hadoop MapReduce分布式计算框架。解决海量数据计算问题。 parallel processing of large data sets. Hadoop YARN集群资源管理和任务调度。 A framework for job scheduling and cluster resource management.#资源指的是和程序运行相关的硬件资源
cpu ram内存#任务调度
集群资源繁忙的时候 如何分配资源给各个程序 调度
调度的关键是策略先来后到 权重 广义上Hadoop指的是hadoop生态圈。 提供了大数据的几乎所有软件。
采集、存储、导入、分析、挖掘、可视化、管理...
1.2、Hadoop起源发展 Hadoop之父--Doug Cutting 卡大爷 起源项目Apache Nutch。 致力于构建一个全网搜索引擎。
1、爬取互联网网页 ---存储在哪里 海量数据存储问题2、基于网页创建倒排索引。---如何计算 海量数据计算问题 Google也在做搜索也遇到这些问题内部解决了。 google不想开源软件但是又憋的难受怕被人不知道写论文发表。 前后写了3篇论文谷歌是使用c实现的。 谷歌分布式文件系统GFS------HDFS 谷歌版MapReduce 系统------Hadoop MapReduce bigtable----HBase 基于论文的影响 Nutch团队实现了相应的java版本开源组件。 Nutch团队把HDFS和MapReduce抽取独立成为单独软件在2008年贡献给了Apache。开源。 Doug Cutting 看到他儿子在牙牙学语时抱着黄色小象亲昵的叫hadoop他灵光一闪就把这技术命名为 Hadoop而且还用了黄色小象作为标示 Logo。
1.3、Hadoop特性优点 分布式、扩容能力 不再注重单机能力 看中的是集群的整体能力。 动态扩容、缩容。 成本低 在集群下 单机成本很低 可以是普通服务器组成集群 意味着大数据处理不一定需要超级计算机。 高效率 并发能力 可靠性 通用性 #技术是相同的 业务不相同的 #hadoop精准区分技术和业务。 做什么?(what need to do)----业务问题20% 怎么做?(how to do)-----技术问题80% Hadoop把技术实现了 用户负责业务问题。 原来大数据这么简单 可以这么玩。 结语笔者能力有限欢迎大家多多指教。