当前位置: 首页 > news >正文

网站用户需求报告昆山建设网站公司

网站用户需求报告,昆山建设网站公司,广告传媒公司起名,福田企业网站优化方案目录 一、大数据概论 1.大数据的概念 2.大数据的特点 3.大数据应用场景 二、Hadoop概述 1.Hadoop定义 2.Hadoop发展历史 3.Hadoop发行版本 4.Hadoop优势 5.Hadoop1.x/2.x/3.x 6.HDFS架构 7.Yarn架构 8.MapReduce架构 9.大数据技术生态体系 一、大数据概论 1.大数…目录 一、大数据概论 1.大数据的概念 2.大数据的特点 3.大数据应用场景 二、Hadoop概述 1.Hadoop定义 2.Hadoop发展历史 3.Hadoop发行版本 4.Hadoop优势 5.Hadoop1.x/2.x/3.x 6.HDFS架构 7.Yarn架构 8.MapReduce架构 9.大数据技术生态体系 一、大数据概论 1.大数据的概念 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决海量数据的采集、存储和分析计算问题。 顺序存储单位bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byte8bit1KB1024Byte1MB1024KB...... 2.大数据的特点 ①Volume大量典型个人计算机硬盘容量为TB量级一些大型企业可以达到EB量级。 ②Velocity高速根据IDC的数字宇宙报告预计2025年全球数据使用量可以达到163ZB。 ③Variety多样数据可以分为结构化数据和非结构化数据。结构化数据主要以便于存储的数据库/文本为主非结构化数据包含了网络日志、音频、视频、图片、地理位置信息等多类型数据对于数据的处理能力具有更高要求。 ④Value低价值密度价值密度的高低与数据总量大小成反比。快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。 3.大数据应用场景 抖音、电商广告推荐、零售策略、保险海量数据挖掘及风险预测...、金融多维体现用户推荐、人工智能5G物联网方面等。 二、Hadoop概述 1.Hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题。 广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2.Hadoop发展历史 ①Hadoop创始人Doug Cutting为实现Google类似的全文搜索功能在Lucene框架基础上进行优化升级查询引擎和索引引擎。 ②2001年底Lucene成为Apache基金会的一个子项目。 ③对于海量数据的场景Lucene框架面对与Google同样的困难存储海量数据困难检索海量速度慢。 ④学习和模仿Google解决这些问题的办法微型版Nutch。 ⑤Google是Hadoop的思想源泉 ⑥2003-2004年Google公开GFs和MapReduce思想细节Doug Cutting等人使用两年时间实现使Nutch性能飙升。 ⑦Hadoop作为Lucene子项目Nutch一部分正式引入Apache。 ⑧2006年Map-Reduce和Nutch Distributed FileSystem纳入Hadoop项目Hadoop正式诞生。 3.Hadoop发行版本 Apache2006、Cloudera2008、Hortonworks2011。 4.Hadoop优势 ①高可靠性Hadoop底层维护多个数据副本即使Hadoop某个计算元素或存储出现故障也不会导致数据丢失。 ②高扩展性在集群间分配任务数据可方便的扩展数以千计的结点。可动态增加和删除服务器。 ③高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。可以实现集群工作。 ④高容错性能够自动将失败的任务重新分配。就是在执行过程中如果遇到任务无法执行将会把这个失败的任务重新分配到其他服务器这个被分配的服务器需要具有相关资源。 5.Hadoop1.x/2.x/3.x ①Hadoop1.x组成 MapReduce计算资源调度 HDFS数据存储 Common辅助工具 ②Hadoop2.x组成 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具 ③Hadoop3.x组成组成上和2.x相同但是细节方面存在差异。 MapReduce计算 Yarn资源调度 HDFS数据存储 Common辅助工具 6.HDFS架构 Hadoop Distributed File System简称HDFS是一个分布式文件系统。 ①NameNodenn存储文件的元数据如文件名、文件目录、文件属性生成时间、副本数、文件权限以及每个文件的块列表和块所在的DataNode等。 ②DataNodedn在本地文件系统存储文件块数据以及块数据的校验和。 ③Secondary NameNode2nn每隔一段时间对NameNode元数据备份。 7.Yarn架构 Yet Anothor Resource Negotiator简称YARN是一种资源协调者是Hadoop的资源管理器。 ①ResourceManagerm整个集群资源内存、CPU等的总负责。 ②NodeManagernm单个节点服务器资源总和。 ③ApplicationMasteram单个任务运行的总和。 ④Container容器相当于一台独立服务器里面封装了任务运行所需要的资源比如内存、CPU、磁盘、网络等。一个Container可以运行1-8g内存。 Tips客户端可以有多个集群上可以运行多个ApplicationMaster每个NodeManager可以有多个Container执行。 过程client提交作业给ResourceManagerResourceManager进行节点服务器分配在ResourceManager中创建Container在Container里面运行任务。 8.MapReduce架构 MapReduce将计算过程分为两个阶段Map和Reduce。 Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总。 9.大数据技术生态体系 数据库结构化数据→Sqoop数据传递→HDFS文件传输→Yarn资源管理... 文件日志半结构化数据→Flume日志收集→HDFS文件传输→HBase非关系型数据库→Yarn资源管理... 视频、PPT等非结构数据→Kafka消息队列...
http://www.w-s-a.com/news/444091/

相关文章:

  • 电商 网站 降低 跳出率 措施 效果书画院网站模板
  • 兰州移动官网网站建设上海工商网上公示系统
  • 在招聘网站里做电话销售免费空间可以上传网站吗
  • 梅州建站怎么做中国建设银行官网下载
  • 网站静态化设计广州网站备案方案
  • 西安网络技术有限公司网站扬中网站建设方案
  • 青海省教育厅门户网站wordpress core
  • idc科技公司网站模板蜜雪冰城网络营销案例分析
  • 微信与网站对接手机软件怎么做
  • 户县网站建设珠海专业制作网站
  • 麦当劳的网站优化建议猎头公司工作怎么样
  • 合肥地区网站制作网页浏览器打不开
  • 做网站的不给ftp网站如何做触屏滑动
  • wordpress statraq重庆百度优化
  • 企业网站官网英文WordPress站点切换为中文
  • 服装公司网站定位一点号自媒体平台
  • 密云微网站建设汽车之家手机官网首页
  • 多语言外贸网站制作苏州建设网站微信公众号
  • 用wordpress建站学什么百度给企业做网站吗
  • 福建城乡建设网站做数码测评的网站
  • 东海县建设局网站wordpress 好用的主题
  • 网站图片设计制作制作一个门户网站需要多少钱
  • 虚拟币交易网站源码自己给网站做支付接口
  • 免费的seo网站在线 crm
  • 绍兴市高速公路建设指挥部网站网站主页和子页风格如何统一
  • 获取网站状态网站租金可以做办公费吗
  • 网站开发执行什么标准号wordpress主题 表白
  • 杭州网站推广与优化凡科网是免费的吗
  • 公司网站的重要性门户网站推广介绍方案
  • 做金融网站看那些素材江门网红打卡景点蓬江区