团购网站营销方案,泉州市华泰建设工程有限公司网站,湖北网站建设公司哪家好,网站专题报道页面怎么做的文章目录 一、数据湖概念1、企业对数据的困扰2、什么是数据湖3、数据中台、数据湖、数据仓库、数据集市的区别 网上看了好多有关数据湖的帖子#xff0c;还有数据中台、数据湖、数据仓库、数据集市的区别的帖子#xff0c;发现帖子写的都很多#xff0c;而且专业名词很多还有数据中台、数据湖、数据仓库、数据集市的区别的帖子发现帖子写的都很多而且专业名词很多不是一般人还真的看不懂。
下面我以简单的语言总结概括一下
一、数据湖概念
1、企业对数据的困扰
数据孤岛数据分散度过高无法集中利用解决方案可以通过ETL等程序将各个数据孤岛的数据抽取到数仓进行集中分析
数据价值的提升数据增长太快导致原本遗忘在角落中的数据慢慢有了价值
非结构化数据分析数仓只适合处理结构化数据不适合处理非结构化数据
想要海量保留原始数据由于大规模存储的成本以及大数据技术尚未发展起来的原因造成企业对于数据的存储都是精简的无法大量长期保存原始数据 企业的要求 1、数据的集中存储可以解决数据孤岛 2、成本可控、维护简单 3、可以存储任意结构的数据 4、能够支持大多数框架比如sparkflink等 而为了迎合这种需求提出了数据湖的概念
2、什么是数据湖
一句话总结一种能够满足海量存储和海量分析的系统架构方案不是数据库也不是技术架构是一种概念、一种方案和思路 切记数据湖不是框架也不是技术的实现只是一种思想一种方案
3、数据中台、数据湖、数据仓库、数据集市的区别
具体区别看下面一张图即可 写时模式数据写入前已经定义好Schema更改Schema成本高 读时模式数据在利用的时候再定义Schema灵活方便比如SparkSQL 所以在数据湖的实现方案中SparkSQL占了很大份额
以AWS亚马逊旗下的一个平台为例简单说明一下数据中台和数据仓库的区别