广州网站优化关键词排名,网站要精细是什么意思,山东城市建设招生网站,网站建设要些什么新的一年我们加紧了更新迭代的速度#xff0c;增加了数据湖平台EasyLake和大数据基础平台EasyMR#xff0c;超40项功能升级优化。我们将继续保持产品升级节奏#xff0c;满足不同行业用户的更多需求#xff0c;为用户带来极致的产品使用体验。
以下为袋鼠云产品功能更新报…新的一年我们加紧了更新迭代的速度增加了数据湖平台EasyLake和大数据基础平台EasyMR超40项功能升级优化。我们将继续保持产品升级节奏满足不同行业用户的更多需求为用户带来极致的产品使用体验。
以下为袋鼠云产品功能更新报告第四期内容更多探索请继续阅读。
数据湖平台
1.【元数据管理】Catalog创建
在【元数据管理】页创建一个Catalog填写Catalog名称、Hive MetaStore、Spark Thrift。
一个Calalog只允许绑定一个Hive MetaStoreSpark Thrift用于Iceberg表创建、数据入湖转表任务用户可以使用Calalog进行业务部门数据隔离。 2.【元数据管理】Database创建
在【元数据管理】页创建一个Database绑定Calalog。 3.【元数据管理】Iceberg表创建
• 在【元数据管理】页创建一个创建一张Table选择Table所在的Catalog、Database目前只支持Iceberg湖表创建
• 设置表普通列支持对普通列字段设置主键可以用作湖表的唯一标识
• 选择普通列字段作为分区字段支持多种转换函数timestamp数据类型字段支持时间字段按照年、月、日和小时粒度划分区
• 支持行组级索引设置选择普通列作为索引字段设置Bloom索引
• 自定义高级参数设置。 4.【元数据管理】Iceberg表快照管理
支持快照历史管理支持多版本间快照变更对比支持湖表时间旅行可一键回滚到指定数据版本。 5.【数据入湖】支持Hive转Iceberg表实现Hive表入湖
在【数据入湖】页创建一个入湖任务选择Parquet、ORC、Avro格式Hive表进行转表入湖一键生成湖表信息. 6.支持小文件合并、孤儿文件清理、过期快照清理
在【数据文件治理】-【任务模板】页新建任务模板支持小文件合并、快照清理、孤儿文件清理等数据文件治理任务支持立即支持、预约治理、周期治理多种数据治理方式。 大数据基础平台
1.【全局】使用主机名作为机器唯一标识
• EM平台产品上变更为以主机名Hostname作为唯一标识对主机进行管理
• 主机间通信默认为IP通信可在【平台管理】-【通信配置】页进行通信方式切换。 2.功能优化
• 告警新建告警通道出现异常时dtalert和grafana告警通道不一致
• 告警dtalert挂载目录与上传jar包目录不一致
• 告警添加自定义告警通道保存后编辑上传jar包不显示
• Hadoop安全EM开启Hadoop安全服务未重启直接显示开启成功
• 备份优化EM备份管理查询优化
• redis角色获取redis运行正常但是角色获取信息有误导致部署其他服务无法正确获取redis角色状态
离线开发平台
1.数据开发IDE中可限制数据查询条数
用户痛点数据开发页面的临时运行没有限制数据结果查询条数极端情况下有把系统磁盘打满的风险。
新增功能说明所有SQL类型任务运行按钮右侧新增了数据查询条数输入框默认查询条数为1000条上限最大值为1000000条最高上限为配置项可在后台配置。 2.数据预览全局管控功能对接
数据源中心新增数据预览全局管控开关
• 可进行子产品和项目的数据预览全局管控
• 可进行单个数据源的数据预览管控 3.FTP作为目标数据源支持4种写入模式
• append按文件名称覆盖写入
• overwrite先清空目录下的文件然后写入
• nonconflict按文件名称查找存在同名文件则报错不存在同名文件则可正常写入
• insert文件追加写入存在同名时通过添加后缀的方式修改新文件的文件名称 4.运行超时中断
任务支持设置超时时间运行时间超过此时间时后台会自动杀死。 5.数据同步通道控制页面支持配置高级参数 6.其他新增功能项
• Inceptor表接入数据地图Inceptor已数据地图中支持元数据查询、数据脱敏、血缘展示等功能
• 支持Flink Batch任务类型
• HBase REST API支持数据同步读取
• Sybase 支持数据同步读取。
7.补数据优化
• 补数据支持三种补数据模式单任务补数据、在任务管理列表按筛选条件筛选批量任务补数据、按任务上下游关系选择多个任务补数据
• 多个在同一依赖树但彼此之间存在断层/不直接依赖的任务所生成的补数据实例仍将按原依赖顺序执行
• 支持选择是否关闭重试
• 补数据支持选择未来时间。
8.告警规则任务选择方式优化
支持按项目全选任务或按任务管理目录全选目录下任务。 9.整库同步功能优化
• 整库同步支持选择Oracle MySQL DB2 Hive TiDB PostgreSQL ADB Doris Hana 作为整库同步目标端
• 高级设置能查看历史配置针对同一数据源和schema能记录高级设置的规则内容。 10.Greenplum任务调整
• Greemplum SQL 和 Inceptor SQL 临时运行复杂SQL和包含多段SQL时运行逻辑从同步运行修改为异步运行
• 表查询中可查看Greenplum元数据信息
• 支持语法提示。
11.数据同步至HDFS时支持指定文件名称
用户痛点历史写HDFS时指定文件名实际是指定的叶子目录名称实际无法指定文件名称。
体验优化说明在高级配置中新增了参数strictMode当参数值为“true”时开启严格模式当参数值为”false“时开启宽松模式。严格模式下指定叶子路径下的文件名仅允许存在一个文件名多并行度、断点续传将不生效。 12.创建项目只允许以英文字母开头
因部分引擎只能创建/读取以英文字母开头的schema例如Trino所以创建项目时项目标识限制为只允许以英文字母开头。
13.发布按钮点击逻辑优化
修改前只有已提交的任务发布按钮才可点击。
修改后所有状态的任务发布按钮均可点击。
14.事件任务文案调整
临时运行需要将参数值传为000000000000。 15.项目级kerberos新增提示 16.数据同步可选表范围优化
用户痛点meta schema对应的数据源和连接用户都是控制台的如果不限制项目里的这个数据源只能选择项目对接的这一个schema相当于每个项目都可以通过数据同步绕过数据权限管控把集群下所有别的项目的schema的表直接同步到当前项目中用这是一个非常大的权限漏洞。
体验优化说明
• 过滤脏数据表
• 针对所有meta schema所对应的数据源固定可选schema的范围仅当前项目对接的schema
• 如果需要在当前项目同步任务里要用到其他schema可以把其他项目的meta schema通过租户管理员授权引入当前项目里用。 17.数据同步实例运行指标展示优化
数据同步任务实例的运行日志优化了同步性能展示方式。 18.其他体验优化项
• 安全审计操作对象“脚本”修改为“临时查询”
• for循环内网络开销调用优化。
实时开发平台
1.自定义Connector
用户痛点随着实时产品客户的增长各种各样的数据源插件需求不断我们希望有开发能力的客户可以不用等产品迭代自行开发插件去使用产品使产品能力越来越开放灵活。
新增功能说明对于ChunJun尚未支持的数据源支持上传【用户自行开发/第三方】的插件包需符合Flink Connector的开发要求平台不校验插件的可用性然后在脚本模式的任务开发中使用。 2.Session模式
用户痛点之前实时任务的调试功能和普通任务一样走的per job模式。虽然该模式可以保障任务运行的稳定性但是整个的提交-申请资源-运行后端处理流程较长不符合调试的功能场景调试不需要持续的稳定性但是需要快速的出结果。
新增功能说明调试任务以session模式运行提高调试效率用户需要先在控制台为实时debug分配slot资源。 3.表管理
用户痛点之前每个实时任务的开发都需要临时映射Flink表开发效率较低之前提供的Hive catalog表管理需要用户维护Hive Metastore对原Hive有一定的入侵。
新增功能说明提供数栈MySQL作为Flink元数据的存储介质提供向导和脚本两种模式维护Catalog-database-table支持在IDE开发页面直接创建、引用Flink库表需要已Catalog.DB.table的方式引用。 4.数据源新增/优化
• 新增GreatDB作为FlinkSQL的维表、结果表
• 新增HBase2.x作为FlinkSQL的结果表
• 新增Phoenix5.x作为FlinkSQL的结果表
• 优化Oracle数据源新增序列管理、clob/blob长文本数据类型支持。
5.脏数据管理
用户痛点原脏数据管理仅支持FlinkSQL任务。
新增功能说明实时采集也支持脏数据管理。 6.功能优化
• 任务运维新增列表过滤器支持按状态、任务类型、责任人等过滤查询
• 数据开发优化任务操作相关按钮的排版IDE输入支持自动联想实时采集脚本模式支持注释。
数据资产平台
1.数据源
• 新增数据源支持
Greenplum、DB2、PostgreSQLV5.3.0
Hive3.x(Apache)、Hive3.x(CDP)、TDSQL、StarRocksV5.3.1
• Meta数据源自动授权支持
Hive3.x(Apache)、Hive3.x(CDP)V5.3.0
TiDBV5.3.1
2.数据地图
• 新增指标指标进数据地图作为资产平台的一类资产
• kafka元数据优化Kafka隐藏表结构新增分区查询tab
• 标签筛选优化标签采集到的任务之前没有根据实体进行区分会出现标签名称相同的情况新增功能为标签添加「所属实体」属性并在快速筛选栏增加实体筛选
• 表标签优化表维度进入时显示「表标签」其他维度显示「标签」各个维度打的标签相互隔离从不同维度进入时不再能看到全部标签。 3.API血缘
实现了表到API、API到API的血缘链路打通。 4.指标/标签血缘
本期把指标标签内部的血缘关系先拿到资产进行展示下一期会实现表到指标、表到标签的血缘关系。 5.血缘优化
• 血缘解析新增truncate关键词当表发生trancate数据清空时表与表之间、表与任务之间的血缘关系需要删除
• 排除自身到自身的血缘以及重复展示的血缘
• 解决线段与表相互覆盖问题直角的血缘流向线段改为弯曲的灰色线支持拖动高亮当前覆盖或点击的表的流入和流出。 6.数据文件治理
将离线侧的数据文件治理迁移到资产侧的数据治理模块并进行优化和兼容治理规则包括周期治理和一次性治理。 7.数据文件治理优化调整
• 周期治理「选择项目」改为「选择数据源」治理范围为可选的meta数据源下拉框排序按照时间进行倒序
• 一次性治理「选择项目」改为「选择数据源」治理范围为可选的meta数据源下的Hive表
• 小文件治理的时间如果超过3小时则治理失败超时的时间条件改为可配置项可由配置文件支持默认为3小时
• 占用存储的统计目标由一个分区/表改为一个文件。 8.元数据同步取消初始化流程
用户痛点V5.2合并改造元数据同步与数据源管理功能拆分之前原有逻辑是在引入数据源后会先进行初始化初始化完成后会一次性拿到所有库表名称进行元数据同步时再去查拿到的库表信息这将占据较多的资源和存储并导致存在较多无用数据如资产盘点加载数据慢等问题。
体验优化说明取消数据源引入之后的初始化流程在元数据同步时实时查询数据源内库表信息。
9.元数据中心耦合关系优化
• 增量SQL优化目前元数据中心的定位基础元数据中心可以支持单独部署但是现在增量SQL无法支持
• 产品权限优化某个客户有资产权限在指标侧调用元数据中心的数据模型没问题但是客户如果没有资产权限调用元数据中心的数据模型就会提示没有权限。
10.数据源插件优化
• 同步全部库表参数实际库表发生变化不传参数数据源插件实时去查库表名称
• binlog关闭后重新开启脚本已停止没有被重新唤起再次开启时需要自动唤起。
11.功能优化
• 脏数据管理默认存储实效为90天全局提示对应修改脏数据管理范围针对当前项目
• 词根匹配准确率提高界面上增加的词根、标准需要加入分词器解决了字段中文名按照分词去匹配出现某些情况下无法匹配的问题。
客户数据洞察平台
1.证券、银行、保险标签体系demo集成
进入标签平台通过弹窗进行demo体验也可通过平台首页上方查看demo按钮进入平台体验demo。 2.【标签管理】支持配置自定义属性
用户痛点目前标签创建时的信息是固定的除了一些通用的属性不同行业客户对标签的元数据信息各有不同如银行客户有定义标签金融安全等级的需求但这个属性不适配基金、零售客户所以要通过标签自定义属性来实现。
新增功能说明
• 在「标签元数据」页面设置自定义属性并可在列表页查看通用属性和自定义属性的元数据信息
• 通用属性中增加标签责任人、业务口径、技术口径字段
• 自定义的属性用于后续创建标签时进行属性设置。 3.【项目管理】移除标签责任人等时指定交接人
【项目管理】移除标签责任人、任务责任人、告警接收人、群组订阅人时指定交接人。 4.【项目管理】Hive表和HBase表支持自定义生命周期
• 支持对标签大宽表进行生命周期设置超期数据可全部删除也可保留每个周期的特定时间的数据 • 保存的标签群组可设置生命周期超期数据可全部删除也可保留每个周期的特定时间的数据 • 存储为物理表的管理科设置生命周期超期数据可全部删除也可保留每个周期的特定时间的数据。 5.数据同步功能优化
• Rowkey预分区功能优化hbase表默认设置预分区且分区数量 30去除作业并发数对分区计算产生的影响
• 作业并发数优化作业并发数输入限制调整为1-100满足业务更多的数据同步效率需要
• 支持设置允许的脏数据条数当产生的脏数据条数超过设置的阈值时作业停止同步、置为失败设置为0或空时表示不允许有脏数据出现。 6.【标签API】支持不指定业务日期查询标签结果
用户痛点标签API查询数据的过程中可能存在因数据同步任务尚未完成导致API无法查询到指定的最新业务日期数据的情况此时会造成业务阻塞为不影响业务正常运行需要对Hbase数据做降级备份处理。
体验优化说明hbase中将备份存储一份同步成功的最新业务日期的最近一次同步成功数据。
API传参时业务日期调整为非必填项
1指定业务日期系统将返回对应业务日期的数据
2未指定业务日期系统将返回备份数据。
7.功能优化
SQL优化数字开头的schema读取问题优化
标签目录标签可以挂在父目录和子目录下
API调用增加pageNo字段。
指标管理分析平台
1.【指标管理】支持生命周期设置 指标hive表支持生命周期设置 指标API支持生命周期设置。
2.【指标管理】支持批量发布
支持批量发布未发布、已下线状态的非自定义SQL指标发布成功后可在指标市场中查询到此指标。 想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友浏览袋鼠云官网https://www.dtstack.com/?srcszcsdn
同时欢迎对大数据开源项目有兴趣的同学加入我们一起交流最新开源技术信息号码30537511项目地址https://github.com/DTStack