当前位置: 首页 > news >正文

建站之星平台本机建的网站打开却很慢

建站之星平台,本机建的网站打开却很慢,同行抄袭公司网站,安徽做网站电话作者#xff1a;武基鹏#xff0c;无锡锡商银行 大数据技术经理 编辑整理#xff1a;SelectDB 技术团队 导读#xff1a;为实现数据资产的价值转化以及全面数字化、智能化的风险管理#xff0c;无锡锡商银行大数据平台经历从 Hive 离线数据仓库到 Apache Doris 实时数据仓…作者武基鹏无锡锡商银行 大数据技术经理 编辑整理SelectDB 技术团队 导读为实现数据资产的价值转化以及全面数字化、智能化的风险管理无锡锡商银行大数据平台经历从 Hive 离线数据仓库到 Apache Doris 实时数据仓库的演进目前已接入数百张实时表、上百数据服务接口 接口 QPS 达到数百万级别解决了离线数据仓库时效性不足、成本高昂、效率低下等问题查询提速超 10 倍为用户提供及时、有效、安全的数据服务及使用体验。 面对大数据、物联网、人工智能等新兴技术给金融行业带来的变革无锡锡商银行将科技能力和大数据能力的发展放在重要位置。为实现数据资产的价值转化以及全面数字化、智能化的风险管理基于“业务线上化、风控数据化、架构平台化”三翼一体的科技布局无锡锡商银行建立了大数据平台以管理每日流入的海量交易记录与信贷申请数据借助用户画像、实时报表、实时风控等应用为用户提供更加及时、有效、安全的数据服务及使用体验。 无锡锡商银行大数据平台经历了基于 Hive 离线数据仓库到基于 Apache Doris 的实时数据仓库演进。通过架构的升级解决了离线数据仓库时效性不足、成本高昂、效率低下等问题实现查询速度 10 倍提升使得银行能够更快感知客户行为及时洞察异常交易行为、识别和预防潜在的风险。本文将详细介绍无锡锡商银行大数据平台演进历程以及 Apache Doris 在实时查询、营销服务、风控服务等场景的落地实践。 基于 Hive 的大数据离线数据仓库 01 需求场景 无锡锡商银行早期建设了大数据离线数据仓库主要服务于数据报送、数据风控、数据运营、即席查询及日常取数等场景需求场景包括且不限于 数据报送客户风险、EAST 报送、1104、大集中、征信报送、利率报备、反洗钱、金融基础数据报送等。数据风控包含对贷款类风控指标、用户行为指标、反欺诈、贷后预警、贷后管理等风险控制。数据运营对 BI 业务报表、管理驾驶舱、行外渠道和行内各系统进行定时批量供数。即席查询及日常取数根据业务需求进行数据分析、数据开发及数据提取。 02 架构及痛点 在早期离线数据仓库中数据主要来源于 Oracle、MySQL、MongoDB、Elasticsearch 以及文件。通过使用 Sqoop、Spark、外部数据源和 Shell 等工具将数据离线抽取到 Hive 离线数据仓库中并在 Hive 中通过 ODS、DWD、DWS 和 ADS 分层处理最终输出结果为应用服务层提供支持。 近些年随着无锡锡商银行业务的发展与扩张相关业务部门对数据处理的要求也越来越高离线数据仓库已无法满足新的需求主要体现在 数据时效性不足离线数据仓库使用离线抽取的方案数据时效性为 T1而报表、数据大盘、营销指标、风控变量要求数据实时更新当前架构无法满足。数据查询效率低需满足秒级别、毫秒级的查询响应。离线数据仓库执行引擎主要是 Hive 及 SparkHive 执行时会将查询分解为多个 MapReduce 任务并需读取和写入 HDFS 中的数据执行时长一般为分钟级别严重影响查询效率。维护成本高离线数据仓库底层涉及技术栈繁多 包括 LDAP、Ranger、ZooKeeper、HDFS、YARN、Hive、Spark 等多个系统这将导致较高的系统维护成本。虽然线上也有 HBase Phoenix 的实时存储与服务但由于其组件比较“重”、社区不活跃且某些特性无法满足实时场景需求仍然不能完全解决当前的问题。 技术选型 面对离线数据仓库时效性不足、查询效率不高多个技术栈带来的维护成本高等痛点实时数据仓库的构建势在必行。在对多个 MPP 数据库进行深入的调研后无锡锡商银行决定以 Apache Doris 为核心构建实时数据仓库平台。这一技术选型旨在确保平台在数据写入、查询及服务层面均能满足实时业务分析的高要求。选择 Apache Doris 的理由如下 高效数据更新 Apache Doris Unique Key 支持大批量数据更新、小批量数据实时写入以及轻量化表结构的修改。尤其在处理大量数据和分区时能够有效避免庞大的修改量和修改不准确的问题从而提供更加便捷实时的数据更新。低延时实时写入 支持秒级别的数据实时写入、更新和删除支持主键表模型写时合并可实现微批高频实时写入并且支持主键模型 Sequence 列设置可保证数据导入过程中的有序性。查询性能优异 Apache Doris 多表 Join 能力强大依托向量化执行引擎、CBO 查询优化器、MPP 架构、智能物化视图等功能能够实现海量数据的毫秒级查询响应满足即查即走的数据查询要求。同时 Apache Doris 2.0 版本支持行列混存在点查询场景可以实现数万并发的毫秒级响应。平台极简易用 兼容 MySQL 协议并提供丰富的 API 接口能够降低上层应用的使用难度。同时Apache Doris 架构精简只有 FE 和 BE 两进程节点扩缩容简单、集群管理和数据副本管理均支持自动化具备部署简单、使用成本及运维成本低的特点。 引入 Apache Doris 搭建大数据实时数据仓库 2022 年 4 月无锡锡商银行引入 Apache Doris 构建实时数据仓库平台。考虑到银行数据规模非常庞大接入实时数据的同时再从业务库同步全量历史数据难度较大因此初期实时数据搭建主要依托于离线数据。 首先采用 HDFS Broker 方式高效初始化历史实时数据同时借助采集工具 DataPipeline 将数据实时采集至 Kafka 集群中再由 Flink 写硬编码模式将数据实时写入 Apache Doris 中。最后借助飞流平台的接口服务能力将 Apache Doris 作为统一存储与查询引擎为各业务线提供服务。 飞流平台是无锡锡商银行为应对未来实时业务场景而构建的统一综合平台主要包含实时采集、实时同步工具、实时数据仓库、实时计算以及数据服务。 01 完善数据流转链路 从银行数据特性出发结合 Apache Doris 功能优势无锡锡商银行重新思考并完善了数据流转链路 从离线数据仓库同步历史数据风险最小化 文提到由于银行数据的庞大规模如果直接从 Oracle 与 MySQL 同步全量历史数据会导致大量数据流经过防火墙和交换机引发其他业务请求阻塞和服务超时等问题。为了避免这些潜在的风险和问题首先基于 Oracle 与 MySQL 批量构建 Doris 表结构然后使用 HDFS Broker 从离线数仓 Hive ODS 层同步 T-1 全量数据到 Doris 中从而实现风险最小化。实时增量抽取更安全抽取模式 实时抽取会产生极少量的磁盘 IO、内存、CPU 消耗为了避免对业务主库有影响默认认情况下一般会选择从业务从库或同城灾备库实时抽取。而针对时效性要求较高的业务需求需要充分评估才能从业务主库抽取数据。构建 Kafka 层保证数据一致性 建立 Kafka 层作为数据中间传输层以确保数据的有序性和一致性。通过将 Datapipeline 发送的数据的 Key 配置为 Database-Table-PK并按照同一个维度有序地发送到 Kafka Topic 的某个分区Partition。由于 Kafka Topic 各自分区内部是有序存储的因此下游的消费者可以按照顺序处理数据避免乱序情况对实时数据仓库数据准确性的影响。此外Kafka 层可作为数据公共层可开放给营销类、风控类业务等场景使用。数据实时写入保证数据不丢不重 在实际应用场景中离线链路在 T-1 日的晚上 11 点至早上 6 点进行数据离线跑批在 T 日 10 点借助 HDFS Broker 方式进行表历史数据初始化。实时链路使用 Flink 直接指向 T-1 的晚上 10 点消费 Kafka Topic 进行实时数据同步而在实时消费过程中会出现部分重叠数据。为应对该问题选用 Apache Doris 的 Unique Key 模型该模型支持数据幂等性该模型可快速覆盖重叠数据并使用 Flink-Doris-Connector 完善实时数据仓库链路以保证实时数据同步不丢不重。 02 灵活的数据服务 为了提供精准、高效的查询响应无锡锡商银行采取了以下三种方式来实现数据服务 离线数据查询针对离线需求需要对数据进行快速查询。无锡锡商银行将数据定期从离线数据仓库导入到实时数据仓库 Doris 表中。这样可以在实时数据仓库中快速查询满足离线数据分析和决策的需求。简单实时需求对于不复杂的实时需求无锡锡商银行利用 Apache Doris 的高效查询能力在飞流平台上提供了直接配置数据服务接口的能力用户可基于实时数据仓库 ODS 层的 SQL 进行手动配置。通过这种方式可以快速满足简单实时数据查询的需求。复杂实时需求对于复杂的实时需求无锡锡商银行采用实时 Kafka 数据流和 Flink 轻度计算的方式将数据流写入实时数据仓库的 DWD 层表中在飞流平台上基于明细表的 SQL 进行再次聚合并手动配置数据服务接口以满足复杂实时数据查询的需求。 面向更多样化的服务场景 01 BI 报表秒级查询响应 无锡锡商银行基于 Apache Doris 满足了当日数据分析、日常取数以及 BI 实时报表等多种场景需求查询响应时间大大缩短能够在 1 秒内返回查询结果极大降低了数据分析师的等待成本和服务器资源的消耗。 比如在 BI 实时报表方面无锡锡商银行建立实时贷款数据表、实时存款数据表、账户时点余额表等多种报表。**这些报表平均 SQL 代码行数为 253 行平均响应时间为 1.5 秒。**另外通过优化查询性能和数据模型设计无锡锡商银行能够在较短的时间内生成准确的实时报表为业务决策提供及时的数据支持。 02 支持个性化营销方案 在营销类数据服务方面无锡锡商银行基于 Apache Doris 丰富客户标签、完善客户精准画像开展了资产净增活动、艺术家盲盒活动等多种营销活动。通过实时数据的分析银行能够及时观察活动用户的转化情况并及时调整运营圈选策略实现从“千人一面”到“千人千面”的个性化营销。 比如在资产净增活动和艺术家盲盒活动等营销活动中无锡锡商银行利用 Apache Doris 实时数据仓库的能力不断收集、分析和反馈活动数据。通过实时观察用户的转化情况及时调整运营圈选策略确保人员和活动之间的匹配度。这种个性化的营销策略使得银行能够更好地满足客户的需求提升参与度、响应率以及用户粘性。 03 高效的风险识别与控制 Apache Doris 的引入使得无锡锡商银行能够更快计算出风控特征变量、异常交易行为。以新用户注册为例当用户填写资料时系统可以基于实时的风控特征变量快速判断审批策略结果及时优化策略模型保证审批的质量和准确性。 无锡锡商银行还能够及时识别和预防潜在的风险。例如对于短时间内大量交易、异常交易金额等交易数据银行可以实时收集并进行监测以及时发现异常交易行为和欺诈行为。通过实时数据分析银行可以快速识别潜在的风险并采取相应的措施进行预防和应对。 另外无锡锡商银行还利用 Apache Doris 实时数据仓库对客户的信用历史和信贷申请信息进行实时分析。通过快速判断客户申请金额是否符合其还款能力银行可以及时作出风险评估和决策从而有效控制信贷风险。 04 七日交易流水表的数据自动更新 在实际应用场景中交易流水表的数据量非常庞大涉及交易序号、交易日期、交易类型、交易金额等数据。为确保数据的及时更新无锡锡商银行选择采用 Apache Doris 动态分区表的特性。该特性可以自动创建分区并自动删除超过七天的交易流水数据以实现七日交易流水表的数据自动更新。具体的操作包括以下步骤 以业务日期构建伪列作为联合主键当 ID 数据进行tran_date跨天更新时代码进行回表操作找到数据在 Insert 与分区表中对应的 Date 值并拼接成 Update Json 更新入库。 借助 Apache Doris 动态分区分表特性不仅能够保证底层主键和服务器稳定运行还能够自动更新并只保留七天流水交易数据以供分析师查询并满足百万 QPS 下 1.5 秒查询响应需求。 05 高并发点查询 早期营销类与风控类应用场景主要依赖两套 HBase 集群以支持点查服务然而在实际应用中会遇到诸如 Master / Regionserver 异常退出、RIT 等问题。为避免该问题可利用 Apache Doris 高并发点查能力并在创建 Unique Key 表时启用 Merge-on-Write 策略使得主键点查能够经由简化的 SQL 执行路径完成仅需一次 RPC 即可完成快速的查询响应。 最终通过在三台节点上进行压力测试在为每台节点配置了 8C、10GB 的情况下获得了以下显著收益 在单表包含 5000 万数据的查询场景中QPS 高达 2.5 万在涉及 5000 万数据的多表读写场景中QPS 同样达到 2 万复杂 SQL 查询的稳定性也保持在 QPS 2.5 万的高水平在多表实时读写场景中QPS 亦能稳定在 2.5 万。 结束语 目前 Apache Doris 在无锡锡商银行已经接入数百张实时表、上百数据服务接口 、接口 QPS 达到数百万级别。此外Apache Doris 作为统一查询网关显著提升了历史数据分析的效率与原来分钟级响应时间相比查询提速超 10 倍。 未来无锡锡商银行将持续发掘 Apache Doris 优势并推进其在实时场景中更深度的应用。 在性能表现上进一步优化高并发点查询、自动分区分桶、执行引擎等能力以提升数据的查询响应效率在负载均衡上构建双集群实现架构负载均衡同时将完善架构预警与熔断机制保障业务运行不间断在集群稳定性上实现 Apache Doris 集群的“分工协作”使其各自承担实时数据仓库的计算与存储、数据服务加速查询等任务进一步提高系统的稳定性及可靠性。
http://www.w-s-a.com/news/583252/

相关文章:

  • 制作网站软件排行榜过年做啥网站致富
  • 哪里有做网站企业seo关键词优化
  • 上海金山网站建设公司手机淘宝客网站怎么做的
  • 网站开发需要公司做网站费用计入什么科目
  • 网站优化有哪些类型免费制作app的傻瓜软件
  • 如何做网站咨询wordpress get
  • 企业网站建设网站做网站用别人的图片
  • 站长统计代码个人网站源代码
  • 求推荐专门做借条的网站公众号排版编辑器
  • 动态做网站网站开发语言查询 蔡学镛
  • 莆田网站建设创意自助建站英文
  • cms系统创建静态网站龙岗网站建设哪家好
  • 自己做的网站被封了邢台规划局网站建设
  • 网站建设项目合同wordpress主题没法用
  • 个旧市哪里有做网站wordpress内页php页面
  • 程序员接活的平台网站互联网平台建设方案
  • 网站安全建设模板深圳企业管理咨询公司
  • 做网站 还是淘宝店wordpress分类链接后加
  • wordpress腾讯云 COSseo内容优化心得
  • 特价旅游机票网站建设i营销
  • 如何成立网站深圳创业项目
  • 建设商业网站惠州网站建设推荐乐云seo
  • 如何申请免费域名做网站免费推广神器
  • 自媒体人专用网站安岳网站建设
  • 特乐网站建设做网站推广要多少钱
  • 山东省建设安全生产协会网站义乌跨境电商公司前十名
  • 做网站优化就是发文章吗起飞页自助建站平台的特点
  • 做网站还是做app好慈溪机械加工网
  • 上传下载文件网站开发的php源码腾讯企点
  • 给分管领导网站建设情况汇报怎么写网络运营的岗位职责及任职要求