当前位置: 首页 > news >正文

kesioncms企业网站蓝色模板百度推广四川成都地区服务中心

kesioncms企业网站蓝色模板,百度推广四川成都地区服务中心,python网站开发环境,wordpress主题教程 pdf本文介绍告警统一管理的最佳实践#xff0c;以帮助企业更好地处理异构监控系统所带来的挑战和问题。 背景信息 在云原生时代#xff0c;企业IT基础设施的规模越来越大#xff0c;越来越多的系统和服务被部署在云环境中。为了监控这些复杂的IT环境#xff0c;企业通常会选…本文介绍告警统一管理的最佳实践以帮助企业更好地处理异构监控系统所带来的挑战和问题。 背景信息 在云原生时代企业IT基础设施的规模越来越大越来越多的系统和服务被部署在云环境中。为了监控这些复杂的IT环境企业通常会选择使用异构监控系统例如Prometheus、Grafana、Zabbix等以获取更全面的监控数据以便更好地了解其IT基础设施的运行状况和性能表现。 然而这种异构监控系统也带来了一些问题其中最显着的是告警信息的分散。由于不同的监控系统可能会产生不同的告警信息这些信息可能会分散在各个系统中导致企业很难全面了解其IT系统的告警状况。这使得响应告警变得更加困难同时也增加了人工管理的复杂性和工作量。 为了解决这些问题企业需要一种更加统一和集中的告警管理方案以确保告警信息能够及时到达正确的人员以便他们能够快速采取必要的措施来应对潜在的问题。 告警管理的痛点 场景一企业迁移上云后云上产品的告警不统一 在一个典型的云原生业务应用部署架构中通常会使用到如下产品 ACK、ECS、RDS应用通过Kubernetes部署在阿里云的ECS上并访问云上的RDS。在这个架构中通常会用到如下监控产品来对系统进行监控。 通过CloudMonitor对阿里云基础设施ECS和RDS进行监控当资源出现异常时进行告警。通过Prometheus对Kubernetes以及部署在kubernetes上的Pod进行监控当Kubernetes出现异常时进行告警。通过ARMS对部署在Kubernetes上的应用进行监控包括应用直接的调用链。当应用异常时进行告警。通过SLS对应用产生的日志进行监控当日志出现异常时进行告警。 在这样一个场景下由于用到了多个云产品对整个系统进行监控会导致使用者需要在多个产品上重复配置联系人、通知方式、值班等运维配置。且不同系统之间的告警无法产生有机结合当一个问题出现时不能快速关联不同告警系统中的相关告警。 场景二多云、混合云架构下异构监控系统告警不统一 当企业的应用部署在多云环境或混合云环境下时监控系统产生的告警可能会更加分散和复杂给企业的运维工作带来很大的挑战。由于不同的云平台和私有云架构之间的差异监控数据的采集和处理方式也可能不同因此不同监控系统产生的告警信息也可能表现出差异化这会带来一系列的问题。 首先不同监控系统产生的告警信息分散在不同的地方运维人员需要耗费更多的时间和精力去处理这些信息。其次不同系统产生的告警信息难以统一进行管理和分析使得问题的诊断和解决更加困难。此外因为不同系统的告警信息可能存在重复或冲突管理和处理这些信息也会变得更加复杂。 场景三自研监控系统、自定义事件告警接入 在应用开发运维过程中随着系统规模的扩大和复杂度的提高各个角落中的胶水代码逐渐增多。这些代码虽然是连接不同模块和系统的重要纽带但一旦出现问题由于分散在不同的地方很难立即发现和处理。这就使得企业难以保证系统的高可用性和稳定性。如何灵活的低成本的接入这部分代码产生的告警也成为企业应用运维的痛点之一。 统一告警管理 在构建统一告警管理平台过程中不同的监控系统对告警定义、处理流程都不一样往往会存在下面问题 不同系统产生的告警格式不同接入成本高。不同系统间的告警接入后由于格式不统一难以统一处理逻辑。不同告警系统对于告警等级的定义不同。不同告警系统对于告警自动恢复的处理方式不同。有的告警系统支持自动恢复有的不支持。 ARMS告警管理 [ 1] 设计的集成、事件处理流、通知策略等功能专门针对告警统一管理的场景解决了统一管理过程中遇到的诸多问题。 ARMS告警管理如何接入不同格式的告警 传统告警通常包括如下一些内容这种结构化的告警通常只适用于单一告警源。当多个告警源的数据汇总到一起后通常会导致数据结构的冲突。因此ARMS使用了半结构化的数据来存储告警。 阿里云监控告警数据格式 Zabbix告警数据格式 Nagios告警数据格式 半结构化的告警数据结构 [{labels: {alertname: requiredAlertNames,labelnames: labelvalues,...}, annotations: {labelnames: labelvalues,}, startsAt: rfc3339,endsAt: rfc3339,generatorURL: generator_url},... ]labels标签告警元数据一组标签唯一标识一个事件所有标签均相同的事件为同一个事件重复上报会进行合并例如alertname: 告警名称。annotations注释注释是告警事件的附加描述注释不属于元数据。例如message: 告警内容。不同时间点发生的同一个事件他们的标签是相同的但是注释可以是不同的。比如告警内容的注释可能不同例如“主机i-12b3ac3*** CPU使用率持续三分钟大于75%当前值82%”。startsAt告警开始时间告警事件开始时间。endsAt告警结束时间告警事件结束时间。generatorUrl事件URL地址告警事件URL地址。 如上述代码所示ARMS参考开源Prometheus告警定义 [ 2] 使用一个半结构化的数据结构来描述告警。通过高度可扩展的键值对来描述告警这样就可以非常灵活的对告警内容进行扩展从而接入不同的数据源产生的告警。 任意JSON格式的自定义告警接入能力 ARMS告警提供了任意一种JSON格式接入的能力自定义集成 [ 3] 。只要告警数据结构满足JSON格式就能接入。如下图所示自定义告警接入需要先将告警内的JSON数据上传到ARMS告警中心后通过页面编辑字段映射的方式将告警内容中的关键信息映射到ARMS告警数据结构中。 ARMS定义了如alertname等关键字段对于更多的扩展字段用户可以在集成中通过新增扩展字段的方式进行配置。所有的扩展字段都可以运用到后面的告警处理逻辑中。以下图为例将原始告警报文中的hostname字段映射到扩展的hostname字段hostip字段映射到扩展的hostip字段。 常用监控工具告警快捷接入能力 ARMS默认提供了云上云下多种监控系统的告警接入能力可以参考集成概述 [ 4] 进行快速接入。 ARMS告警管理如何统一告警等级 ARMS中将告警分为P1、P2、P3、P4四个等级。通过配置映射表将多个不同类型的等级归一到P1-P4四个等级。如下图所示将L1、Critical、严重告警这三种不同描述的告警等级都映射为P1告警这样就可以统一不同系统中对于告警等级的不同定义。 ARMS告警管理对于不同格式的告警如何统一处理逻辑 由于ARMS告警采用了半结构化的数据结构可以通过标签来统一告警的处理逻辑。通常我们需要至少2个标签来统一告警的处理逻辑。一个标签用来决定这个告警应该通知给哪些人比如业务标签service,biz。另一个标签用来决定这个告警应用通过什么样的方式进行通知和升级。如下表所示通常使用告警等级severity来定义告警处理的SLA。 ARMS设计了通知策略和升级策略两种策略来满足不同等级的告警的处理要求您可以参考通知策略最佳实践 [ 5] 来进行配置。 标签设计原则 当我们在设计用于告警处理的业务标签时需要满足如下原则 互斥原则指避免对同一个资源使用两个或以上的标签键。例如如果已经使用了标签键service来标识业务就不要再使用biz或业务等类似的标签键。集体详尽原则指所有资源都必须绑定已规划的标签键及其对应的标签值。例如某公司有3个业务标签键是service则应至少有3个标签值分别代表这3个业务。有限值原则指为资源只保留核心标签值删除多余的标签值。例如某公司共有5个业务那么应该有且仅有这5个业务的标签方便管理。 除了业务标签也可以定义其他的标签来进行告警的管理比如使用环境标签来区分开发和测试环境的告警。这些标签应该满足上述设计原则这样可以简化告警管理配置的复杂度。 通过事件处理流给告警打标签富化告警 当我们设计好标签后如何对不同告警源的告警打标呢。在ARMS告警管理中设计了低代码方式的事件处理流 [ 6] 通过拖拉拽的配置方式可以实现给告警打标签的能力富化告警。 场景一匹配特定条件后给告警打标签 某xx业务使用了自研监控系统通过自定义集成将自研的告警接入到ARMS告警管理中后需要对这部分告警统一打上业务标签xx。事件处理流的配置如下 a. 登录ARMS控制台 [ 7] 在左侧导航栏选择告警管理然后单击新建处理流。 b. 在弹出的面板创建事件处理流编辑触发条件匹配自定义集成的名称为“xx自研监控系统”。 c. 添加设置业务标签动作将xx设置为业务service标签值。 场景二切割字符串提取标签 某自研告警系统中所有的主机都使用固定格式进行命名命名格式为env−env−{env}-{biz}-app−app−{app}-{group}-${index} 需要提取其中的biz字段做为业务标签。配置正确的触发条件后使用分割内容操作将hostname根据字符’-进行分割分割后的内容依次填充到env、service、 app、group字段。 场景三通过查询Excel表格富化告警 某应用监控平台在发生告警时仅通知了应用ID需要根据Excel表格关联到应用名称、应用责任人等信息。 a. 创建Excel数据源并上传app_cmdb.xlsx文件。 b. 配置事件处理流添加字段丰富操作选择数据源为第一步创建的数据源。编辑匹配字段为appId将Excel表中其他字段分别填充到appName、owner、ownerPhone扩展字段中。 场景四通过ServerlessFunctionCompute调用外部服务富化告警 同上述场景三当告警中缺失的数据需要从CMDB等外部系统获取时可以通过API类型的数据源来进行告警富化。 a. 创建函数计算应用 [ 8] 开发一个HTTP服务接收入参为appId返回出参为appName、owner、ownerPhone等参数。如下截图仅为示例代码。 b. 创建API类型的数据源URL地址为第一步中开发的函数。 c. 配置事件处理流添加字段丰富操作选择数据源为上一步创建的数据源。编辑匹配字段为appId将Excel表中其他字段分别填充到appName、owner、ownerPhone扩展字段中。 ARMS告警管理如何配置告警自动恢复 不同的监控系统对告警自动恢复的处理逻辑大不相同。如Prometheus告警不会发送特定格式的恢复告警仅通过告警时间来标识告警是否结束。阿里云云监控 [ 9] 中告警是否恢复的状态合并到了告警等级中如下所示。 参数triggerLevel数据类型String本次触发报警的级别。取值 CRITICAL严重WARN警告INFO信息OK正常 不同场景下的告警在处理是否恢复的逻辑可能也会有所区别。如阈值类型的告警当监控值不满足阈值条件时期望立即恢复告警。但是对于事件类型的重要告警告警发生只在一瞬间并没有恢复的过程。需要运维人员人工确认事件产生的影响已经消除后才能恢复告警。 场景一针对不会恢复的告警配置自动恢复时长告警按照时间自动恢复 针对事件类型的告警通常需要人工确认事件的影响范围后再处理告警。这时告警自动恢复可能会导致需要被处理的事件没有被人工处理。针对这种情况需要在接收到告警后不进行自动恢复或者至少在一个长周期内不自动恢复给处理人员一定的时间来确认该告警的影响。 ARMS自定义集成配置告警自动恢复时间截图 场景二配置恢复告警字段接收到恢复事件后恢复告警 在ARMS的告警集成中可以通过配置告警恢复字段当告警内容中某个字段的值满足条件时视为恢复告警。根据该告警的其他字段的内容寻找对应的告警进行恢复。告警主动恢复的示意图如下所示 ARMS控制台配置方式截图 告警恢复需要满足如下2点才能正确的恢复对应的告警。 如果没有定义去重字段那么告警和恢复告警的标签需要完全一致才能正确恢复告警。如果定义了去重字段那么告警和恢复告警的去重字段需要完全一致才能正确恢复告警。 说明当配置了某个字段如status做完告警恢复字段时请不要将这个字段添加到告警的映射规则中。通常会导致告警与恢复告警字段不匹配从而恢复失败。 补充信息 FunctionCompute示例代码 # -*- coding: utf-8 -*-import logging import jsondef handler(environ, start_response):context environ[fc.context]request_uri environ[fc.request_uri]body_str get_request_body(environ)id json.loads(body_str).get(appId)# 这一行为伪代码示例通过查询cmdb获取应用详细信息, 获取到的app格式如下# {appId:b38cdf95-2526-4d7a-9ea9-ffe7b32*****, appName: iot-iam, owner:王五, ownerPhone: 130xxxx1236}app cmdb.getApp(id)ret json.dumps(app)status 200 OKresponse_headers [(Content-type, text/plain)]start_response(status, response_headers)return [ret.encode(utf-8)]def get_request_body(environ):try:request_body_size int(environ.get(CONTENT_LENGTH, 0))except (ValueError):request_body_size 0request_body environ[wsgi.input].read(request_body_size)return request_body相关链接 [1] ARMS告警管理 https://help.aliyun.com/document_detail/214753.htm?spma2c4g.2362717.0.0.1890245ddgeRkP#concept-2075853 [2] Prometheus告警定义 https://prometheus.io/docs/alerting/latest/clients/#sending-alerts [3] 自定义集成 https://help.aliyun.com/document_detail/251850.htm?spma2c4g.2362717.0.0.18906bf4Pry1jD#task-2021669 [4] 集成概述 https://help.aliyun.com/document_detail/260831.htm?spma2c4g.2362717.0.0.1890d928BoEXFr#concept-2078267 [5] 通知策略最佳实践 https://help.aliyun.com/document_detail/456953.htm?spma2c4g.2362717.0.0.1890951awN1Sbk#task-2249792 [6] 事件处理流 https://help.aliyun.com/document_detail/311905.htm?spma2c4g.2362717.0.0.18901c8dwhrptl#task-2114624 [7] ARMS控制台 https://account.aliyun.com/login/login.htm?oauth_callbackhttps%3A%2F%2Farms.console.aliyun.com%2F#/home [8] 函数计算应用 https://help.aliyun.com/document_detail/51783.htm?spma2c4g.2362717.0.0.189070368lSswF#multiTask782 [9] 阿里云云监控 https://help.aliyun.com/document_detail/60714.htm?spma2c4g.2362717.0.0.18904bf99bofq7#task-2151109 目前应用实时监控服务ARMS 提供全功能15天试用开发者可以全面体验告警能力。点击此处即可获取。
http://www.w-s-a.com/news/921271/

相关文章:

  • 磨床 东莞网站建设wordpress下载类主题系统主题
  • 免费学编程网站芜湖做网站都有哪些
  • 能发外链的网站门户网站网页设计规范
  • 网站建设所需人力南城区网站建设公司
  • 网站做图尺寸大小手机模板网站模板下载网站有哪些内容
  • 德阳市建设管理一体化平台网站做美食网站
  • 怎么做自己的推广网站2024年瘟疫大爆发
  • vps正常网站打不开linux网站建设
  • 福州网站快速排名在一个网站的各虚拟目录中默认文档的文件名要相同
  • 网站开发 流程图网站开发用哪个linux
  • 怎么用自己电脑做服务器发布网站吗seo门户网价格是多少钱
  • 备案网站可以做影视站网站400
  • 四川住房与城乡建设部网站注册登记
  • 网站建设第三方沈阳工程最新动态
  • 兰州做网站客户上海企业在线登记
  • 新乡公司做网站wordpress被大量注册
  • 小语种服务网站公众号平台建设网站
  • 免费做mc皮肤网站企业网站建设合同模板
  • 做网站可以申请个体户么网站的定位分析
  • jsp做的零食网站下载wordpress侧边栏折叠
  • 帝国网站单页做301南京旅游网站建设公司
  • 网站sem优化怎么做网站建设推广安徽
  • 比较好的室内设计网站潍坊网络科技
  • 南宁网站建设公设计联盟网站
  • 多个图表统计的网站怎么做百度推广费2800元每年都有吗
  • 连江县住房和城乡建设局网站企业类网站模版
  • 临沂seo整站优化厂家网站建设 大公司排名
  • 网站开发有哪些方式百度导航怎么下载
  • 网站认证免费视频直播网站建设方案
  • 瀑布流分享网站源代码下载网站构建的一般流程是什么