秦皇岛做网站优化价格,wordpress iis7 伪静态规则,无锡手工活外发加工网,人工智能设计网站OCP的常见问题
页面卡顿#xff1a;
遇到页面卡顿的问题时#xff0c;首先需要区分是全局性的卡顿#xff0c;即所有页面都出现延迟或响应缓慢#xff0c;还是仅限于特定的监控页面。
监控数据看不到:
需要明确是全部数据都无法查看#xff0c;还是仅限于特定集群的数…OCP的常见问题
页面卡顿
遇到页面卡顿的问题时首先需要区分是全局性的卡顿即所有页面都出现延迟或响应缓慢还是仅限于特定的监控页面。
监控数据看不到:
需要明确是全部数据都无法查看还是仅限于特定集群的数据亦或是仅仅一两个特定的监控数据项无法被访问到。 问题排查
因为 OCP 是一个 web 应用一般的问题都是反应在页面上的所以一般排查过程也是从页面上来入手的, 在浏览器中右键点击inspect element, 打开调试窗口然后点 Network, 可以看浏览器请求。 页面卡顿:
针对页面卡顿的现象主要需要分析请求的时间Queued 的时间表示请求的排队时间waiting 的时间表示等待的时间一般是后端的响应时间download 表示数据下载的时间OCP 后端的返回结果中也会有响应时间duration字段表示响应时间。 最需要关心的是 OCP 的响应时间如果 OCP 的响应时间不长的话一般后端服务没问题需要关注其他的方面
如果客户的主机和 OCP 之间的网络条件比较差而页面请求的监控数据比较多的时候Download时间会比较久如果再打开了实时页面很可能会因为浏览器并发请求的限制造成请求的排队, 需要考虑解决网络的问题。
如果是 OCP 响应时间长需要再做详细的分析根据 OCP 响应结果中的 traceid, 去 OCP 的日志中搜索可以找到这个请求完整的处理流程的日志, 可以看日志文件中的时间戳如果两条日志之间的时间差比较大应该就是耗时的操作。
当 OCP 所有页面都有卡顿的时候一般要关注 OCP 的 GC 情况可以通过以下命令来查看主要关注 full gc 的次数和时间.
jstat -gcutil $pid 1000
另外 OCP 的 gc 情况也会记录在 gc.log.0.current 中 数据缺失:
因为 OCP 的监控数据采集和持久化都是后台任务通过traceid可能查询不到有用的信息需要查询一些其他的信息按照一些关键字来进行日志搜索。
查找 ocp 的日志
ocp 如果有多个节点尽量都搜一下。
采集失败ocp 日志中会有 collect failed 的日志可以作为关键字进行搜索查找监控线程相关的日志pool-metric 作为关键字另外 ERROR 日志也需要关注特别是写 db 是否有失败的日志。
查找 agent 日志
首先找到失败的exporter ocp 会在metadb表中记录所有的exporter 如果采集失败多次status 会变成 inactive可以首先看哪些是inactive状态的去对应主机上找日志。 ocp-agent 监控进程的日志在 /home/admin/ocp_agent/log/monagent.log, 可以搜索ERROR信息。
常用处理方式
页面请求 download 和 queue 时间长可以看客户主机和 ocp 的网络情况是否打开了实时页面可以考虑先关闭实时请求页面并且平时使用的时候注意实时页面开了之后记得关闭。或者优化网络情况。有 fullgc看下资源使用情况首先避免资源不够包括docker的和元数据库两个租户的资源3.3.0 可以考虑关闭掉不必要的后台任务。采集失败需要根据具体的日志来分析。如果客户自己处理不了尽量收集更多的信息需要把 ocp 的日志agent 的日志gc 状态这些信息都搜集下来。