Files
Hui-s-notebook/203-Java/203.1-Java面试/205.14-MySQL/可靠性工程世界中的监控.md
2023-09-10 10:50:53 +08:00

1.7 KiB
Raw Blame History

可靠性对 DBA 团队的影响

定义服务水平目标

服务水平指标 SLI

服务水平目标 SLO

服务水平协议 SLA

监控解决方案

商业选项

SolarWinds

开源选项

PerconaPMM, Performance Schema

连接风暴是指在生产系统中,应用程序层感知到查询延迟增加,并通过打开更多到数据库层的连接进行响应的情况。这可能会导致数据库负载显著增加,因为它要处理大量涌入的新连接,这会占用执行查询请求的资源。连接风暴可能导致 max_connections 中的可用连接突然减少,并增加数据库可用性的风险

设置复制延迟告警需要谨慎。对于复制延迟,可立即采取行动的补救措施并不总是可行的。另外,假如你没有从副本读取数据,考虑一下监控系统将复制延迟告警发送给某人是否会过于激进。告警,尤其是非工作时间的告警,对于接收人来说应该是需要立即采取行动的

功能分片(Functional sharding)是指将服务于特定业务功能的特定表分割到一个专用的集群中,以便单独管理该数据集的正常运行时间、性能甚至访问控制

水平分片(Horizontal sharding)是指当数据集的大小超过了可以在单个集群中可靠地提供服务的规模时,将它拆分为多个集群,并从多个节点提供数据,这依赖于某种查找机制来定位所需的数据子集

度量长期性能

了解业务节奏

有效地跟踪指标

  • 为未来的容量做规划
  • 预见何时需要重大改进,何时增量修改就够了
  • 为运行基础架构增加的成本做规划

使用性能监控工具检查性能

对平均值说不

与百分位为友

长保留期和性能