如何理解统一运维监控
如何理解针对分布式组件的统一运维监控?
方法/步骤
1统一运维监控要能够为分布式集群提供运行状态指标采集,汇聚,展现,告警服务,提升发现问题的能力。
2统一运维监控要能够洞察主机,组件的运行状态,建立健康度体系;提供跨主机,跨组件的告警机制;构建集约化的运维体系。
3统一运维监控需要从基础指标中构建多层次业务对象,建立对象之间关系,并汇聚指标。
4统一运维监控在支持多层次的基础上,还需要能够支持多周期汇总指标,包括分,时,天,周,月等周期。
5统一运维监控应该可以通过API或者本地代理实时采集指标,发送到汇聚中心,实现指标数据的集中分析。
6统一运维监控对于实时性的要求很高,从生产事件发生,到通过开放服务查询指标,需要达到秒级性能。
7应该提供REST服务,查询指定业务对象的各周期的当前值,和历史值;还可以查询业务对象之间的拓扑关系。