注册有礼
< 返回资讯中心

机房运维必知必会的监控知识

发布人:中嘉和信 发布时间:2018.01.10 来源:51cto

作为提供服务器托管的重要地方-数据中心,电力等基础设施的重要性不言而喻,监控也是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。中嘉和信小编今天为大家介绍一下数据中心运维必会的监控知识。

中嘉和信康盛数据中心

一、监控目标

每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。

对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控);

实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障。

保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行

保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。

二、监控方法

1.了解监控对象:我们要监控的对象你是否了解呢?比如CPU到底是如何工作的?

2.性能基准指标:我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。

3.报警阈值定义:怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高?

4.故障处理流程:收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

三、监控核心

发现问题:当系统发生故障报警,我们会收到故障报警的信息。

定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析。比如一台服务器连不上,我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等,我们就需要去分析故障具体原因。

解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。

总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。

四、监控报警

故障报警通知的方式有很多种,当然最常用的还是短信和邮件。

五、报警处理

一般报警后故障如何处理,首先我们可以通过告警升级机制先自动处理,比如Nginx服务down了,可以设置告警升级自动启动Nginx。

但是如果一般业务出现了严重故障,我们通常根据故障的级别、业务,来指派不同的运维人员进行处理。

当然不同业务形态、不同架构、不同服务可能采用的方式都不同,这个没有一个固定的模式。

中嘉和信康盛云数据中心出入口均安装门禁读卡器,设置分等级感应卡,门禁系统记录保存1年以上。机房及重要出入口均装有双监控探测器,所有的通道门均安装门磁报警器,防盗、防非法闯入,在公共区域和出入口处、机房内每列机架间、VIP机房、核心机房、网管中心、电梯等均装有高清晰度彩色摄像机无死角监控。4*52英寸LED大屏幕监视器,进行7×24全方位闭路电视监控录像,监控录像记录保存6个月以上。配备专业安保人员,提供7*24小时机房安保值班和巡逻,中嘉和信致力于为用户提供更加优质的服务器托管等立体式一站解决方案!

相关文章推荐《七个让数据库跑的更快的优化建议

热门新闻

版权所有©2023年北京中嘉和信通信技术有限公司京ICP备09037838号-6京公网安备11010602104635号