Skip to content
This repository has been archived by the owner on Jan 13, 2020. It is now read-only.

Latest commit

 

History

History
147 lines (105 loc) · 9.27 KB

monitoring.md

File metadata and controls

147 lines (105 loc) · 9.27 KB

监控告警

监控告警是日志运维中最重要功能,数果可以轻松替您监控数据,我们可以把您关注的指标按预设计划周期性执行,当满足触发条件时我们会及时通知您。

配置告警策略

  • 告警名称:自定义命名告警的名称,告警被触发时将推送此名称的告警。建议您填写能快速辨别的名称。
  • 保存告警模版:将设定的监控条件与告警目标存为模版,下次可以直接选择便会调取该次存储的条件目标。
    • 设定监控条件:设定监控的过滤条件,那么会根据此条件来检测查询数据。
    • 检测频率:可自定义检测数据的时间间隔(最小频率为 3 分钟),根据设定的频率间隔来检测数据。
    • 设定告警的目标:指定告警的目标(此目标为发出告警的阀值),监控的指标达到该阀值就会发生异常告警。
    • 告警级别:支持最大设置三级告警级别:提醒、警告、严重。(例如:设定100阀值为提醒,二级设定500阀值为警告,三级设定1000阀值为严重。那么当异常数值为200时其告警级别为提醒;600时其告警级别为告警;1200时其告警级别为严重。)
  • 告警方式:配置收到告警的方式,数果支持短信告警、邮件告警和接口告警三种方式。同时支持点击测试发送是否成功
  • 设定告警规则:配置发生异常时,发送通知信息的规律。数果提供三种规律进行选择:
    1. 异常根据检测的次数发出衰减式告警通知,规律如下:1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765;
    2. 每一次的检测发生异常都会发出告警通知;
    3. 第一次的检测发生异常发送一次通知后,后面的异常不再通知,直至恢复正常。
  • 恢复正常通知:开启后每次异常的恢复均会发送通知信息,关闭则不发送恢复正常的通知信息。

告警策略管理

在告警的列表中,我们可以对创建的告警进行管理。在列表中可以清楚地看到告警目前的状态,上次检测的时间与结果,发生异常的次数。同是能直接对不需要的告警暂停监控或者直接删除。 需要注意的是:更新告警与重新运行告警都会将告警的异常次数重置。

我的告警列表

通过异常告警的列表,我们可以对监控告警中发生的异常且需要发送通知的记录存储下来。便于我们查询异常的记录以及统计异常的数量。

未处理列表

配置好告警的策略后,当发生异常需要告警的时候(告警的频率是通过上述配置告警策略选择的规则决定的),未处理列表就会产生一条异常记录。我们可以针对一条/多条进行处理/忽略的操作。

  • 处理

    方式一:单条/批量转发处理选中的异常记录,转发处理的接收人会接收到设定的告警通知信息。确认处理后,选中的异常记录会转到处理中的状态。 方式二:单条/批量直接处理选中的异常记录,选填备注。确认处理后,选中的异常记录会转到已处理的状态。

  • 忽略

    单条/批量忽略选中的异常记录,选填备注。确认忽略后,选中的异常记录会转到已忽略的状态。

  • 详情

    详情可提供我们去回溯该条异常记录在发生异常那一刻的日志记录。点击详情,跟随着异常发生时的所有条件跳转到日志分析中,过滤出异常的日志数据。注意:如果在异常发生后再调整告警的策略,那么历史异常记录条件依然为触发异常那一刻的条件,旧有的异常不受告警策略调整的影响。

处理中列表

将异常记录转发处理后,我们可以在处理中的列表查找到这些异常的记录,针对一条/多条进行完成的操作。

  • 完成

    单条/批量完成选中的异常记录,选填备注。确认完成后,选中的异常记录会转到已处理的状态。

  • 详情

    详情可提供我们去回溯该条异常记录在发生异常那一刻的日志记录。点击详情,跟随着异常发生时的所有条件跳转到日志分析中,过滤出异常的日志数据。注意:如果在异常发生后再调整告警的策略,那么历史异常记录条件依然为触发异常那一刻的条件,旧有的异常不受告警策略调整的影响。

已忽略列表

将异常记录忽略后,我们可以在已忽略的列表查找到这些异常的记录。

  • 详情

    详情可提供我们去回溯该条异常记录在发生异常那一刻的日志记录。点击详情,跟随着异常发生时的所有条件跳转到日志分析中,过滤出异常的日志数据。注意:如果在异常发生后再调整告警的策略,那么历史异常记录条件依然为触发异常那一刻的条件,旧有的异常不受告警策略调整的影响。

已处理列表

将异常记录直接处理/完成后,我们可以在已处理的列表查找到这些异常的记录。

  • 详情

    详情可提供我们去回溯该条异常记录在发生异常那一刻的日志记录。点击详情,跟随着异常发生时的所有条件跳转到日志分析中,过滤出异常的日志数据。注意:如果在异常发生后再调整告警的策略,那么历史异常记录条件依然为触发异常那一刻的条件,旧有的异常不受告警策略调整的影响。

配置管理

通知模版管理

通知模版管理更便于我们去管理要发送的告警通知信息,针对不同的信息类型、不同的发送对象,都可以去定义不同的信息模版。 通知模版变量说明:

  • ${projectName}:项目名称。示例:移动 APP
  • ${monitorName}:告警策略名称。示例:业务 A 的接口 B 告警
  • ${failureTime}:检测到异常/正常的时间。示例:2017 年 12 月 9 日 13 时30 分 25 秒
  • ${rules}:触发告警的异常告警值。示例:总记录数[16314] 大于 6000
  • $ {filter}:告警策略的过滤条件。示例:最近 15 分钟(2017-12-09),产品线包含 A、B,系统包含 Q
  • ${level}:此次告警的级别。示例:严重

通讯录管理

使用告警通讯录来管理告警的接收人信息,可快速选择告警接收人,无需多次填写接收人的联系方法。 类似手机通讯录,可以对告警联系人进行便捷地管理,便于设定告警联系人的选择。

  • 部门管理:用于管理接收人

  • 创建接收人


错误码管理

错误码定义为一组字母与数字的结合,能与错误信息建立关联,用于识别在系统中出现的各种异常情况。 通过错误码,可以实现以下目的:

  1. 通过错误码我们能识别出系统到底出了什么问题;
  2. 通过错误码我们应当能识别出哪个系统出了问题;
  3. 通过错误码我们可以决策出该给客户显示出了什么问题。

为了达到上述的目的,需要对错误码的命名及使用进行统一的管理,并将含有错误码的后台日志实时推送到数果平台进行分析处理。

错误码界面

系统管理

系统是最大的管理级别,创建产品线/接口方/错误码都需要预先创建系统。系统管理是对系统进行新增、编辑、删除操作管理的功能。

产品线管理

产品线是基于系统下面的功能模块,在创建接口方/错误码前同样需要预先创建产品线。产品线管理是对产品线进行新增、编辑、删除操作管理的功能。

接口方管理

接口方是产品功能模块下所使用到的接口,通常非所有的错误码都必要拥有一个接口方。因此错误码如无接口方,我们可以不需要预先创建;如错误码包含接口方,有则需要预先创建接口方。 接口方管理是对接口方进行新增、编辑、删除操作管理的功能。

新增错误码

错误码受系统与产品线的约束管理,若存在接口方则错误码开头含有英文字母,若不存在接口方则错误码为纯数字。

方式一:直接添加

选择错误码关联的系统/产品线,填写错误码(包含/不含英文)与描述,点击添加即可。

方式二:文件上传

用文件上传的方式能帮我们节省很多,但需要注意上传的文件格式规范,可点击下载样例文件参照我们提供的格式进行上传。

文件编码请设置为utf8

文件内容格式为:系统代码,产品线,错误码,错误码描述。各字段以英文逗号分隔,一条记录独占一行。

上传后,我们可以看到文件的上传进度以及成功/出错的条数。若文件过大,我们也能随时暂停后等空闲时间再继续上传。