事件设计

事件用来描述每个实体,接口、服务器、中间件、存储发生的变化和状态。在运行过程中,一旦触发了阈值,就会生成对应的事件。

事件类型

- 通知(notice)
- 警告(warning)
- 严重警告(critical)    

事件生成周期

目前事件按照 3 分钟生成一次

事件组成

API

- 类型    动作    描述    明细
- API    access num    访问量    减少
- API    avg response time    响应时间    增加
- API    error rate    错误率    增加

服务器

- 类型    动作    描述    明细    
- Server    cpuLoad 1min avg    机器负载    增加    
- Server    memory used    内存使用    增加    
- Server    service status    服务存活状态    丢失    
- Server     lost heartbeat      失去心跳     10.213.2.102:10000 status is down    -    
- Server     network traffic overload      流量过载      CDM1A04-209192149 的 eth3 进口流量过高        

Redis

- 类型    动作    描述    明细
- Redis    memory used    内存使用增加
- Redis    used_cpu_user    redis cpu 使用增加    

MySQL

- 类型    动作    描述    明细
- MySQL    execute error    执行错误数增加
- MySQL    slow log    慢查询数增加

Agent

- 类型    动作    描述    明细
- 服务器系统文件    server system file change    服务器系统文件    -
- 服务器操作记录    server opts    服务器操作记录    -

事件阈值

接口类型事件

1、接口访问量减少
- [警告] /ffan/v1/login 于 15:41,访问量 降为 0
2、接口耗时
- [警告] /ffan/v1/login 于 15:41,接口平均耗时 为 3392ms,比之前 5分钟 之前,增加了 85%

- [严重] /ffan/v1/login 于 15:41,接口平均耗时 为 5755ms,比之前 5分钟,增加了 130%
3、接口错误率上升
- [警告] /ffan/v1/login 于 15:41,接口错误率 达到 6%,比之前 5分钟,增加了 84%

- [严重] /ffan/v1/login 于 15:45,接口错误率 达到 22%,比之前 5分钟,增加了 124%

服务器类型事件

1、cpuLoad 1min avg 上升
- [警告] CDM3D15-209009063 于 15:41,cpuLoad 1min avg 达到 Core Num,比之前 5分钟,增加了 84%

- [严重] CDM3D15-209009063 于 15:41,cpuLoad 1min avg 达到 Core Num x 2,比之前 5分钟,增加了 120%
2、memory used
- [警告] CDM3D15-209009063 于 15:41,memory used 达到 80%,比之前 5分钟,增加了 84%

- [严重] CDM3D15-209009063 于 15:41,memory used 达到 100%,比之前 5分钟,增加了 120%
3、network traffic
- [警告] CDM1A04-209192149 的 eth3 进口流量过高,达到网卡带宽上限的 82.13%

- [严重] CDM1A04-209192149 的 eth3 出口流量过高,达到网卡带宽上限的 100%
4、服务器存活状态
- [严重] 10.209.26.171 于 15:41 失去心跳(agent的存活状态)

Redis类型事件

1、内存使用占比上升
- [警告] CDM3D15-209009063 于 15:41,Redis内存占比 达到 80%,比之前 5分钟,增加了 84%

- [严重] CDM3D15-209009063 于 15:41,Redis内存占比 达到 95%,比之前 5分钟,增加了 120%

MySQL类型事件

1、MYSQL 错误数增加
- [警告] m3316.wdds.mysqldb.com 上的 intelligent_os 实例于 15:41,调用错误数 为 55,比之前 5分钟,增加了 84%

- [严重] m3316.wdds.mysqldb.com 上的 intelligent_os 实例于15:41,调用错误数 为 155,比之前 5分钟,增加了 154%
2、MYSQL 慢查询数
- [警告] m3316.wdds.mysqldb.com 上的 intelligent_os 实例于 15:41,慢查询数 为 55,比之前 5分钟,增加了 84%

- [严重] m3316.wdds.mysqldb.com 上的 intelligent_os 实例于15:41,慢查询数 为 155,比之前 5分钟,增加了 154% 

变动类型事件

1、服务器操作记录
- [通知] sunning16[from (10.209.11.11) su to (sunning16)] 在 CDVM-213161232.wdds.com 上发生了 执行命令 操作
2、服务器文件操作记录
- [通知] sunning16 在 CDVM-213161232.wdds.com 上发生了 修改文件操作

事件描述

服务器相关

- CPU LOAD TOO HIGH(CPU 过高)
    - warning
    - critical

- CPU MEMORY TOO HIGH(机器内存占用过高)
    - warning
    - critical

- NETWORK TRAFFIC ALMOST REACHED BANDWIDTH LIMIT(网卡流量已达带宽上限)
    - warning
    - critical

- SERVER OFFLINE(服务器离线)
    - critical

API相关

- API ERROR RATE TOO HIGH(接口错误率过高)
    - warning
    - critical

- API RESPONSE TIME TOO LONG(接口响应时间过长)
    - warning
    - critical

Redis相关

- REDIS MEMORY USED TOO HIGH(Redis内存占用过高)
    - warning
    - critical

MySQL相关

- MYSQL ERROR QUERY TOO MANY(MySQL错误查询过多)
    - warning
    - critical

- MYSQL SLOW QUERY TOO MANY(MySQL慢查询过多)
    - warning
    - critical

服务器操作记录 & 文件操作记录变更

- CHANGE DETECTED(变化)
    - notice 

results matching ""

    No results matching ""