ManageEngine卓豪 AI 技术实现性能告警全自动

深圳导报科技正文

ManageEngine卓豪 AI 技术实现性能告警全自动

2022-11-11 10:06 来源：互联网阅读次数：3473

随着科技的不断进步，“AI”、“大数据”这些名词越来越多地出现在人们的日常生活中。对监控运维产品来说，平台会获得大量设备的性能数据并加以存储。对于这些数据的进一步利用，传统方式一般为生成数据图表、分析性能使用、预测未来趋势等。今天来说说 ManageEngine OpManager 在满足传统数据分析功能外，还可以由AI 机器学习，通过高阶算法，自动生成并优化性能监控阈值，实现性能告警全自动。

什么是阈值?

在介绍自适应阈值之前，首先来说明一下到底什么是阈值。

阈值又叫临界值，是指一个效应能够产生的最低值或最高值。

在监控中，以CPU利用率为例，设置阈值用于判断CPU利用率是否在正常使用范围内。当CPU利用率超过设定的阈值时，便可以认为此时设备的CPU处于异常使用情况，从而触发告警，让作为管理员的我们第一时间得到消息，检查设备运行状态。

阈值的配置

既然阈值是触发告警的标准，那么设置合理的阈值是非常重要的。我们发现目前常见的阈值配置办法，是管理员手动对各个不同监控项，正如下图中给一个固定数值来区分“正常”、“异常”状态。

手动配置阈值的缺陷：

上述说到的手动配置有些致命的问题，那就是当面临成百上千台不同的设备，以及成千上万个不同监视项时，管理员需要花费大量时间手动配置不同监控项的阈值。这不仅麻烦，而且会给“异常”情况留出“生存空间”。

我来举个例子，让大家更好地理解。当一台服务器白天的内存利用率正常情况下保持在70%左右、夜间保持在30%左右时，管理员将内存利用率阈值设置为大于80%产生告警。那么当某个夜间内存利用率突然飙升到60%时，因为没有达到阈值告警的触发条件，所以不能将此特殊情况通知到管理员。然而，对于夜间来说，60%的数值实际上已经是出现了异常情况，只是受限于传统阈值的设置方法，导致了这种异常情况被忽略。

基于 AI，“预测”未来

在使用OpManager的过程中，发现OpManager可以基于AI技术，通过高阶算法计算出“预测值”，并根据“预测值”自动设置阈值。未来，通过不断地机器学习，阈值也会随着“预测值”的更新而自动变化，从而使告警也“智能”起来。它不仅消除了手动设置阈值的烦恼，并使研究复杂数据集和为每个监视器得出可行的阈值的过程完全自动化。如下图所示，OpManager需要至少3天的性能数据收集，会以每天不同小时段为单位，给出一个该小时内的“预测值”，并会通过后续的数据不断自动优化和更新“预测值”。