近年来,伴随着数字化的应用与服务在各行各业得到广泛的应用,基础的IT系统在容量和复杂性方面不断增长。系统故障变得不可避免,导致服务性能下降甚至服务中断,由此带来严重的系统可靠性隐患。本次报告将回顾我们在构建可靠性驱动的智能化运维框架的经验。针对系统软硬件日志、度量数据、系统拓扑关系、系统告警以及系统工单等原始运维数据,我们通过数据驱动的方式,提出相应的智能化解决方案,以达到异常检测、故障诊断、根因定位以及故障预测等目标,最终增强系统整体可靠性。
[软件自动化, 数字化, 软件可靠性]
吕荣聪