云计算性能异常问题的故障定位和检测方法
工业工程资助企业:
联想(中国)有限公司
企业导师: 陆明

指导教师: 王冬

项目成员: 王子奕 唐诗棋 盛玉磊 陈泽宇

项目概述
云计算是信息技术发展和服务模式创新的集中体现,提供了强大的计算资源和存储能力,构建了新质生产力的产业数字化基础,是新质生产力发展的重要引擎。作为全球领先的电子制造企业,联想集团在云计算领域沉淀多年经验,致力于为用户提供优质服务。目前面临着以下难题与挑战:(1)当云平台已经出现问题的时候,解决路径多依赖于工程师的经验判断,再接入监控系统进行后续排查;(2)云计算平台涵盖软硬件等多个方面,例如CPU、内存和硬盘,传统的检测工具通常是rule-base的,缺乏可解释性。
项目目标
本课题针对联想云计算智能运维面临的上述两方面问题,基于故障树分析方法,并针对云计算系统关键性能组件,设计开发云计算性能异常问题的故障定位和检测方法。本课题的研究内容包括:
(1)基于云计算异构时空数据的故障树建模;
(2)面向云计算故障定位任务调度研究;
(3)云计算CPU与内存负载预测研究;
(4)分布式文件系统性能波动中的热点磁盘定位。
该系统将与现有的监测工具协同工作,旨在提升工程师在定位和诊断关键故障问题时的效率与准确性,进而缩短云平台出现问题时的平均修复时间。
项目成果
本项目开发的针对云计算性能异常问题的故障定位和检测方法,一方面,故障树已经在企业内部前端工具箱有初步的展示和实现,后续的基于贝叶斯网络的任务调度工作也能将检测任务进行有效排序和故障定位;另一方面,内存和CPU的负载预测,热点盘的研究已经取得成效,经过验证,在联想真实数据的业务场景下,本项目方案可以有效工作。经过后续的验证和开发,本方案将可能作为联想集团云计算智能运维的工具使用。