乔彦辉:大模型在华为云数字化运维的全面探索和实践
大模型在华为云数字化运维的全面探索和实践演讲人:乔彦辉目 录01华为云智能运维发展之路02大模型使能运维规划03运维大模型难点和解法04总结和规划01华为云智能运维发展路线从单点,到复杂,再到自动化华为云AIOps发展之路-从单点,到复杂,再到自动化智能运维场景•日志模版分析(2018)•云服务单指标异常检测(2019)•告警智能压缩(2019)•网络多级异常检测(2020)•硬件故障预测(2021)•变更命令分级智能识别(2023)•变更人员匹配度评估(2023)•安全生产自动稽查(2023)•变更风控驾驶舱(2023)•串并联智能运维,可视,可决策,可执行(2021-2023)•大模型使能运维,LLM+运维Copilot(2024~)•单场景智能运维,传统ML算法(2018-2020)智能运维架构运维数据•自然语言问答,运维信息查询•运维知识检索•故障自动总结•故障案例推荐运维数据运维算法算法服务分析报表运维智能决策运维算法运维数据数据服务运维智能决策运维小模型运维数据运维大模型运维Copilot分析报表数据服务运维决策服务•KPI,告警,日志•KPI,告警,日志•变更数据•运维人员流程数据•运维语料•运维私有知识库运维决策服务02大模型使能运维总体规划聚焦高价值高门槛高人力场景,面向长期规划大模型使能运维业务规划:聚焦2条核心价值流,全面辅助运维人效提升场景WR故障处理流水线阶段起会故障通报影响评估故障定界故障恢复恢复验证故障复盘痛点 重复故障拉取通报内容生成繁琐,涉及大量人力影响面评估难:依赖少部分人人工查看监控、告警系统查询信息,效率低人工确认多个服务的恢复进展故障信息多处,人工总结耗时高机会点相似性识别:基于文本相似WR自动化判重内容生成:通过AI生成通报内容生成,并由值班经理确认后发布NL2Query:提供统一对话式查询能力NL2Query:提供对话式查询能力、支持查询告警,监控指标,变更、事件等信息相似故障信息推荐:故障预案推荐NL2Query:结合恢复步骤检测各云服务恢复情况内容生成:自动生成故障复盘报告场景事件单处理流水线阶段事件受理事件分流事件解决案例总结痛点定级不合理:事件单定级不合理,需要重新沟通确认定级分流不合理:针对事件描述和客户实际诉求反复沟通,信息分流复杂度高解决方案覆盖率和准确率低,且消费难:资料分散、缺少工具快速管理和检索知识案例没时间总结:案例书写耗时,质量和数量难以兼顾机会点智能分级:根据用户反馈结合大模型进行分级建议智能派单:根据派单规则和算法实现智能派单解决方案生成:检索知识库自动=生成解决方案案例生成:基于事件单自动生成案例TOP需求问答式运维信息查询故障预案推荐运维知识检索事件解决方案生成聚焦高门槛,高价值,高人力场景,拥抱大模型提升运维人效故障处理:2000+,平均参与人数10+ (非自愈)事件处理:10000+,月均参与人:200+故障信息总结生成构建运维盘古助手,聚焦运维人效提升,打造智能运维新高地•多触点构建: 构建运维助手多种触点模式,全面辅助运维场景,支持web,WeLink机器人和运维工具系统集成•运维Copilot Stack :构建运维Copilot能力集,实现端到端运维对话,意图理解,Agent和Tools建设,和运维大模型集成,实现运维大语言模型端到端构建;•运维大小模型协同计算:小模型聚焦确定性量化分析,大模型注重内容理解和生成•高质量运维知识语料中心:围绕运维知识数据收集,知识规范,知识管理和运维语料标注全面建设2143• 定位: 沉淀大模型使能运维标准方案,建设全面辅助问答交互能力,打造运维副驾驶AI Core多轮意图理解模型故障智能根因算法意图识别小模型Sop文档风险评估算法盘古大模型场景模型微调运维提示词工程RAG运维Copilot Stack意图识别运维场景路由意图增强运维内容检索运维信息查询故障根因推荐故障报告生成变更命令评估sop文档评估运维Skill运维信息查询Agent故障报告生成Agent故障根因推荐Agent变更评估Agent运维大小模型集成Cloud Copilot 框架Skill Builder数据管理模型管理运维知识语料中心运维“小”模型-确定性量化运维“大”模型-内容理解和生成运维大小模型协同计算独立Web端WeLink机器人运维工具系统集成运维盘古助手-多触点构建流程规范云服务故障模式库云服务故障预案库故障回溯报告运维对话语料事件案例1234故障分析根因诊断预案推荐事件规范WR规范变更规范查监控指标查告警查日志查事件查资源查关系故障处理方案生成事件处理运维知识检索运维信息查询大模型辅助运维子场景03运维大模型应用难点和解法围绕语料,知识,意图理解和复杂决策以及新交互实现大模型应用运维的确定性围绕运维大模型4大难点,构建6大方案4大难点:•语料少,知识质量差•大模型幻觉•大模型逻辑推理难•业务应用难,见效慢6大方案:•运维语料数据增强•全流程知识治理•确定性运维意图理解•增强RAG实践•基于确定性决策实现大小模型协同故障诊断方案•多触点集成方案,提升业务生产力华为云运维助手端到端链路流程运维助手运维操作类服务大模型结果知识类回复操作类回复客户问答模型作答结果任务匹配标准答案分发结果接入端Skill编排层数据层知识管理切片产品文档标准问答对知识管理向量化向量索引库模型管理知识训练管理模型层知识完整度路由分发中控问题改写意图分发(意图理解路由)意图路由分发纠错标准术语转换多轮改写意图理解准确率标注平台意图理解标注知识完备度标注知识检索标注模型作答标注知识增强检索RAG搜索召回精排模型作答高频语料匹配标准问答对模型训练模型部署知识答准率知识检索前改写语料管理运维语料数据语料收集生成评测优化运维语料数据增强:采用大模型合成数据和语料的持续迭代实现语料数据增强效果:1个月完成运维领域10+ 运维语料数据集的建设,语料质量80%关键点二:采用大模型合成数据快速构建语料数据运维语料生产过程故障处理报告原始语料数据集真实事件检索行为收集业务人员模拟问答通过提示词模版生成语料增强运维语料数据集真实问答冷启动阶段语料训练问答意图识别真实语料意图标注分析意识别图模型评估意图语料数据集修正符合预期真实应用阶段关键点一:围绕运维实际活动构建冷启动原始语料集,确保使用真实性和有效性关键点三:构建真实语料意图标注能力,持续进行运维语料的有效治理面临的问题: 1 获取语料难:原始真实语料少,如何获取真实问答语料2 真实语料少:冷启动阶段运维语料少3 运维语料持续治理难:运维语料数据配比和有效性证伪难全流程运维知识治理:确定运维知识地图,明确职责边界,统一知识管理和存储,构建知识消费运营体系关键点一:确定知识地图关键点二:明确知识Owner和知识责任人事件管理流程WR运作规范事件通报规范应急预案管理规范案例库通用流程/规范/指导书产品介绍文档关键点三:统一知识管理和存储关键点四:知识消费治理云服务事件解决方案案例库云服务产品说明文档知识Owner1、制定领域知识管理流程和内容规范2、领域知识的生命周期管理(更新、整合、下架等)知识责任人1、负责知识的产生与更新,对知识投稿评审确认。2、及时响应知识纠错、问题与需求。知
乔彦辉:大模型在华为云数字化运维的全面探索和实践,点击即可下载。报告格式为PDF,大小2.85M,页数26页,欢迎下载。