践行深度用云:主机上云 运维现代化核心能力

践行深度用云主机上云运维现代化核心能力华为云计算技术有限公司尚海峰 胡玉海 贡 青 刘征辉 林丽鑫支新辉 王 飞 徐 俊郭晓征 耿丽丽 马晓明 毛明强 张志炯 张 毅王进行 马 韬 石 松黄征彬 熊洪槐 钱 沛 秦丹涛 张瀚文 闻 涛张 江 王 珂 石 沛 李 松 李 晋 彭永红胡 堃 程紫东 姚 博 田应军 席 彬 王乐晓刘 杰 张任远 张 凯 关建峰 赵静敏王 瑞编制委员会P R E P A R A T I O N C O M M I T T E E主 编 单 位编 委 顾 问编 审 组 成 员主 编 人 员参 编 人 员责 任 编 辑(排名不分先后) 去三四十年,金融核心系统主要采用集中式主机架构进行建设。 随着金融业务数字化转型需求的不断深化,云计算技术的持续演进,金融机构普遍采用了云原生相关技术进行业务改造,更有不少头部大行作为先行者,率先将主机承载的核心系统业务也迁移上云,加速了金融行业数智化、自主创新进程。目前,大部分国有银行和股份制银行已经完成了从一般类业务上云到核心类业务上云改造的试点工作,进入到核心业务批量上云改造阶段。柜面系统、网银系统、信贷系统、投资理财系统、信用卡系统等核心交易系统陆续迁移到云上,使得金融云平台承载的业务规模不断扩大,重要性不断攀升。随之而来的是,业务对持续高可用的要求更加苛刻,尤其是核心业务上云后,任何业务中断都会引发重大的影响。金融对公众开放的核心业务一旦中断会造成严重的社会影响甚至引发信用危机。除业务中断外,业务的劣化,如卡顿、报错等,也会造成最终用户的不满和投诉。这就对承载核心业务的云平台提出了更高的稳定性、可靠性要求。除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。华为云基于自身云平台运维经验,以及服务上百家金融客户数字化转型的实践,持续积累主机上云场景的运维核心能力,并沉淀了一套全面构建稳定可靠的现代化运维能力的路径和方法,期望助力金融企业加快实现主机业务的全面云化。过序言P R E A M B L E尚海峰华为主机上云军团CEO、混合云总裁目录C O N T E N T S结语443主机上云运维现代化核心能力09-432.1 平台运维现代化2.1.1 全链路运维监控构建从应用到云平台的全栈感知能力2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复2.1.3 基于一体化风险库和混沌工程进行预见性风险治理2.2 应用运维现代化2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平2.3 安全运维现代化2.3.1 全视角运维安全体系设计构筑金融云运维安全堤坝2.3.2 体系化、智能化安全运营为云上业务保驾护航2主机上云带来的运维新挑战05-081.1 挑战1:如何基于应用视角设计高可用上云方案与高可靠运维保障方案1.2 挑战2:云平台技术栈快速增厚,如何有效进行全链路可视监控1.3 挑战3:云网深度融合,如何快速发现、定位、恢复问题11.4 挑战4:如何应对运维安全与租户安全的双重挑战主机上云带来的运维新挑战挑战1:如何基于应用视角设计高可用上云方案与高可靠运维保障方案主机上云的最大挑战就是核心应用上云后的可用性管理。随着原来运行在大机上的应用不断迁移上云,云上的业务可用性等级要求被提升到了新的高度,传统的运维手段已经无法满足核心业务N个9的可用性目标。可用性管理前置到了系统设计乃至应用设计阶段。即便如此,可用性管理依然面临着成本、技术和管理的三重挑战。首先,无论是备份、主备、多活还是业务单元化改造,所有的高可用的架构设计都需要投入高昂的成本,高可用的效果和技术方案的投入成本成正相关关系。如何平衡高可用的投入与产出就成为IT管理者在高可用管理过程中的重要难题。其次,高可用设计是一系列技术方案的组合,从底层网络设计、到云服务的有效运用以及高可用技术工具的选型,从业务部署架构的改造到上层业务的单元化改造,每个层次都涉及多种技术的使用与配合。如何让现有的技术手段以及云服务发挥最大的效能,如何基于先进的单元化设计理念达成核心应用N个9的可靠性也是IT管理者面临的难题。最后,服务SLA(Service Level Agreement, 服务水平协议)的达成还需要有相匹配的管理手段与工具,如故障模式库、演练工具等资源作为支撑,不但要能有效跟踪度量SLA的实际效果,还需要持续、主动发现可用性风险的机制与工具,在可用性管理的过程中实现数据积累和能力演进。挑战2:云平台技术栈快速增厚,如何有效进行全链路可视监控随着主机上云和业务云化转型的持续深入,分布式数据库、中间件、AI、大模型等各种云原生技术被广泛应用。新服务、新技术的迭代加速,犹如一柄双刃剑,在助力业务快速发展、快速创新的同时,也带来了系统技术栈复杂度的急剧提升,给传统的IT运维方式带来巨大冲击。例如,应用的微服务化改造,带来微服务数量的指数级增长,应用的调用层次和调用关系变得冗长;分布式云原生的深度应用,使得业务链路更加复杂。当上层业务应用出现故障时,排障过程可能涉及从应用到网络的完整链路,这其中包含业务应用、云服务实例、云基础设施和服务器、网络、存储等物理设备。典型的业务流量路径如:应用>容器>PaaS实例>虚拟机>服务器>虚拟网络>物理网络。在针对这个路径的运维实际工作中,应用、虚拟机软件提供方、服务器和网络设备提供方常常是各管一段,整个业务从上到下的全栈调用路径往往是个黑盒,导致故障定位定界困难,或者恢复时长无法控制。面对IT系统复杂的技术栈及海量的运维对象,做到软硬件运维对象的统一管理,指标、告警、日志、调用链、拓扑等运维数据的统一汇聚和分析,构建全链路故障感知、全栈故障可视的运维体验,对于金融主机上云过程中的运维工作至关重要。挑战3:云网深度融合,如何快速发现、定位、恢复问题过去一年,在互联网领域发生过多起颇为严重的宕机事故:2023年3月,某互联网服务商发生机房故障,多个互联网核心应用受到影响,事故持续7个小时,影响约十几亿用户。2023年11月,某云服务商旗下多款应用出现无法登录故障,事故持续4个小时, 这是该云服务商时06隔一年之后第二次出现严重故障。2023年11月,某互联网服务公司核心应用业务瘫痪接近12个小时,流失千万订单,直接损失上亿元,引发了广泛的社会关注。总

立即下载
电子设备
2025-02-20
华为
郭晓征,耿丽丽,马晓明,毛明强,张志炯,张毅,王进行,马韬,石松
46页
2.47M
收藏
分享

[华为]:践行深度用云:主机上云 运维现代化核心能力,点击即可下载。报告格式为PDF,大小2.47M,页数46页,欢迎下载。

本报告共46页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共46页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
半导体销售金额(十亿美元)
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
半导体材料相关产品当日价格
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
磷酸铁锂、三元电池装机量(兆瓦时) 图 14:新能源汽车产销量(万辆)
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
新能源材料相关产品当日价格
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
饲料及添加剂相关产品当日价格
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
硅相关产品当日价格
电子设备
2025-02-20
来源:石化化工交运行业日报第21期:国产机器人产业进展加速,继续看好机器人产业链化工材料
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起