大语言模型服务管理的实践分享
大语言模型服务管理的实践分享王夕宁/马元元 阿里云演讲嘉宾王夕宁阿里云容器服务技术研发负责人 阿里云容器服务Kubernetes及Service Mesh技术研发负责人,拥有100多项相关领域的国际技术专利, 专注于Kubernetes/云原生/服务网格等领域。曾在IBM研发中心工作, 担任资深架构师和技术专家,主导和参与了一系列 SOA 中间件和云计算领域的产品研发,并曾担任中国研发中心专利技术评审委员会主席。出席过行业内多个技术大会,包括 Kubecon、InfoQ、ArchSummit、IstioCon 和云栖大会等。同时,著有畅销书《Istio 服务网格解析与实战》。目 录CONTENTS1.LLM服务管理的特征与挑战2.应对思路与方案3.现有的技术基础之上扩展支持4.MSM: 用于管理 GenAI/LLM 工作负载的统一方式LLM服务管理的特征与挑战PART 01GenAI/LLM服务管理面临独特的挑战传统网络流量管理GenAI/LLM流量管理•请求/响应大小较小•由于多模态流量,请求/响应大小较大•许多查询可以并行处理•单个大语言模型查询经常占用100%的TPU/GPU计算时间•请求一到达就进行处理•请求等待可用的计算资源•处理时间以毫秒计算•处理时间从几秒到几分钟不等•相似请求可以从缓存中得到处理•每次请求通常生成唯一内容•请求成本由后端管理•根据请求将流量路由到更便宜或更昂贵的模型•传统的轮询或基于利用率的流量管理•具备AI感知的负载均衡能力流量请求调度 Traffic Request Schedulingv 基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。v 利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。Ø 由于GenAI/LLM模型的⾃回归特性,LLM推理请求的有效服务⾯临不可预测的执⾏时间的挑战。Ø LLM服务系统⼤多采⽤先进先出(FCFS)调度,遭受⾏⾸阻塞( head-of-line )问题。应对思路与方案PART 02SSJF调度器 - 引入Token长度预测器• 输出Token长度(N)决定了请求的执行时间(T),因为T = C + K × N,•K是生成一个标记的延迟,•C是模型服务系统的开销,包括DNS查找、代理、排队和输入标记化。•K取决于模型优化技术(例如,量化)和执行环境(例如,硬件),对于所有输入都是相同的。• 输出Token长度决定执行时间(线性关系)End UsersR1R2R3···Request PoolSSJF调度器- Speculative Shortest Job First请求队列的处理GPU集群模型服务请求批处理Output Token Length Predictor<Model, Input>预测Token长度Ref:https://github.com/James-QiuHaoran/LLM-serving-with-proxy-models智能工作负载优先级调度目标服务获得令牌的请求处理令牌?获得令牌或者继续等待令牌填充率低优先级中优先级高优先级分类令牌桶WFQ调度器丢弃的请求处理•服务在处理每个请求之前都会与代理进行校验。•对请求进行标记•加权公平排队调度器实施优先级和公平性。智能工作负载管理 – 流量调度管理套件统一的流量请求调度器统一的策略资源定义及控制器•优先处理工作负载,保障关键用户体验路径•使用权重公平排队, 根据业务价值和请求紧急程度调整资源分配,来实现应用程序的优雅降级•自适应调整请求速率限制, 保护服务不受过载和级联故障的影响•通过细粒度标签识别单个用户,根据业务特定标签控制爆发能力和填充速率;•限制每个用户或全局并发中请求的并发量;• 使用全局令牌桶和智能请求排队,根据重要性安排请求• 和限流不同,若请求速率超过限制,此时请求不会被直接拒绝,而是进入一个优先级队列,在保证请求速率始终在限制内的同时对请求进行优先级调度。• 通过限制并发中请求的数量,防范服务突然过载。• 超出此限制的任何请求将进入队列,并根据它们的优先级在有能力提供服务时予以处理• 用于根据重要性调度请求,同时确保应用遵守并发限制。• 基于闭环反馈来逐步增加系统的工作负荷或请求量,而不是瞬间施加大的负载。• 能够帮助系统逐步适应增加的负荷,从而确保系统在负载增加过程中仍然稳定运行,并最大限度地减少对系统的冲击。•通过缓存成本高昂的操作,防止对按使用付费服务的重复请求,•减轻对受限服务的负载,提升应用程序性能并降低成本流量调度管理套件基于现有技术还是从零开始?YAMLDev/Ops/SRE控制面组件网格代理网格代理应用服务实例A应用服务实例BSidecarSidecarContainerContainerMachine/PodMachine/PodData控制平面层数据平面层业务应用层RequestPodConfigurationConfiguration服务网格技术通过扩展插件增强AI服务管理模型网格代理请求信息转换自定义日志与监控指标提示词预处理请求方模型推理服务DLP数据丢失预防(敏感信息防护)插件市场 开箱即用的扩展能力提示词保护提示词修饰响应信息转换现有的技术基础之上扩展支持PART 03声明式API支持增强AI服务管理模型网格代理请求信息转换自定义日志与监控指标提示词预处理请求方模型推理服务DLP数据丢失预防(敏感信息防护)提示词保护提示词修饰响应信息转换LLMSecurityPolicy声明式用户接口LLMRouteIstio原生APILLMProviderLLM请求路由LLMProvider外部LLM服务管理LLMRouteServiceEntryVirtualService外部HTTP服务管理相比普通的网关,ASM支持更多使用场景•客户端通过入口网关直接访问外部LLM服务。(二方业务)•集群内服务访问外部LLM服务。(三方业务)业务Pod出口网关ServiceEntry入口网关外部服务用户集群业务Pod出口网关LLMProvider入口网关外部LLM服务用户集群LLM请求路由外部HTTP服务管理基础设施级别的LLM请求路由支持:应用无感、动态配置、灵活切换根据用户身份动态调整后端模型按比例在多个Provider之间分发流量业务PodLLMProvider灵积灵积服务用户集群qwen-1.8b-chatqwen-turbo普通用户订阅用户业务PodLLMProvider灵积用户集群50%LLMProvider Moonshot灵积服务Moonshot50%LLM请求路由访问外部 LLMProvider•自动完成HTTP到HTTPS协议升级•自动配置model、stream以及API_KEY。业务Pod出口网关LLMProvider入口网关外部LLM服务用户集群LLM请求路由根据用户身份动态调整后端模型业务PodLLMProvider灵积灵积服务用户集群qwen-1.8b-chatqwen-turbo普通用户订阅用户LLM请求路由按比例在多个Provider之间分发流量业务PodLLMProvider灵积用户集群50%LLMProvider Moonshot灵积服务Moonsh
[中智凯灵(北京)科技]:大语言模型服务管理的实践分享,点击即可下载。报告格式为PDF,大小12.69M,页数30页,欢迎下载。
