58.人工智能实战:大模型线上压测怎么做?从前期发现 P99 抖动到真实负载、长稳压测与容量基线

张开发
2026/5/12 1:59:30 15 分钟阅读

分享文章

58.人工智能实战:大模型线上压测怎么做?从前期发现 P99 抖动到真实负载、长稳压测与容量基线
人工智能实战:大模型线上压测怎么做?从前期发现 P99 抖动到真实负载、长稳压测与容量基线一、问题场景:短压测没问题,真实上线一小时后开始超时很多大模型系统上线前都会压测。但不少压测只是:并发10 跑5分钟 接口都返回200然后就认为系统没问题。真实上线后却出现:1. P99 抖动严重 2. 队列逐渐积压 3. 显存越来越紧张 4. 流式首 token 变慢 5. 长请求拖慢短请求 6. 运行一小时后超时率升高这说明:大模型系统压测不能只看 QPS,也不能只做短时间压测。我之前遇到过一个系统:5分钟压测:P95 3.2s 1小时长稳压测:P95 7.8s,P99 25s根因是:长上下文请求逐渐增加,队列中长任务堆积,短任务被拖慢。本文解决的问题是:如何设计大模型线上压测方案,覆盖真实请求长度、

更多文章