您的位置:
首页
>
中文期刊论文
>
详情页
MQLserve:基于量化的多任务大语言模型服务系统
- 作 者:
-
符芳诚;
夏义扉;
崔斌;
- 作者机构:
-
北京大学信息科学技术学院;
- 关键词:
-
LoRA;
量化;
多LoRA任务服务系统;
多任务调度;
- 期刊名称:
- 计算机学报
- i s s n:
- 0254-4164
- 年卷期:
-
2025 年
48 卷
003 期
- 页 码:
- 517-536
- 摘 要:
-
随着大语言模型(LLMs)的不断发展,针对各种各样下游任务进行微调并部署的需求也与日俱增,以LoRA为代表的高效微调技术和以GPTQ、AWQ为代表的模型量化技术发挥着至关重要的作用。然而,尽管这些技术在单任务场景下已经有了众多成熟应用,但在多任务场景却鲜有研究。具体来说,由于主流的量化方法会导致基座大模型无法在任务之间共享,现有多任务服务系统难以结合量化进行部署,限制了其在资源受限场景下的可用性。此外,现有多任务服务系统缺乏灵活的动态任务实时添加能力和针对多任务场景的调度算法支持,往往导致其系统的低吞吐、高延迟、低响应时间和极差的灵活性。本文针对现有LLM服务系统在多任务场景下的不足,创新地提出了一个多LoRA任务服务系统MQLserve。一方面,本系统设计了一种灵活高效的动态多任务量化算法,支持多任务的模型联合量化,赋能多任务场景下量化模型的共享,显著降低了模型部署的显存需求;同时支持实时的动态任务添加,提升了线上服务的稳定性和灵活性。另一方面,本系统针对多任务场景,提出了一种新型的基于输出长度预测和聚类的调度算法,有效地解决了传统调度算法在多任务场景下存在的高昂显存开销和频繁显存切换等问题,提升了系统性能。实验结果表明,与现有多任务服务系统相比,MQLserve在不同负载场景下,吞吐提高了7.5%~58.1%,延迟降低了9.6%~43.3%,平均响应时间缩短了84.2%,平均SLO满足率提高了330%。
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...