vllm报错out of memory解决

通过调低–gpu-memory-utilization的比例(默认为0.9),可以避免此问题

1
2
3
4
5
6
7
8
model = LLM(
args.model_name_or_path,
trust_remote_code=True,
tensor_parallel_size=num_gpus,
max_model_len = 2048,
gpu_memory_utilization=0.8
)


vllm报错out of memory解决
https://abigail61.github.io/2024/11/23/原创-- vllm报错out of memory解决/
作者
Yajing Luo
发布于
2024年11月23日
许可协议