记录使用 TensorRT-LLM 构建 Llama-3.2-1B-Instruct engine,并通过 Triton Server 部署推理服务的完整流程,重点说明 checkpoint 转换、engine 构建参数、Triton model repository 配置、OOM 排查和 fill_template.py 模板参数问题。
Tags
Tags
记录使用 TensorRT-LLM 构建 Llama-3.2-1B-Instruct engine,并通过 Triton Server 部署推理服务的完整流程,重点说明 checkpoint 转换、engine 构建参数、Triton model repository 配置、OOM 排查和 fill_template.py 模板参数问题。