Personal Notebook

Mingyi's Blog By Vibe Coding

写代码，写博客，也写一些还没来得及遗忘的想法。

阅读文章了解我

Hugo
Writing
Build in Public

最近文章

查看全部

practice

2026-05-08 9 min read

TensorRT-LLM + Triton Server 部署 Llama-3.2-1B-Instruct

记录使用 TensorRT-LLM 构建 Llama-3.2-1B-Instruct engine，并通过 Triton Server 部署推理服务的完整流程，重点说明 checkpoint 转换、engine 构建参数、Triton model repository 配置、OOM 排查和 fill_template.py 模板参数问题。

#TensorRT-LLM
#Triton Server
#LLM

阅读全文

practice

2026-04-29 7 min read

TensorRT-LLM 入门实战：Llama 模型量化与推理

TensorRT-LLM 入门教程，将 Llama-3.2-1B-Instruct 模型转换为 TensorRT-LLM 格式并进行 INT8 量化推理

#LLM
#TensorRT
#推理优化

阅读全文