记录使用 TensorRT-LLM 构建 Llama-3.2-1B-Instruct engine,并通过 Triton Server 部署推理服务的完整流程,重点说明 checkpoint 转换、engine 构建参数、Triton model repository 配置、OOM 排查和 fill_template.py 模板参数问题。
Posts
文章
practice
TensorRT-LLM 入门实战:Llama 模型量化与推理
TensorRT-LLM 入门教程,将 Llama-3.2-1B-Instruct 模型转换为 TensorRT-LLM 格式并进行 INT8 量化推理
record
书签链接
一些有用的书签链接
practice
BERT 中文情感分析实战教程
BERT 中文情感分析实战教程,基于预训练 BERT 模型进行中文文本情感分析任务
从入门到精通的 Hugging Face 使用指南
Writting
LLM 核心概念速查表
大语言模型从基础到部署的完整概念索引
Build
Welcome to My Blog
用 Hugo 初始化博客后的第一篇文章。
Writing
Writing With Hugo
从 0 到 GitHub Pages 上线:我的 Hugo 博客完整搭建与写作流程。