LLM 核心概念速查表

一、模型类型与训练相关

中文	英文	简要说明
大语言模型	Large Language Model (LLM)	基于海量文本训练的语言生成与理解核心模型，通常参数量在十亿级别以上
基础模型 / 底座模型	Base Model / Foundation Model	仅完成预训练、未做指令微调的原始模型，具备通用语言能力但需二次优化才能直接使用
指令微调模型	Instruct-tuned Model	经过指令-回答数据微调，可直接响应用户指令，开箱即用
对话模型	Chat Model	专门面向多轮对话场景优化，适配日常聊天、问答交互
推理模型	Reasoning Model	经过强化学习训练，具备深度思考和逐步推理能力的模型，如 o1、DeepSeek-R1
MoE 模型	Mixture of Experts	混合专家架构模型，通过路由机制激活部分参数，在保持大参数量的同时降低推理成本
预训练	Pre-training	模型初期大规模无监督学习阶段，用于学习语言规律、积累世界知识
后训练	Post-training	预训练之后的训练阶段，包括指令微调、对齐、强化学习等
微调	Fine-tuning (FT)	在底座模型基础上，用特定任务数据继续训练，提升专项能力
指令微调	Instruction Tuning	特指用"指令-响应"格式数据微调，提升模型遵循用户意图的能力
对齐	Alignment	让模型输出符合人类价值观、伦理规范和用户预期的过程
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习，通过奖励模型优化模型输出质量
DPO	Direct Preference Optimization	直接偏好优化，无需训练奖励模型的对齐方法，训练更简单高效
高效微调	Parameter-Efficient Fine-Tuning (PEFT)	仅微调模型少量参数，大幅节省显存和计算资源，适配本地部署

二、模型结构与参数

中文	英文	简要说明
参数	Parameter	模型内部可学习的权重和偏置，决定模型的学习能力
参数量	Number of Parameters	模型参数的总数量，7B=7 Billion（70亿），8B=80亿，是模型规模的核心指标
活跃参数	Active Parameters	MoE模型推理时实际参与计算的参数数量，决定实际推理开销
Transformer	Transformer	目前大模型的主流基础架构，由编码器（Encoder）和解码器（Decoder）组成
注意力机制	Attention	模型核心机制，用于关注文本中不同部分的关联关系，理解上下文
自注意力	Self-Attention	Transformer的核心模块，让文本中每个token都能关注到自身及其他token
多头注意力	Multi-Head Attention (MHA)	并行使用多组注意力机制，捕捉文本不同维度的关联，提升模型表达能力
GQA	Grouped-Query Attention	分组查询注意力，在性能和效率间取得平衡，LLaMA2等模型采用
MQA	Multi-Query Attention	多查询注意力，显著减少KV Cache显存占用，提升推理速度
上下文窗口	Context Window	模型一次能处理的最大文本长度范围，超出范围会丢失上下文信息
上下文长度	Context Length	同"上下文窗口"，单位为token，常见规格有8K、32K、128K、1M等
RoPE	Rotary Position Embedding	旋转位置编码，主流的位置编码方式，支持外推扩展上下文长度
滑动窗口注意力	Sliding Window Attention	限制注意力范围以降低计算复杂度，Mistral等模型采用
Flash Attention	Flash Attention	高效注意力计算实现，大幅减少显存占用并加速训练和推理

三、Tokenizer（分词器）相关

中文	英文	简要说明
分词器	Tokenizer	大模型的"语言翻译官"，负责将人类文本转换为模型可识别的最小单位（token）
词元 / 令牌	Token	模型处理文本的最小单位，可是汉字、子词、英文单词或字符
词汇表	Vocabulary	分词器内置的所有token集合，模型仅能识别词汇表内的token
词汇表大小	Vocabulary Size	词汇表中token的总数，影响模型参数量和语言覆盖能力
子词分词	Subword Tokenization	主流分词方式，将文本拆分为词、子词或字符，兼顾效率和稀有词覆盖度
字节对编码	Byte Pair Encoding (BPE)	最常用的分词算法，LLaMA、GPT、Qwen等主流模型均采用
SentencePiece	SentencePiece	端到端的分词工具，支持BPE和Unigram算法，训练新分词器的首选
编码	Encode	分词器的核心功能之一，将人类文本 → token → 数字ID（模型可计算的格式）
解码	Decode	分词器的核心功能之一，将模型输出的数字ID → token → 人类可读懂的文本
特殊标记	Special Tokens	分词器中预留的特定功能token，如 `<PAD>`、`<EOS>`、`<BOS>` 等
填充标记	Padding Token	用于将不同长度的序列对齐到相同长度，便于批量处理
序列截断	Truncation	当输入超过最大长度时，截断文本以适应模型限制

四、量化与精度相关

中文	英文	简要说明
量化	Quantization	通过降低模型权重的精度，减少显存占用和计算量，适配本地低配置GPU
INT4 / INT8 量化	INT4 / INT8 Quantization	最常用的低精度量化格式，INT4占用显存最少，适配8G显存显卡
FP16	FP16	半精度浮点格式（16位），比FP32节省一半显存，常用于中端GPU推理
BF16	BF16	Brain Float 16，与FP16相比有更大的动态范围，现代GPU首选精度格式
FP32	FP32	单精度浮点格式（32位），模型训练的默认精度，显存占用最大
GPTQ 量化	GPTQ	常用的训练后量化方案，兼顾量化速度和效果，支持多数主流LLM
AWQ 量化	AWQ	激活感知权重量化，量化后模型性能下降少，显存占用更低
GGUF 格式	GGUF Format	llama.cpp项目推出的模型格式，支持CPU推理和多种量化级别，本地部署首选
GGML	GGML	GGUF的前身格式，已逐渐被GGUF取代
bitsandbytes	bitsandbytes	NVIDIA GPU上的8位优化器库，也支持4位/8位量化加载模型
量化感知训练	Quantization-Aware Training (QAT)	训练过程中模拟量化效果，使模型适应低精度，精度损失更小
混合精度	Mixed Precision	训练或推理时混合使用不同精度，在效率和精度间取得平衡

五、模型格式与转换

中文	英文	简要说明
模型格式	Model Format	模型权重存储的文件格式，不同框架和推理引擎有不同偏好
SafeTensors	SafeTensors	Hugging Face 推出的安全模型格式，防止恶意代码注入，目前主流格式
PyTorch (.pt/.bin)	PyTorch Format	PyTorch 原生模型格式，支持 pickling，存在安全风险
ONNX	ONNX	开放神经网络交换格式，支持跨框架部署，兼容性好
GGUF	GGUF	llama.cpp 专用格式，支持CPU/GPU混合推理，本地部署主流选择
TensorRT 引擎	TensorRT Engine	NVIDIA TensorRT 优化后的二进制格式，推理速度最快但不跨平台
模型转换	Model Conversion	将模型从一种格式转换为另一种，如 PyTorch → ONNX → TensorRT
权重共享	Weight Tying	输入嵌入层和输出层共享权重，减少参数量
分片模型	Sharded Model	将大模型拆分为多个文件存储，便于下载和加载

六、推理引擎与框架

中文	英文	简要说明
推理引擎	Inference Engine	优化模型推理速度的工具，如 vLLM、LMDeploy、TensorRT-LLM
vLLM	vLLM	高吞吐量推理引擎，采用 PagedAttention 技术，生产环境首选
LMDeploy	LMDeploy	商汤科技推出的推理引擎，支持 Turbomind 和 PyTorch 后端
TensorRT-LLM	TensorRT-LLM	NVIDIA 官方推理引擎，针对 NVIDIA GPU 深度优化，性能最佳
llama.cpp	llama.cpp	C++ 实现的轻量级推理框架，支持CPU推理，本地部署首选
Ollama	Ollama	基于 llama.cpp 的封装工具，简化本地模型部署，一键运行
Text Generation WebUI	Text Generation WebUI	常用的本地大模型图形界面，支持多种后端和模型格式
Hugging Face Transformers	Transformers	最流行的模型库和框架，提供统一的模型加载和推理接口
PyTorch	PyTorch	Meta 开发的深度学习框架，灵活易用，研究和生产皆适用
ONNX Runtime	ONNX Runtime	微软推出的跨平台推理引擎，支持ONNX格式模型
OpenVINO	OpenVINO	Intel 推出的推理优化工具包，针对 Intel CPU/GPU 优化
SGLang	SGLang	高效的结构化生成语言，优化复杂提示词的执行效率
Triton Inference Server	Triton	NVIDIA 推出的生产级推理服务框架，支持多模型多后端

七、推理优化技术

中文	英文	简要说明
推理	Inference	模型加载权重后，接收用户输入（prompt）并生成输出的过程
预填充	Prefill	处理用户输入的初始阶段，并行计算所有输入token的KV Cache
解码	Decoding	逐token生成输出的阶段，每步生成一个token
显存	GPU Memory / VRAM	显卡专用内存，决定能加载的模型规模，如RTX 4090 24G即24G VRAM
共享内存	Shared Memory	从系统内存中划分给显卡使用的部分，速度慢，无法用于正常模型推理
KV Cache	KV Cache	推理时存储上下文注意力信息，加速后续生成，减少重复计算
PagedAttention	PagedAttention	vLLM 的核心创新，将 KV Cache 分页管理，显存利用率接近100%
连续批处理	Continuous Batching	动态调整批次，有请求完成立即加入新请求，大幅提升吞吐量
投机采样	Speculative Decoding	用小模型快速生成候选token，大模型验证，加速推理
投机执行	Speculative Execution	推测采样的另一说法，通过并行计算加速生成
Flash Attention	Flash Attention	IO感知的高效注意力算法，减少显存访问，加速训练和推理
Flash Decoding	Flash Decoding	优化解码阶段的注意力计算，提升长上下文生成速度
模型并行	Model Parallelism	将模型拆分到多个GPU上运行，支持超大模型推理
张量并行	Tensor Parallelism (TP)	将单个算子的计算拆分到多GPU，降低延迟
流水线并行	Pipeline Parallelism (PP)	将模型层拆分到多GPU，类似流水线处理，提升吞吐
序列并行	Sequence Parallelism	将长序列拆分到多GPU处理，支持超长上下文
批处理	Batching	同时处理多个请求，提升GPU利用率和吞吐量
动态批处理	Dynamic Batching	运行时动态组装批次，平衡延迟和吞吐
算子融合	Operator Fusion	将多个连续算子合并为一个，减少显存访问开销
图优化	Graph Optimization	优化计算图结构，如常量折叠、死代码消除等

八、服务部署与API

中文	英文	简要说明
API 服务	API Service	通过HTTP接口提供模型推理能力，便于集成到各类应用
OpenAI 兼容 API	OpenAI Compatible API	遵循 OpenAI API 格式的接口，方便切换不同模型后端
RESTful API	RESTful API	基于 HTTP 的 API 设计风格，使用 JSON 格式交互
gRPC	gRPC	高性能 RPC 框架，支持流式传输，适合内部服务通信
流式响应	Streaming Response	通过 SSE 等技术逐token返回结果，提升用户体验
SSE	Server-Sent Events	服务端推送技术，常用于实现流式输出
WebSocket	WebSocket	全双工通信协议，支持实时双向数据传输
推理服务器	Inference Server	专门用于运行模型推理的服务端程序
模型服务化	Model Serving	将模型封装为可调用的服务，提供负载均衡、监控等能力
TGI	Text Generation Inference	Hugging Face 推出的生产级推理服务器
vLLM Server	vLLM Server	vLLM 内置的 OpenAI 兼容 API 服务器
负载均衡	Load Balancing	将请求分发到多个模型实例，提升整体处理能力
请求队列	Request Queue	排队等待处理的请求集合，合理管理避免服务过载
并发限制	Concurrency Limit	同时处理的请求数上限，防止资源耗尽
超时设置	Timeout	请求处理的最大等待时间，超时则返回错误
健康检查	Health Check	定期检测服务状态，确保服务可用性
模型热加载	Hot Loading	不停机加载新模型或更新模型，保证服务连续性
多模型部署	Multi-model Deployment	同一服务中部署多个模型，支持不同任务或A/B测试
容器化部署	Container Deployment	使用 Docker 等容器技术部署模型服务，便于管理和扩展
Docker	Docker	最流行的容器化平台，简化应用打包和部署
Kubernetes	Kubernetes (K8s)	容器编排平台，支持自动扩缩容和服务管理
Helm Chart	Helm Chart	Kubernetes 应用的打包格式，简化部署配置
Ray Serve	Ray Serve	基于 Ray 的模型服务框架，支持自动扩缩容
BentoML	BentoML	机器学习模型服务化框架，简化部署流程

九、硬件与加速

中文	英文	简要说明
GPU	Graphics Processing Unit	图形处理器，大模型推理和训练的核心硬件
CPU	Central Processing Unit	中央处理器，可用于小模型推理，速度较慢
TPU	Tensor Processing Unit	Google 专用的 AI 加速芯片，针对张量运算优化
NPU	Neural Processing Unit	神经网络处理器，如华为昇腾、苹果 Neural Engine
CUDA	CUDA	NVIDIA 的并行计算平台，GPU 加速的基础
CUDA Core	CUDA Core	NVIDIA GPU 的基础计算单元
Tensor Core	Tensor Core	NVIDIA GPU 的专用矩阵计算单元，大幅加速 AI 计算
cuDNN	cuDNN	NVIDIA 的深度学习加速库，提供高效的神经网络算子
NCCL	NCCL	NVIDIA 的多GPU通信库，支持分布式训练和推理
显存带宽	Memory Bandwidth	显存的数据传输速率，影响大模型加载和推理速度
内存带宽	Memory Bandwidth	系统内存的数据传输速率，影响CPU推理性能
互联带宽	Interconnect Bandwidth	多GPU之间数据传输速率，如 NVLink、PCIe
NVLink	NVLink	NVIDIA 的高速GPU互联技术，带宽远超 PCIe
PCIe	PCIe	外设互联标准，GPU与CPU通信的主要通道
多卡推理	Multi-GPU Inference	使用多张GPU协同推理，支持更大模型或更高吞吐
GPU 虚拟化	GPU Virtualization	将GPU资源切分给多个用户或任务使用
MIG	Multi-Instance GPU	NVIDIA 技术，将单张GPU虚拟化为多个独立实例
CPU 卸载	CPU Offloading	将部分模型权重存储在内存，按需加载到显存
磁盘卸载	Disk Offloading	将模型权重存储在磁盘，进一步降低内存需求
零拷贝	Zero Copy	减少数据在内存和显存间的复制，提升效率

十、生成与对话相关

中文	英文	简要说明
提示词	Prompt	用户输入给模型的指令、问题或上下文，引导模型生成对应内容
系统提示	System Prompt	用于设定模型的角色、行为规则和回答风格（如"你是一名技术专家"）
提示词模板	Prompt Template	预定义的提示词结构，便于快速构建标准化的输入
上下文学习	In-Context Learning (ICL)	通过在提示词中提供示例，让模型快速适应新任务
少样本学习	Few-shot Learning	在提示词中提供少量示例，引导模型理解任务格式
零样本学习	Zero-shot Learning	不提供任何示例，仅通过指令让模型完成任务
温度系数	Temperature	控制模型生成内容的随机性，值越高越随机，值越低越严谨
Top-p 采样	Top-p Sampling (Nucleus Sampling)	从累积概率达到 p 的最小候选集中采样，控制生成多样性
Top-k 采样	Top-k Sampling	只从概率最高的 k 个候选token中采样，过滤低概率选项
重复惩罚	Repetition Penalty	降低生成重复内容的概率，值越大惩罚越强
最大生成长度	Max New Tokens	模型在用户输入之外，最多能生成的token数量，防止生成过长内容
流式输出	Streaming Output	模型逐token实时输出结果，无需等待全部生成完成，提升交互体验
停止词	Stop Strings / Stop Tokens	遇到特定字符串或token时停止生成，控制输出边界
幻觉	Hallucination	模型编造不存在的事实、数据或逻辑，属于模型输出偏差的一种
提示词注入	Prompt Injection	恶意用户通过特殊输入覆盖系统提示，诱导模型执行非预期行为
越狱攻击	Jailbreak Attack	通过特定提示词绕过模型的安全限制，诱导生成有害内容
RAG	Retrieval-Augmented Generation	检索增强生成，结合外部知识库提升模型回答的准确性和时效性
向量数据库	Vector Database	存储文本向量表示的数据库，支持相似度检索，RAG 系统核心组件
嵌入模型	Embedding Model	将文本转换为向量表示的模型，用于语义检索和相似度计算

十一、任务与能力相关

中文	英文	简要说明
自然语言理解	Natural Language Understanding (NLU)	模型理解文本语义、情感、意图的能力（如读懂问题、分析情绪）
自然语言生成	Natural Language Generation (NLG)	模型生成通顺、符合逻辑的人类语言的能力（如写文案、编故事）
文本摘要	Text Summarization	模型提炼长文本核心内容，生成简洁摘要的能力
文本翻译	Machine Translation	模型在不同语言之间进行互译的能力（如中译英、英译日）
代码生成	Code Generation	模型根据自然语言指令，生成符合语法、可运行代码的能力
代码补全	Code Completion	模型根据上下文自动补全代码的能力，提升开发效率
代码解释	Code Explanation	模型解释代码功能、逻辑和意图的能力
思维链	Chain-of-Thought (CoT)	让模型分步推理、逐步输出思考过程，提升复杂问题的解决能力
多模态	Multimodal	模型处理多种模态（文本、图像、音频、视频）的能力
视觉语言模型	Vision-Language Model (VLM)	能理解图像并生成文本描述或回答图像相关问题的模型
函数调用	Function Calling	模型根据用户需求调用外部工具或API的能力
工具使用	Tool Use	模型调用外部工具（如搜索、计算器）完成任务的能力
Agent	AI Agent	具有自主规划、工具使用、多步推理能力的智能体
评估基准	Benchmark	用于评估模型能力的标准化测试集，如 MMLU、GSM8K、HumanEval
困惑度	Perplexity (PPL)	衡量模型预测文本能力的指标，值越低表示模型越好
输出吞吐量	Output Throughput	单位时间内模型生成的token数量，衡量推理效率
首 token 延迟	Time to First Token (TTFT)	从发送请求到生成第一个token的时间，影响用户等待体验
端到端延迟	End-to-End Latency	从发送请求到完成整个响应的总时间