一、模型类型与训练相关

中文英文简要说明
大语言模型Large Language Model (LLM)基于海量文本训练的语言生成与理解核心模型,通常参数量在十亿级别以上
基础模型 / 底座模型Base Model / Foundation Model仅完成预训练、未做指令微调的原始模型,具备通用语言能力但需二次优化才能直接使用
指令微调模型Instruct-tuned Model经过指令-回答数据微调,可直接响应用户指令,开箱即用
对话模型Chat Model专门面向多轮对话场景优化,适配日常聊天、问答交互
推理模型Reasoning Model经过强化学习训练,具备深度思考和逐步推理能力的模型,如 o1、DeepSeek-R1
MoE 模型Mixture of Experts混合专家架构模型,通过路由机制激活部分参数,在保持大参数量的同时降低推理成本
预训练Pre-training模型初期大规模无监督学习阶段,用于学习语言规律、积累世界知识
后训练Post-training预训练之后的训练阶段,包括指令微调、对齐、强化学习等
微调Fine-tuning (FT)在底座模型基础上,用特定任务数据继续训练,提升专项能力
指令微调Instruction Tuning特指用"指令-响应"格式数据微调,提升模型遵循用户意图的能力
对齐Alignment让模型输出符合人类价值观、伦理规范和用户预期的过程
RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习,通过奖励模型优化模型输出质量
DPODirect Preference Optimization直接偏好优化,无需训练奖励模型的对齐方法,训练更简单高效
高效微调Parameter-Efficient Fine-Tuning (PEFT)仅微调模型少量参数,大幅节省显存和计算资源,适配本地部署

二、模型结构与参数

中文英文简要说明
参数Parameter模型内部可学习的权重和偏置,决定模型的学习能力
参数量Number of Parameters模型参数的总数量,7B=7 Billion(70亿),8B=80亿,是模型规模的核心指标
活跃参数Active ParametersMoE模型推理时实际参与计算的参数数量,决定实际推理开销
TransformerTransformer目前大模型的主流基础架构,由编码器(Encoder)和解码器(Decoder)组成
注意力机制Attention模型核心机制,用于关注文本中不同部分的关联关系,理解上下文
自注意力Self-AttentionTransformer的核心模块,让文本中每个token都能关注到自身及其他token
多头注意力Multi-Head Attention (MHA)并行使用多组注意力机制,捕捉文本不同维度的关联,提升模型表达能力
GQAGrouped-Query Attention分组查询注意力,在性能和效率间取得平衡,LLaMA2等模型采用
MQAMulti-Query Attention多查询注意力,显著减少KV Cache显存占用,提升推理速度
上下文窗口Context Window模型一次能处理的最大文本长度范围,超出范围会丢失上下文信息
上下文长度Context Length同"上下文窗口",单位为token,常见规格有8K、32K、128K、1M等
RoPERotary Position Embedding旋转位置编码,主流的位置编码方式,支持外推扩展上下文长度
滑动窗口注意力Sliding Window Attention限制注意力范围以降低计算复杂度,Mistral等模型采用
Flash AttentionFlash Attention高效注意力计算实现,大幅减少显存占用并加速训练和推理

三、Tokenizer(分词器)相关

中文英文简要说明
分词器Tokenizer大模型的"语言翻译官",负责将人类文本转换为模型可识别的最小单位(token)
词元 / 令牌Token模型处理文本的最小单位,可是汉字、子词、英文单词或字符
词汇表Vocabulary分词器内置的所有token集合,模型仅能识别词汇表内的token
词汇表大小Vocabulary Size词汇表中token的总数,影响模型参数量和语言覆盖能力
子词分词Subword Tokenization主流分词方式,将文本拆分为词、子词或字符,兼顾效率和稀有词覆盖度
字节对编码Byte Pair Encoding (BPE)最常用的分词算法,LLaMA、GPT、Qwen等主流模型均采用
SentencePieceSentencePiece端到端的分词工具,支持BPE和Unigram算法,训练新分词器的首选
编码Encode分词器的核心功能之一,将人类文本 → token → 数字ID(模型可计算的格式)
解码Decode分词器的核心功能之一,将模型输出的数字ID → token → 人类可读懂的文本
特殊标记Special Tokens分词器中预留的特定功能token,如 <PAD><EOS><BOS>
填充标记Padding Token用于将不同长度的序列对齐到相同长度,便于批量处理
序列截断Truncation当输入超过最大长度时,截断文本以适应模型限制

四、量化与精度相关

中文英文简要说明
量化Quantization通过降低模型权重的精度,减少显存占用和计算量,适配本地低配置GPU
INT4 / INT8 量化INT4 / INT8 Quantization最常用的低精度量化格式,INT4占用显存最少,适配8G显存显卡
FP16FP16半精度浮点格式(16位),比FP32节省一半显存,常用于中端GPU推理
BF16BF16Brain Float 16,与FP16相比有更大的动态范围,现代GPU首选精度格式
FP32FP32单精度浮点格式(32位),模型训练的默认精度,显存占用最大
GPTQ 量化GPTQ常用的训练后量化方案,兼顾量化速度和效果,支持多数主流LLM
AWQ 量化AWQ激活感知权重量化,量化后模型性能下降少,显存占用更低
GGUF 格式GGUF Formatllama.cpp项目推出的模型格式,支持CPU推理和多种量化级别,本地部署首选
GGMLGGMLGGUF的前身格式,已逐渐被GGUF取代
bitsandbytesbitsandbytesNVIDIA GPU上的8位优化器库,也支持4位/8位量化加载模型
量化感知训练Quantization-Aware Training (QAT)训练过程中模拟量化效果,使模型适应低精度,精度损失更小
混合精度Mixed Precision训练或推理时混合使用不同精度,在效率和精度间取得平衡

五、模型格式与转换

中文英文简要说明
模型格式Model Format模型权重存储的文件格式,不同框架和推理引擎有不同偏好
SafeTensorsSafeTensorsHugging Face 推出的安全模型格式,防止恶意代码注入,目前主流格式
PyTorch (.pt/.bin)PyTorch FormatPyTorch 原生模型格式,支持 pickling,存在安全风险
ONNXONNX开放神经网络交换格式,支持跨框架部署,兼容性好
GGUFGGUFllama.cpp 专用格式,支持CPU/GPU混合推理,本地部署主流选择
TensorRT 引擎TensorRT EngineNVIDIA TensorRT 优化后的二进制格式,推理速度最快但不跨平台
模型转换Model Conversion将模型从一种格式转换为另一种,如 PyTorch → ONNX → TensorRT
权重共享Weight Tying输入嵌入层和输出层共享权重,减少参数量
分片模型Sharded Model将大模型拆分为多个文件存储,便于下载和加载

六、推理引擎与框架

中文英文简要说明
推理引擎Inference Engine优化模型推理速度的工具,如 vLLM、LMDeploy、TensorRT-LLM
vLLMvLLM高吞吐量推理引擎,采用 PagedAttention 技术,生产环境首选
LMDeployLMDeploy商汤科技推出的推理引擎,支持 Turbomind 和 PyTorch 后端
TensorRT-LLMTensorRT-LLMNVIDIA 官方推理引擎,针对 NVIDIA GPU 深度优化,性能最佳
llama.cppllama.cppC++ 实现的轻量级推理框架,支持CPU推理,本地部署首选
OllamaOllama基于 llama.cpp 的封装工具,简化本地模型部署,一键运行
Text Generation WebUIText Generation WebUI常用的本地大模型图形界面,支持多种后端和模型格式
Hugging Face TransformersTransformers最流行的模型库和框架,提供统一的模型加载和推理接口
PyTorchPyTorchMeta 开发的深度学习框架,灵活易用,研究和生产皆适用
ONNX RuntimeONNX Runtime微软推出的跨平台推理引擎,支持ONNX格式模型
OpenVINOOpenVINOIntel 推出的推理优化工具包,针对 Intel CPU/GPU 优化
SGLangSGLang高效的结构化生成语言,优化复杂提示词的执行效率
Triton Inference ServerTritonNVIDIA 推出的生产级推理服务框架,支持多模型多后端

七、推理优化技术

中文英文简要说明
推理Inference模型加载权重后,接收用户输入(prompt)并生成输出的过程
预填充Prefill处理用户输入的初始阶段,并行计算所有输入token的KV Cache
解码Decoding逐token生成输出的阶段,每步生成一个token
显存GPU Memory / VRAM显卡专用内存,决定能加载的模型规模,如RTX 4090 24G即24G VRAM
共享内存Shared Memory从系统内存中划分给显卡使用的部分,速度慢,无法用于正常模型推理
KV CacheKV Cache推理时存储上下文注意力信息,加速后续生成,减少重复计算
PagedAttentionPagedAttentionvLLM 的核心创新,将 KV Cache 分页管理,显存利用率接近100%
连续批处理Continuous Batching动态调整批次,有请求完成立即加入新请求,大幅提升吞吐量
投机采样Speculative Decoding用小模型快速生成候选token,大模型验证,加速推理
投机执行Speculative Execution推测采样的另一说法,通过并行计算加速生成
Flash AttentionFlash AttentionIO感知的高效注意力算法,减少显存访问,加速训练和推理
Flash DecodingFlash Decoding优化解码阶段的注意力计算,提升长上下文生成速度
模型并行Model Parallelism将模型拆分到多个GPU上运行,支持超大模型推理
张量并行Tensor Parallelism (TP)将单个算子的计算拆分到多GPU,降低延迟
流水线并行Pipeline Parallelism (PP)将模型层拆分到多GPU,类似流水线处理,提升吞吐
序列并行Sequence Parallelism将长序列拆分到多GPU处理,支持超长上下文
批处理Batching同时处理多个请求,提升GPU利用率和吞吐量
动态批处理Dynamic Batching运行时动态组装批次,平衡延迟和吞吐
算子融合Operator Fusion将多个连续算子合并为一个,减少显存访问开销
图优化Graph Optimization优化计算图结构,如常量折叠、死代码消除等

八、服务部署与API

中文英文简要说明
API 服务API Service通过HTTP接口提供模型推理能力,便于集成到各类应用
OpenAI 兼容 APIOpenAI Compatible API遵循 OpenAI API 格式的接口,方便切换不同模型后端
RESTful APIRESTful API基于 HTTP 的 API 设计风格,使用 JSON 格式交互
gRPCgRPC高性能 RPC 框架,支持流式传输,适合内部服务通信
流式响应Streaming Response通过 SSE 等技术逐token返回结果,提升用户体验
SSEServer-Sent Events服务端推送技术,常用于实现流式输出
WebSocketWebSocket全双工通信协议,支持实时双向数据传输
推理服务器Inference Server专门用于运行模型推理的服务端程序
模型服务化Model Serving将模型封装为可调用的服务,提供负载均衡、监控等能力
TGIText Generation InferenceHugging Face 推出的生产级推理服务器
vLLM ServervLLM ServervLLM 内置的 OpenAI 兼容 API 服务器
负载均衡Load Balancing将请求分发到多个模型实例,提升整体处理能力
请求队列Request Queue排队等待处理的请求集合,合理管理避免服务过载
并发限制Concurrency Limit同时处理的请求数上限,防止资源耗尽
超时设置Timeout请求处理的最大等待时间,超时则返回错误
健康检查Health Check定期检测服务状态,确保服务可用性
模型热加载Hot Loading不停机加载新模型或更新模型,保证服务连续性
多模型部署Multi-model Deployment同一服务中部署多个模型,支持不同任务或A/B测试
容器化部署Container Deployment使用 Docker 等容器技术部署模型服务,便于管理和扩展
DockerDocker最流行的容器化平台,简化应用打包和部署
KubernetesKubernetes (K8s)容器编排平台,支持自动扩缩容和服务管理
Helm ChartHelm ChartKubernetes 应用的打包格式,简化部署配置
Ray ServeRay Serve基于 Ray 的模型服务框架,支持自动扩缩容
BentoMLBentoML机器学习模型服务化框架,简化部署流程

九、硬件与加速

中文英文简要说明
GPUGraphics Processing Unit图形处理器,大模型推理和训练的核心硬件
CPUCentral Processing Unit中央处理器,可用于小模型推理,速度较慢
TPUTensor Processing UnitGoogle 专用的 AI 加速芯片,针对张量运算优化
NPUNeural Processing Unit神经网络处理器,如华为昇腾、苹果 Neural Engine
CUDACUDANVIDIA 的并行计算平台,GPU 加速的基础
CUDA CoreCUDA CoreNVIDIA GPU 的基础计算单元
Tensor CoreTensor CoreNVIDIA GPU 的专用矩阵计算单元,大幅加速 AI 计算
cuDNNcuDNNNVIDIA 的深度学习加速库,提供高效的神经网络算子
NCCLNCCLNVIDIA 的多GPU通信库,支持分布式训练和推理
显存带宽Memory Bandwidth显存的数据传输速率,影响大模型加载和推理速度
内存带宽Memory Bandwidth系统内存的数据传输速率,影响CPU推理性能
互联带宽Interconnect Bandwidth多GPU之间数据传输速率,如 NVLink、PCIe
NVLinkNVLinkNVIDIA 的高速GPU互联技术,带宽远超 PCIe
PCIePCIe外设互联标准,GPU与CPU通信的主要通道
多卡推理Multi-GPU Inference使用多张GPU协同推理,支持更大模型或更高吞吐
GPU 虚拟化GPU Virtualization将GPU资源切分给多个用户或任务使用
MIGMulti-Instance GPUNVIDIA 技术,将单张GPU虚拟化为多个独立实例
CPU 卸载CPU Offloading将部分模型权重存储在内存,按需加载到显存
磁盘卸载Disk Offloading将模型权重存储在磁盘,进一步降低内存需求
零拷贝Zero Copy减少数据在内存和显存间的复制,提升效率

十、生成与对话相关

中文英文简要说明
提示词Prompt用户输入给模型的指令、问题或上下文,引导模型生成对应内容
系统提示System Prompt用于设定模型的角色、行为规则和回答风格(如"你是一名技术专家")
提示词模板Prompt Template预定义的提示词结构,便于快速构建标准化的输入
上下文学习In-Context Learning (ICL)通过在提示词中提供示例,让模型快速适应新任务
少样本学习Few-shot Learning在提示词中提供少量示例,引导模型理解任务格式
零样本学习Zero-shot Learning不提供任何示例,仅通过指令让模型完成任务
温度系数Temperature控制模型生成内容的随机性,值越高越随机,值越低越严谨
Top-p 采样Top-p Sampling (Nucleus Sampling)从累积概率达到 p 的最小候选集中采样,控制生成多样性
Top-k 采样Top-k Sampling只从概率最高的 k 个候选token中采样,过滤低概率选项
重复惩罚Repetition Penalty降低生成重复内容的概率,值越大惩罚越强
最大生成长度Max New Tokens模型在用户输入之外,最多能生成的token数量,防止生成过长内容
流式输出Streaming Output模型逐token实时输出结果,无需等待全部生成完成,提升交互体验
停止词Stop Strings / Stop Tokens遇到特定字符串或token时停止生成,控制输出边界
幻觉Hallucination模型编造不存在的事实、数据或逻辑,属于模型输出偏差的一种
提示词注入Prompt Injection恶意用户通过特殊输入覆盖系统提示,诱导模型执行非预期行为
越狱攻击Jailbreak Attack通过特定提示词绕过模型的安全限制,诱导生成有害内容
RAGRetrieval-Augmented Generation检索增强生成,结合外部知识库提升模型回答的准确性和时效性
向量数据库Vector Database存储文本向量表示的数据库,支持相似度检索,RAG 系统核心组件
嵌入模型Embedding Model将文本转换为向量表示的模型,用于语义检索和相似度计算

十一、任务与能力相关

中文英文简要说明
自然语言理解Natural Language Understanding (NLU)模型理解文本语义、情感、意图的能力(如读懂问题、分析情绪)
自然语言生成Natural Language Generation (NLG)模型生成通顺、符合逻辑的人类语言的能力(如写文案、编故事)
文本摘要Text Summarization模型提炼长文本核心内容,生成简洁摘要的能力
文本翻译Machine Translation模型在不同语言之间进行互译的能力(如中译英、英译日)
代码生成Code Generation模型根据自然语言指令,生成符合语法、可运行代码的能力
代码补全Code Completion模型根据上下文自动补全代码的能力,提升开发效率
代码解释Code Explanation模型解释代码功能、逻辑和意图的能力
思维链Chain-of-Thought (CoT)让模型分步推理、逐步输出思考过程,提升复杂问题的解决能力
多模态Multimodal模型处理多种模态(文本、图像、音频、视频)的能力
视觉语言模型Vision-Language Model (VLM)能理解图像并生成文本描述或回答图像相关问题的模型
函数调用Function Calling模型根据用户需求调用外部工具或API的能力
工具使用Tool Use模型调用外部工具(如搜索、计算器)完成任务的能力
AgentAI Agent具有自主规划、工具使用、多步推理能力的智能体
评估基准Benchmark用于评估模型能力的标准化测试集,如 MMLU、GSM8K、HumanEval
困惑度Perplexity (PPL)衡量模型预测文本能力的指标,值越低表示模型越好
输出吞吐量Output Throughput单位时间内模型生成的token数量,衡量推理效率
首 token 延迟Time to First Token (TTFT)从发送请求到生成第一个token的时间,影响用户等待体验
端到端延迟End-to-End Latency从发送请求到完成整个响应的总时间