估计很多人不相信这是真的,一个非常大的误解,大多数人都会认为:35B 大模型 = 必须 24G 显存才能跑,但最近我实测发现,即使只有一张 RTX 3070 8G 显卡,只要搭配足够的内存,再通过 llama.cpp 的 CPU Offload 和 MoE 优化,居然真的可以跑起来 Qwen Qwen3.6-35B-A3B 模型。速度还非常快!

甚至:
- 支持长上下文
- 支持 Flash Attention
- 支持多模态(视觉)
- 支持本地网页 UI
这篇文章,就带大家完整实测与部署
一、我的硬件配置
本次测试平台:
CPU:i7-12700
GPU:RTX 3070 8GB
RAM:32G × 2
系统:Windows 11
推理框架:llama.cpp CUDA 12.4

二、为什么 8G 显存也能跑 35B?
这是这次测试最关键的地方。
Qwen3.6-35B-A3B:
35B 总参数
每次只激活约 3B
也就是说:并不是所有参数同时参与推理
因此:GPU 不需要一次性加载完整 35B ,再结合 llama.cpp 的:CPU Offload ;就能实现:GPU 跑注意力层、RAM 跑专家层。这也是:RTX3070 8G 成功运行 35B 的核心原因!
三、部署教程
1、下载 llama.cpp
推荐下载:【Github下载】、【网盘下载】或 【整合包下载】
llama.cpp 最新版支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!所以几乎可以在任何电脑上进行运行。

2、安装显卡驱动,比如 N卡选择 CUDA 13.1,如果是 A卡请自行升级到最新版即可
四、下载模型
本次使用模型:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
量化格式:Q4_K_M
这是目前:
- 精度
- 显存
- 速度
综合平衡最好的格式之一。
模型下载:
【Huggingface下载】或 【网盘下载】
五、多模态模型注意事项(非常重要)
这里很多人会踩坑。
Qwen3.6 多模态模型:必须搭配 mmproj
否则:
- 图片上传按钮灰色
- 无法识图
- Vision 不工作
例如:mmproj-BF16.gguf
六、最终启动命令(3070 8G 优化版)
下面是我最终稳定运行的配置:
注意将上面的llama.cpp的存放路径改成你自己的,因为我是放在桌面上的,所以路径是:C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径!
将上面的启动命令另存为启动.bat 批处理脚本,打开运行即可!

成功运行后在浏览器上访问本地的地址:127.0.0.1:8080 就可以正式使用!

-
-h, --help, --usage 打印使用信息并退出
--version 显示版本和构建信息
-cl, --cache-list 显示缓存中的模型列表
--completion-bash 打印可用于 llama.cpp 的 bash 补全脚本
-t, --threads N 生成期间使用的 CPU 线程数(默认:-1)
(环境变量:LLAMA_ARG_THREADS)
-tb, --threads-batch N 批处理和提示处理期间使用的线程数(默认:与 --threads 相同)
-C, --cpu-mask M CPU 亲和性掩码:任意长度的十六进制数。与 cpu-range 互补
(默认:"")
-Cr, --cpu-range lo-hi 用于亲和性的 CPU 范围。与 --cpu-mask 互补
--cpu-strict <0|1> 是否使用严格的 CPU 放置(默认:0)
--prio N 设置进程/线程优先级:低(-1)、普通(0)、中(1)、高(2)、实时(3)(默认:0)
--poll <0...100> 使用轮询级别等待工作(0 - 不轮询,默认:50)
-Cb, --cpu-mask-batch M 批处理 CPU 亲和性掩码:任意长度的十六进制数。与 cpu-range-batch 互补
(默认:与 --cpu-mask 相同)
-Crb, --cpu-range-batch lo-hi 用于亲和性的 CPU 范围。与 --cpu-mask-batch 互补
--cpu-strict-batch <0|1> 批处理是否使用严格的 CPU 放置(默认:与 --cpu-strict 相同)
--prio-batch N 设置批处理进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)
--poll-batch <0|1> 批处理是否使用轮询等待工作(默认:与 --poll 相同)
-c, --ctx-size N 提示上下文的大小(默认:0,0 = 从模型加载)
(环境变量:LLAMA_ARG_CTX_SIZE)
-n, --predict, --n-predict N 要预测的令牌数(默认:-1,-1 = 无限)
(环境变量:LLAMA_ARG_N_PREDICT)
-b, --batch-size N 逻辑最大批处理大小(默认:2048)
(环境变量:LLAMA_ARG_BATCH)
-ub, --ubatch-size N 物理最大批处理大小(默认:512)
(环境变量:LLAMA_ARG_UBATCH)
--keep N 从初始提示中保留的令牌数(默认:0,-1 = 全部)
--swa-full 是否使用完整的 SWA 缓存(默认:false)
[(更多信息)](https://github.com/ggml-org/llama.cpp/pull/13194#issuecomment-2868343055)
(环境变量:LLAMA_ARG_SWA_FULL)
-fa, --flash-attn [on|off|auto] 设置 Flash Attention 使用('on'、'off' 或 'auto',默认:'auto')
(环境变量:LLAMA_ARG_FLASH_ATTN)
--perf, --no-perf 是否启用内部 libllama 性能计时(默认:false)
(环境变量:LLAMA_ARG_PERF)
-e, --escape, --no-escape 是否处理转义序列(\n、\r、\t、\'、\"、\\)(默认:true)
--rope-scaling {none,linear,yarn} RoPE 频率缩放方法,除非模型指定,否则默认为 linear
(环境变量:LLAMA_ARG_ROPE_SCALING_TYPE)
--rope-scale N RoPE 上下文缩放因子,将上下文扩大 N 倍
(环境变量:LLAMA_ARG_ROPE_SCALE)
--rope-freq-base N RoPE 基础频率,用于 NTK 感知缩放(默认:从模型加载)
(环境变量:LLAMA_ARG_ROPE_FREQ_BASE)
--rope-freq-scale N RoPE 频率缩放因子,将上下文扩大 1/N 倍
(环境变量:LLAMA_ARG_ROPE_FREQ_SCALE)
--yarn-orig-ctx N YaRN:模型的原始上下文大小(默认:0 = 模型训练上下文大小)
(环境变量:LLAMA_ARG_YARN_ORIG_CTX)
--yarn-ext-factor N YaRN:外推混合因子(默认:-1.00,0.0 = 完全内插)
(环境变量:LLAMA_ARG_YARN_EXT_FACTOR)
--yarn-attn-factor N YaRN:缩放 sqrt(t) 或注意力幅度(默认:-1.00)
(环境变量:LLAMA_ARG_YARN_ATTN_FACTOR)
--yarn-beta-slow N YaRN:高校正维度或 alpha(默认:-1.00)
(环境变量:LLAMA_ARG_YARN_BETA_SLOW)
--yarn-beta-fast N YaRN:低校正维度或 beta(默认:-1.00)
(环境变量:LLAMA_ARG_YARN_BETA_FAST)
-kvo, --kv-offload, -nkvo, --no-kv-offload
是否启用 KV 缓存卸载(默认:启用)
(环境变量:LLAMA_ARG_KV_OFFLOAD)
--repack, -nr, --no-repack 是否启用权重重新打包(默认:启用)
(环境变量:LLAMA_ARG_REPACK)
--no-host 绕过主机缓冲区,允许使用额外缓冲区
(环境变量:LLAMA_ARG_NO_HOST)
-ctk, --cache-type-k TYPE KV 缓存 K 的数据类型
允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1
(默认:f16)
(环境变量:LLAMA_ARG_CACHE_TYPE_K)
-ctv, --cache-type-v TYPE KV 缓存 V 的数据类型
允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1
(默认:f16)
(环境变量:LLAMA_ARG_CACHE_TYPE_V)
-dt, --defrag-thold N KV 缓存碎片整理阈值(已弃用)
(环境变量:LLAMA_ARG_DEFRAG_THOLD)
--rpc SERVERS 逗号分隔的 RPC 服务器列表(host:port)
(环境变量:LLAMA_ARG_RPC)
--mlock 强制系统将模型保留在 RAM 中,而不是交换或压缩
(环境变量:LLAMA_ARG_MLOCK)
--mmap, --no-mmap 是否对模型进行内存映射(如果禁用 mmap,加载较慢但如果未使用 mlock
可能减少页面换出)(默认:启用)
(环境变量:LLAMA_ARG_MMAP)
-dio, --direct-io, -ndio, --no-direct-io
如果可用,使用 DirectIO(默认:禁用)
(环境变量:LLAMA_ARG_DIO)
--numa TYPE 尝试有助于某些 NUMA 系统的优化
- distribute:在所有节点上均匀分布执行
- isolate:仅在执行开始的节点上的 CPU 上生成线程
- numactl:使用 numactl 提供的 CPU 映射
如果之前没有使用此选项运行,建议在使用前清除系统页面缓存
参见 https://github.com/ggml-org/llama.cpp/issues/1437
(环境变量:LLAMA_ARG_NUMA)
-dev, --device <dev1,dev2,..> 逗号分隔的用于卸载的设备列表(none = 不卸载)
使用 --list-devices 查看可用设备列表
(环境变量:LLAMA_ARG_DEVICE)
--list-devices 打印可用设备列表并退出
-ot, --override-tensor <张量名称模式>=<缓冲区类型>,...
覆盖张量缓冲区类型
(环境变量:LLAMA_ARG_OVERRIDE_TENSOR)
-cmoe, --cpu-moe 将所有专家混合(MoE)权重保留在 CPU 中
(环境变量:LLAMA_ARG_CPU_MOE)
-ncmoe, --n-cpu-moe N 将前 N 层的专家混合(MoE)权重保留在 CPU 中
(环境变量:LLAMA_ARG_N_CPU_MOE)
-ngl, --gpu-layers, --n-gpu-layers N 要存储在 VRAM 中的最大层数,可以是精确数字、'auto' 或 'all'
(默认:auto)
(环境变量:LLAMA_ARG_N_GPU_LAYERS)
-sm, --split-mode {none,layer,row,tensor}
如何在多个 GPU 之间分割模型,可选:
- none:仅使用一个 GPU
- layer(默认):跨 GPU 分割层和 KV(流水线)
- row:按行跨 GPU 分割权重(并行)
- tensor:跨 GPU 分割权重和 KV(并行,实验性)
(环境变量:LLAMA_ARG_SPLIT_MODE)
-ts, --tensor-split N0,N1,N2,... 卸载到每个 GPU 的模型比例,逗号分隔的比例列表,例如 3,1
(环境变量:LLAMA_ARG_TENSOR_SPLIT)
-mg, --main-gpu INDEX 用于模型(split-mode = none)或中间结果和 KV
(split-mode = row)的 GPU(默认:0)
(环境变量:LLAMA_ARG_MAIN_GPU)
-fit, --fit [on|off] 是否调整未设置的参数以适应设备内存('on' 或 'off',默认:'on')
(环境变量:LLAMA_ARG_FIT)
-fitt, --fit-target MiB0,MiB1,MiB2,... 每个设备的 --fit 目标余量(MiB),逗号分隔的值列表,
单个值将广播到所有设备,默认:1024
(环境变量:LLAMA_ARG_FIT_TARGET)
-fitc, --fit-ctx N --fit 选项可设置的最小 ctx 大小,默认:4096
(环境变量:LLAMA_ARG_FIT_CTX)
--check-tensors 检查模型张量数据是否存在无效值(默认:false)
--override-kv KEY=TYPE:VALUE,... 高级选项,通过键覆盖模型元数据。要指定多个覆盖,
请使用逗号分隔的值。
类型:int、float、bool、str。示例:--override-kv
tokenizer.ggml.add_bos_token=bool:false,tokenizer.ggml.add_eos_token=bool:false
--op-offload, --no-op-offload 是否将主机张量操作卸载到设备(默认:true)
--lora FNAME LoRA 适配器路径(使用逗号分隔的值加载多个适配器)
--lora-scaled FNAME:SCALE,... 带用户定义缩放的 LoRA 适配器路径(格式:FNAME:SCALE,...)
注意:使用逗号分隔的值
--control-vector FNAME 添加控制向量
注意:使用逗号分隔的值添加多个控制向量
--control-vector-scaled FNAME:SCALE,... 带用户定义缩放 SCALE 的控制向量
注意:使用逗号分隔的值(格式:FNAME:SCALE,...)
--control-vector-layer-range START END 应用控制向量的层范围,包含起始和结束
-m, --model FNAME 模型路径
(环境变量:LLAMA_ARG_MODEL)
-mu, --model-url MODEL_URL 模型下载 URL(默认:未使用)
(环境变量:LLAMA_ARG_MODEL_URL)
-dr, --docker-repo [<仓库>/]<模型>[:量化]
Docker Hub 模型仓库。仓库可选,默认为 ai/。量化可选,默认为 :latest。
示例:gemma3
(默认:未使用)
(环境变量:LLAMA_ARG_DOCKER_REPO)
-hf, -hfr, --hf-repo <用户>/<模型>[:量化]
Hugging Face 模型仓库;量化可选,不区分大小写,默认为 Q4_K_M,
如果仓库中不存在 Q4_K_M,则回退到第一个文件。
如果可用,mmproj 也会自动下载。要禁用,添加 --no-mmproj
示例:ggml-org/GLM-4.7-Flash-GGUF:Q4_K_M
(默认:未使用)
(环境变量:LLAMA_ARG_HF_REPO)
-hff, --hf-file FILE Hugging Face 模型文件。如果指定,将覆盖 --hf-repo 中的量化
(默认:未使用)
(环境变量:LLAMA_ARG_HF_FILE)
-hfv, -hfrv, --hf-repo-v <用户>/<模型>[:量化]
声码器模型的 Hugging Face 模型仓库(默认:未使用)
(环境变量:LLAMA_ARG_HF_REPO_V)
-hffv, --hf-file-v FILE 声码器模型的 Hugging Face 模型文件(默认:未使用)
(环境变量:LLAMA_ARG_HF_FILE_V)
-hft, --hf-token TOKEN Hugging Face 访问令牌(默认:来自 HF_TOKEN 环境变量的值)
(环境变量:HF_TOKEN)
--log-disable 禁用日志
--log-file FNAME 日志输出到文件
(环境变量:LLAMA_ARG_LOG_FILE)
--log-colors [on|off|auto] 设置彩色日志输出('on'、'off' 或 'auto',默认:'auto')
'auto' 在输出到终端时启用颜色
(环境变量:LLAMA_ARG_LOG_COLORS)
-v, --verbose, --log-verbose 将详细级别设置为无限(即记录所有消息,用于调试)
--offline 离线模式:强制使用缓存,阻止网络访问
(环境变量:LLAMA_ARG_OFFLINE)
-lv, --verbosity, --log-verbosity N 设置详细级别阈值。详细度更高的消息将被忽略。值:
- 0:常规输出
- 1:错误
- 2:警告
- 3:信息
- 4:跟踪(更多信息)
- 5:调试
(默认:3)
(环境变量:LLAMA_ARG_LOG_VERBOSITY)
--log-prefix, --no-log-prefix 在日志消息中启用前缀
(环境变量:LLAMA_ARG_LOG_PREFIX)
--log-timestamps, --no-log-timestamps 在日志消息中启用时间戳
(环境变量:LLAMA_ARG_LOG_TIMESTAMPS)
--spec-draft-type-k, -ctkd, --cache-type-k-draft TYPE
草稿模型 KV 缓存 K 的数据类型
允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1
(默认:f16)
(环境变量:LLAMA_ARG_SPEC_DRAFT_CACHE_TYPE_K)
--spec-draft-type-v, -ctvd, --cache-type-v-draft TYPE
草稿模型 KV 缓存 V 的数据类型
允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1
(默认:f16)
(环境变量:LLAMA_ARG_SPEC_DRAFT_CACHE_TYPE_V)
----- 采样参数 -----
--samplers SAMPLERS 按顺序用于生成的采样器,以 ';' 分隔
(默认:
penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature)
-s, --seed SEED RNG 种子(默认:-1,使用随机种子)
--sampler-seq, --sampling-seq SEQUENCE 用于采样器的简化序列(默认:edskypmxt)
--ignore-eos 忽略流结束令牌并继续生成(隐含 --logit-bias EOS-inf)
--temp, --temperature N 温度(默认:0.80)
--top-k N top-k 采样(默认:40,0 = 禁用)
(环境变量:LLAMA_ARG_TOP_K)
--top-p N top-p 采样(默认:0.95,1.0 = 禁用)
--min-p N min-p 采样(默认:0.05,0.0 = 禁用)
--top-nsigma, --top-n-sigma N top-n-sigma 采样(默认:-1.00,-1.0 = 禁用)
--xtc-probability N xtc 概率(默认:0.00,0.0 = 禁用)
--xtc-threshold N xtc 阈值(默认:0.10,1.0 = 禁用)
--typical, --typical-p N 局部典型采样,参数 p(默认:1.00,1.0 = 禁用)
--repeat-last-n N 要考虑惩罚的最后 n 个令牌(默认:64,0 = 禁用,-1 = ctx_size)
--repeat-penalty N 惩罚重复令牌序列(默认:1.00,1.0 = 禁用)
--presence-penalty N 重复存在惩罚(默认:0.00,0.0 = 禁用)
--frequency-penalty N 重复频率惩罚(默认:0.00,0.0 = 禁用)
--dry-multiplier N 设置 DRY 采样乘数(默认:0.00,0.0 = 禁用)
--dry-base N 设置 DRY 采样基础值(默认:1.75)
--dry-allowed-length N 设置 DRY 采样的允许长度(默认:2)
--dry-penalty-last-n N 设置最后 n 个令牌的 DRY 惩罚(默认:-1,0 = 禁用,-1 = 上下文大小)
--dry-sequence-breaker STRING 为 DRY 采样添加序列分隔符,清除默认分隔符('\n'、':'、'"'、'*');
使用 "none" 表示不使用任何序列分隔符
--adaptive-target N adaptive-p:选择接近此概率的令牌(有效范围 0.0 到 1.0;负数 = 禁用)
(默认:-1.00)
[(更多信息)](https://github.com/ggml-org/llama.cpp/pull/17927)
--adaptive-decay N adaptive-p:目标随时间适应的衰减率。较低的值更敏感,
较高的值更稳定(有效范围 0.0 到 0.99)(默认:0.90)
--dynatemp-range N 动态温度范围(默认:0.00,0.0 = 禁用)
--dynatemp-exp N 动态温度指数(默认:1.00)
--mirostat N 使用 Mirostat 采样。
如果使用,Top K、Nucleus 和 Locally Typical 采样器将被忽略。
(默认:0,0 = 禁用,1 = Mirostat,2 = Mirostat 2.0)
--mirostat-lr N Mirostat 学习率,参数 eta(默认:0.10)
--mirostat-ent N Mirostat 目标熵,参数 tau(默认:5.00)
-l, --logit-bias TOKEN_ID(+/-)BIAS 修改令牌在补全中出现的似然性,
例如 `--logit-bias 15043+1` 增加令牌 ' Hello' 的似然性,
或 `--logit-bias 15043-1` 减少令牌 ' Hello' 的似然性
--grammar GRAMMAR 类似 BNF 的语法以约束生成(参见 grammars/ 目录中的示例)
--grammar-file FNAME 从文件读取语法
-j, --json-schema SCHEMA JSON schema 以约束生成(https://json-schema.org/),
例如 `{}` 表示任何 JSON 对象
对于带有外部 $refs 的 schema,请使用 --grammar +
example/json_schema_to_grammar.py
-jf, --json-schema-file FILE 包含 JSON schema 的文件以约束生成
(https://json-schema.org/),例如 `{}` 表示任何 JSON 对象
对于带有外部 $refs 的 schema,请使用 --grammar +
example/json_schema_to_grammar.py
-bs, --backend-sampling 启用后端采样(实验性)(默认:禁用)
(环境变量:LLAMA_ARG_BACKEND_SAMPLING)
----- 推测参数 -----
--spec-draft-hf, -hfd, -hfrd, --hf-repo-draft <用户>/<模型>[:量化]
与 --hf-repo 相同,但用于草稿模型(默认:未使用)
(环境变量:LLAMA_ARG_SPEC_DRAFT_HF_REPO)
--spec-draft-threads, -td, --threads-draft N
生成期间使用的线程数(默认:与 --threads 相同)
--spec-draft-threads-batch, -tbd, --threads-batch-draft N
批处理和提示处理期间使用的线程数(默认:与 --threads-draft 相同)
--spec-draft-cpu-mask, -Cd, --cpu-mask-draft M
草稿模型 CPU 亲和性掩码。与 cpu-range-draft 互补(默认:与 --cpu-mask 相同)
--spec-draft-cpu-range, -Crd, --cpu-range-draft lo-hi
用于亲和性的 CPU 范围。与 --cpu-mask-draft 互补
--spec-draft-cpu-strict, --cpu-strict-draft <0|1>
草稿模型是否使用严格的 CPU 放置(默认:与 --cpu-strict 相同)
--spec-draft-prio, --prio-draft N 设置草稿进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)
--spec-draft-poll, --poll-draft <0|1> 草稿模型是否使用轮询等待工作(默认:与 --poll 相同)
--spec-draft-cpu-mask-batch, -Cbd, --cpu-mask-batch-draft M
草稿模型批处理 CPU 亲和性掩码。与 cpu-range-draft 互补(默认:与 --cpu-mask 相同)
--spec-draft-cpu-strict-batch, --cpu-strict-batch-draft <0|1>
草稿模型批处理是否使用严格的 CPU 放置(默认:与 --cpu-strict-draft 相同)
--spec-draft-prio-batch, --prio-batch-draft N
设置草稿批处理进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)
--spec-draft-poll-batch, --poll-batch-draft <0|1>
草稿模型批处理是否使用轮询等待工作(默认:与 --poll-draft 相同)
--spec-draft-override-tensor, -otd, --override-tensor-draft <张量名称模式>=<缓冲区类型>,...
草稿模型的覆盖张量缓冲区类型
--spec-draft-cpu-moe, -cmoed, --cpu-moe-draft
将草稿模型的所有专家混合(MoE)权重保留在 CPU 中
(环境变量:LLAMA_ARG_SPEC_DRAFT_CPU_MOE)
--spec-draft-n-cpu-moe, --spec-draft-ncmoe, -ncmoed, --n-cpu-moe-draft N
将草稿模型的前 N 层专家混合(MoE)权重保留在 CPU 中
(环境变量:LLAMA_ARG_SPEC_DRAFT_N_CPU_MOE)
--spec-draft-n-max N 用于推测解码的草稿令牌数(默认:3)
(环境变量:LLAMA_ARG_SPEC_DRAFT_N_MAX)
--spec-draft-n-min N 用于推测解码的最小草稿令牌数(默认:0)
(环境变量:LLAMA_ARG_SPEC_DRAFT_N_MIN)
--spec-draft-p-split, --draft-p-split P 推测解码分割概率(默认:0.10)
(环境变量:LLAMA_ARG_SPEC_DRAFT_P_SPLIT)
--spec-draft-p-min, --draft-p-min P 最小推测解码概率(贪婪)(默认:0.00)
(环境变量:LLAMA_ARG_SPEC_DRAFT_P_MIN)
--spec-draft-backend-sampling, --no-spec-draft-backend-sampling
将草稿采样卸载到后端(默认:启用)
(环境变量:LLAMA_ARG_SPEC_DRAFT_BACKEND_SAMPLING)
--spec-draft-device, -devd, --device-draft <dev1,dev2,..>
逗号分隔的用于卸载草稿模型的设备列表(none = 不卸载)
使用 --list-devices 查看可用设备列表
--spec-draft-ngl, -ngld, --gpu-layers-draft, --n-gpu-layers-draft N
要存储在 VRAM 中的草稿模型最大层数,可以是精确数字、'auto' 或 'all'
(默认:auto)
(环境变量:LLAMA_ARG_N_GPU_LAYERS_DRAFT)
--spec-draft-model, -md, --model-draft FNAME
用于推测解码的草稿模型(默认:未使用)
(环境变量:LLAMA_ARG_SPEC_DRAFT_MODEL)
--spec-type none,draft-simple,draft-eagle3,draft-mtp,ngram-simple,ngram-map-k,ngram-map-k4v,ngram-mod,ngram-cache
要使用的推测解码类型列表,逗号分隔(默认:none)
(环境变量:LLAMA_ARG_SPEC_TYPE)
--spec-ngram-mod-n-min N 基于 ngram 的推测解码使用的最小 ngram 令牌数(默认:48)
--spec-ngram-mod-n-max N 基于 ngram 的推测解码使用的最大 ngram 令牌数(默认:64)
--spec-ngram-mod-n-match N ngram-mod 查找长度(默认:24)
--spec-ngram-simple-size-n N ngram-simple 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)
--spec-ngram-simple-size-m N ngram-simple 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)
--spec-ngram-simple-min-hits N ngram-simple 推测解码的最小命中数(默认:1)
--spec-ngram-map-k-size-n N ngram-map-k 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)
--spec-ngram-map-k-size-m N ngram-map-k 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)
--spec-ngram-map-k-min-hits N ngram-map-k 推测解码的最小命中数(默认:1)
--spec-ngram-map-k4v-size-n N ngram-map-k4v 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)
--spec-ngram-map-k4v-size-m N ngram-map-k4v 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)
--spec-ngram-map-k4v-min-hits N ngram-map-k4v 推测解码的最小命中数(默认:1)
--draft, --draft-n, --draft-max N 此参数已被移除。请使用 --spec-draft-n-max 或
--spec-ngram-mod-n-max
(环境变量:LLAMA_ARG_DRAFT_MAX)
--draft-min, --draft-n-min N 此参数已被移除。请使用 --spec-draft-n-min 或
--spec-ngram-mod-n-min
(环境变量:LLAMA_ARG_DRAFT_MIN)
--spec-ngram-size-n N 此参数已被移除。请使用相应的
--spec-ngram-*-size-n 或 --spec-ngram-mod-n-match
--spec-ngram-size-m N 此参数已被移除。请使用相应的
--spec-ngram-*-size-m
--spec-ngram-min-hits N 此参数已被移除。请使用相应的
--spec-ngram-*-min-hits
----- 示例特定参数 -----
-lcs, --lookup-cache-static FNAME 用于查找解码的静态查找缓存路径(生成时不更新)
-lcd, --lookup-cache-dynamic FNAME 用于查找解码的动态查找缓存路径(生成时更新)
-ctxcp, --ctx-checkpoints, --swa-checkpoints N
每个槽位可创建的上下文检查点最大数量(默认:32)
[(更多信息)](https://github.com/ggml-org/llama.cpp/pull/15293)
(环境变量:LLAMA_ARG_CTX_CHECKPOINTS)
-cms, --checkpoint-min-step N 上下文检查点之间的最小令牌间隔(默认:256,0 = 无最小值)
(环境变量:LLAMA_ARG_CHECKPOINT_MIN_SPACING_NT)
-cram, --cache-ram N 设置最大缓存大小(MiB)(默认:8192,-1 = 无限制,0 = 禁用)
[(更多信息)](https://github.com/ggml-org/llama.cpp/pull/16391)
(环境变量:LLAMA_ARG_CACHE_RAM)
-kvu, --kv-unified, -no-kvu, --no-kv-unified
对所有序列使用单一统一 KV 缓冲区(如果槽位数自动设置则默认启用)
(环境变量:LLAMA_ARG_KV_UNIFIED)
--cache-idle-slots, --no-cache-idle-slots
在新任务时将空闲槽位保存到提示缓存,使用统一 KV 时清除它们
(默认:启用,需要 cache-ram)
(环境变量:LLAMA_ARG_CACHE_IDLE_SLOTS)
--context-shift, --no-context-shift 是否在无限文本生成中使用上下文移位(默认:禁用)
(环境变量:LLAMA_ARG_CONTEXT_SHIFT)
-r, --reverse-prompt PROMPT 在 PROMPT 处停止生成,在交互模式下返回控制权
-sp, --special 启用特殊令牌输出(默认:false)
--warmup, --no-warmup 是否使用空运行进行预热(默认:启用)
--spm-infill 使用 Suffix/Prefix/Middle 模式进行填充
(而非 Prefix/Suffix/Middle),因为某些模型更偏好此模式(默认:禁用)
--pooling {none,mean,cls,last,rank} 嵌入的池化类型,如果未指定则使用模型默认值
(环境变量:LLAMA_ARG_POOLING)
-np, --parallel N 服务槽位数(默认:-1,-1 = 自动)
(环境变量:LLAMA_ARG_N_PARALLEL)
-cb, --cont-batching, -nocb, --no-cont-batching
是否启用连续批处理(又称动态批处理)(默认:启用)
(环境变量:LLAMA_ARG_CONT_BATCHING)
-mm, --mmproj FILE 多模态投影仪文件路径。参见 tools/mtmd/README.md
注意:如果使用了 -hf,可以省略此参数
(环境变量:LLAMA_ARG_MMPROJ)
-mmu, --mmproj-url URL 多模态投影仪文件的 URL。参见 tools/mtmd/README.md
(环境变量:LLAMA_ARG_MMPROJ_URL)
--mmproj-auto, --no-mmproj, --no-mmproj-auto
是否使用多模态投影仪文件(如果可用),在使用 -hf 时有用
(默认:启用)
(环境变量:LLAMA_ARG_MMPROJ_AUTO)
- 文章2325
- 用户1338
- 访客12547769
沉默是轻蔑最完美的表达。