8G显存成功跑 Qwen3.6-35B 多模态AI大模型

Home / Article MrLee 21天前 93

估计很多人不相信这是真的,一个非常大的误解,大多数人都会认为:35B 大模型 = 必须 24G 显存才能跑,但最近我实测发现,即使只有一张 RTX 3070 8G 显卡,只要搭配足够的内存,再通过 llama.cpp 的 CPU Offload 和 MoE 优化,居然真的可以跑起来 Qwen Qwen3.6-35B-A3B 模型。速度还非常快!

20260522113534 921247

甚至:

  • 支持长上下文
  • 支持 Flash Attention
  • 支持多模态(视觉)
  • 支持本地网页 UI 

这篇文章,就带大家完整实测与部署

一、我的硬件配置

本次测试平台:

CPU:i7-12700
GPU:RTX 3070 8GB
RAM:32G × 2
系统:Windows 11
推理框架:llama.cpp CUDA 12.4

20260522113714 803209 scaled

 

二、为什么 8G 显存也能跑 35B?

这是这次测试最关键的地方。

Qwen3.6-35B-A3B:

35B 总参数
每次只激活约 3B

也就是说:并不是所有参数同时参与推理

因此:GPU 不需要一次性加载完整 35B ,再结合 llama.cpp 的:CPU Offload ;就能实现:GPU 跑注意力层、RAM 跑专家层。这也是:RTX3070 8G 成功运行 35B 的核心原因!

三、部署教程

1、下载 llama.cpp

推荐下载:【Github下载】、【网盘下载】或 【整合包下载

llama.cpp 最新版支持 N卡、A卡、I卡 还有纯CPU运行,同时也可以在Mac、Linux系统上运行!所以几乎可以在任何电脑上进行运行。

20260522112459 822918

2、安装显卡驱动,比如 N卡选择 CUDA 13.1,如果是  A卡请自行升级到最新版即可

驱动下载】或 【打包下载

四、下载模型

本次使用模型:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

量化格式:Q4_K_M

这是目前:

  • 精度
  • 显存
  • 速度

综合平衡最好的格式之一。

模型下载:

Huggingface下载】或 【网盘下载

五、多模态模型注意事项(非常重要)

这里很多人会踩坑。

Qwen3.6 多模态模型:必须搭配 mmproj

否则:

  • 图片上传按钮灰色
  • 无法识图
  • Vision 不工作

例如:mmproj-BF16.gguf

六、最终启动命令(3070 8G 优化版)

下面是我最终稳定运行的配置:

@echo off
chcp 65001 >nul
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64
 
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 32768 ^
-t 12 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080
 
pause



注意将上面的llama.cpp的存放路径改成你自己的,因为我是放在桌面上的,所以路径是:C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径!

 

将上面的启动命令另存为启动.bat 批处理脚本,打开运行即可!

20260522113318 731775

成功运行后在浏览器上访问本地的地址:127.0.0.1:8080 就可以正式使用!

20260522113416 200844 scaled

本文链接:http://it72.com/12808.htm

推荐阅读
最新回复 (1)
  • MrLee 10天前
    引用 2


    -h,    --help, --usage                  打印使用信息并退出

    --version                               显示版本和构建信息

    -cl,   --cache-list                     显示缓存中的模型列表

    --completion-bash                       打印可用于 llama.cpp 的 bash 补全脚本

    -t,    --threads N                      生成期间使用的 CPU 线程数(默认:-1)

                                            (环境变量:LLAMA_ARG_THREADS)

    -tb,   --threads-batch N                批处理和提示处理期间使用的线程数(默认:与 --threads 相同)

    -C,    --cpu-mask M                     CPU 亲和性掩码:任意长度的十六进制数。与 cpu-range 互补

                                            (默认:"")

    -Cr,   --cpu-range lo-hi                用于亲和性的 CPU 范围。与 --cpu-mask 互补

    --cpu-strict <0|1>                      是否使用严格的 CPU 放置(默认:0)

    --prio N                                设置进程/线程优先级:低(-1)、普通(0)、中(1)、高(2)、实时(3)(默认:0)

    --poll <0...100>                        使用轮询级别等待工作(0 - 不轮询,默认:50)

    -Cb,   --cpu-mask-batch M               批处理 CPU 亲和性掩码:任意长度的十六进制数。与 cpu-range-batch 互补

                                            (默认:与 --cpu-mask 相同)

    -Crb,  --cpu-range-batch lo-hi          用于亲和性的 CPU 范围。与 --cpu-mask-batch 互补

    --cpu-strict-batch <0|1>                批处理是否使用严格的 CPU 放置(默认:与 --cpu-strict 相同)

    --prio-batch N                          设置批处理进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)

    --poll-batch <0|1>                      批处理是否使用轮询等待工作(默认:与 --poll 相同)

    -c,    --ctx-size N                     提示上下文的大小(默认:0,0 = 从模型加载)

                                            (环境变量:LLAMA_ARG_CTX_SIZE)

    -n,    --predict, --n-predict N         要预测的令牌数(默认:-1,-1 = 无限)

                                            (环境变量:LLAMA_ARG_N_PREDICT)

    -b,    --batch-size N                   逻辑最大批处理大小(默认:2048)

                                            (环境变量:LLAMA_ARG_BATCH)

    -ub,   --ubatch-size N                  物理最大批处理大小(默认:512)

                                            (环境变量:LLAMA_ARG_UBATCH)

    --keep N                                从初始提示中保留的令牌数(默认:0,-1 = 全部)

    --swa-full                              是否使用完整的 SWA 缓存(默认:false)

                                            [(更多信息)](https://github.com/ggml-org/llama.cpp/pull/13194#issuecomment-2868343055)

                                            (环境变量:LLAMA_ARG_SWA_FULL)

    -fa,   --flash-attn [on|off|auto]       设置 Flash Attention 使用('on'、'off' 或 'auto',默认:'auto')

                                            (环境变量:LLAMA_ARG_FLASH_ATTN)

    --perf, --no-perf                       是否启用内部 libllama 性能计时(默认:false)

                                            (环境变量:LLAMA_ARG_PERF)

    -e,    --escape, --no-escape            是否处理转义序列(\n、\r、\t、\'、\"、\\)(默认:true)

    --rope-scaling {none,linear,yarn}       RoPE 频率缩放方法,除非模型指定,否则默认为 linear

                                            (环境变量:LLAMA_ARG_ROPE_SCALING_TYPE)

    --rope-scale N                          RoPE 上下文缩放因子,将上下文扩大 N 倍

                                            (环境变量:LLAMA_ARG_ROPE_SCALE)

    --rope-freq-base N                      RoPE 基础频率,用于 NTK 感知缩放(默认:从模型加载)

                                            (环境变量:LLAMA_ARG_ROPE_FREQ_BASE)

    --rope-freq-scale N                     RoPE 频率缩放因子,将上下文扩大 1/N 倍

                                            (环境变量:LLAMA_ARG_ROPE_FREQ_SCALE)

    --yarn-orig-ctx N                       YaRN:模型的原始上下文大小(默认:0 = 模型训练上下文大小)

                                            (环境变量:LLAMA_ARG_YARN_ORIG_CTX)

    --yarn-ext-factor N                     YaRN:外推混合因子(默认:-1.00,0.0 = 完全内插)

                                            (环境变量:LLAMA_ARG_YARN_EXT_FACTOR)

    --yarn-attn-factor N                    YaRN:缩放 sqrt(t) 或注意力幅度(默认:-1.00)

                                            (环境变量:LLAMA_ARG_YARN_ATTN_FACTOR)

    --yarn-beta-slow N                      YaRN:高校正维度或 alpha(默认:-1.00)

                                            (环境变量:LLAMA_ARG_YARN_BETA_SLOW)

    --yarn-beta-fast N                      YaRN:低校正维度或 beta(默认:-1.00)

                                            (环境变量:LLAMA_ARG_YARN_BETA_FAST)

    -kvo,  --kv-offload, -nkvo, --no-kv-offload

                                            是否启用 KV 缓存卸载(默认:启用)

                                            (环境变量:LLAMA_ARG_KV_OFFLOAD)

    --repack, -nr, --no-repack              是否启用权重重新打包(默认:启用)

                                            (环境变量:LLAMA_ARG_REPACK)

    --no-host                               绕过主机缓冲区,允许使用额外缓冲区

                                            (环境变量:LLAMA_ARG_NO_HOST)

    -ctk,  --cache-type-k TYPE              KV 缓存 K 的数据类型

                                            允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1

                                            (默认:f16)

                                            (环境变量:LLAMA_ARG_CACHE_TYPE_K)

    -ctv,  --cache-type-v TYPE              KV 缓存 V 的数据类型

                                            允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1

                                            (默认:f16)

                                            (环境变量:LLAMA_ARG_CACHE_TYPE_V)

    -dt,   --defrag-thold N                 KV 缓存碎片整理阈值(已弃用)

                                            (环境变量:LLAMA_ARG_DEFRAG_THOLD)

    --rpc SERVERS                           逗号分隔的 RPC 服务器列表(host:port)

                                            (环境变量:LLAMA_ARG_RPC)

    --mlock                                 强制系统将模型保留在 RAM 中,而不是交换或压缩

                                            (环境变量:LLAMA_ARG_MLOCK)

    --mmap, --no-mmap                       是否对模型进行内存映射(如果禁用 mmap,加载较慢但如果未使用 mlock

                                            可能减少页面换出)(默认:启用)

                                            (环境变量:LLAMA_ARG_MMAP)

    -dio,  --direct-io, -ndio, --no-direct-io

                                            如果可用,使用 DirectIO(默认:禁用)

                                            (环境变量:LLAMA_ARG_DIO)

    --numa TYPE                             尝试有助于某些 NUMA 系统的优化

                                            - distribute:在所有节点上均匀分布执行

                                            - isolate:仅在执行开始的节点上的 CPU 上生成线程

                                            - numactl:使用 numactl 提供的 CPU 映射

                                            如果之前没有使用此选项运行,建议在使用前清除系统页面缓存

                                            参见 https://github.com/ggml-org/llama.cpp/issues/1437

                                            (环境变量:LLAMA_ARG_NUMA)

    -dev,  --device <dev1,dev2,..>          逗号分隔的用于卸载的设备列表(none = 不卸载)

                                            使用 --list-devices 查看可用设备列表

                                            (环境变量:LLAMA_ARG_DEVICE)

    --list-devices                          打印可用设备列表并退出

    -ot,   --override-tensor <张量名称模式>=<缓冲区类型>,...

                                            覆盖张量缓冲区类型

                                            (环境变量:LLAMA_ARG_OVERRIDE_TENSOR)

    -cmoe, --cpu-moe                        将所有专家混合(MoE)权重保留在 CPU 中

                                            (环境变量:LLAMA_ARG_CPU_MOE)

    -ncmoe, --n-cpu-moe N                   将前 N 层的专家混合(MoE)权重保留在 CPU 中

                                            (环境变量:LLAMA_ARG_N_CPU_MOE)

    -ngl,  --gpu-layers, --n-gpu-layers N   要存储在 VRAM 中的最大层数,可以是精确数字、'auto' 或 'all'

                                            (默认:auto)

                                            (环境变量:LLAMA_ARG_N_GPU_LAYERS)

    -sm,   --split-mode {none,layer,row,tensor}

                                            如何在多个 GPU 之间分割模型,可选:

                                            - none:仅使用一个 GPU

                                            - layer(默认):跨 GPU 分割层和 KV(流水线)

                                            - row:按行跨 GPU 分割权重(并行)

                                            - tensor:跨 GPU 分割权重和 KV(并行,实验性)

                                            (环境变量:LLAMA_ARG_SPLIT_MODE)

    -ts,   --tensor-split N0,N1,N2,...      卸载到每个 GPU 的模型比例,逗号分隔的比例列表,例如 3,1

                                            (环境变量:LLAMA_ARG_TENSOR_SPLIT)

    -mg,   --main-gpu INDEX                 用于模型(split-mode = none)或中间结果和 KV

                                            (split-mode = row)的 GPU(默认:0)

                                            (环境变量:LLAMA_ARG_MAIN_GPU)

    -fit,  --fit [on|off]                   是否调整未设置的参数以适应设备内存('on' 或 'off',默认:'on')

                                            (环境变量:LLAMA_ARG_FIT)

    -fitt, --fit-target MiB0,MiB1,MiB2,...  每个设备的 --fit 目标余量(MiB),逗号分隔的值列表,

                                            单个值将广播到所有设备,默认:1024

                                            (环境变量:LLAMA_ARG_FIT_TARGET)

    -fitc, --fit-ctx N                      --fit 选项可设置的最小 ctx 大小,默认:4096

                                            (环境变量:LLAMA_ARG_FIT_CTX)

    --check-tensors                         检查模型张量数据是否存在无效值(默认:false)

    --override-kv KEY=TYPE:VALUE,...        高级选项,通过键覆盖模型元数据。要指定多个覆盖,

                                            请使用逗号分隔的值。

                                            类型:int、float、bool、str。示例:--override-kv

                                            tokenizer.ggml.add_bos_token=bool:false,tokenizer.ggml.add_eos_token=bool:false

    --op-offload, --no-op-offload           是否将主机张量操作卸载到设备(默认:true)

    --lora FNAME                            LoRA 适配器路径(使用逗号分隔的值加载多个适配器)

    --lora-scaled FNAME:SCALE,...           带用户定义缩放的 LoRA 适配器路径(格式:FNAME:SCALE,...)

                                            注意:使用逗号分隔的值

    --control-vector FNAME                  添加控制向量

                                            注意:使用逗号分隔的值添加多个控制向量

    --control-vector-scaled FNAME:SCALE,... 带用户定义缩放 SCALE 的控制向量

                                            注意:使用逗号分隔的值(格式:FNAME:SCALE,...)

    --control-vector-layer-range START END  应用控制向量的层范围,包含起始和结束

    -m,    --model FNAME                    模型路径

                                            (环境变量:LLAMA_ARG_MODEL)

    -mu,   --model-url MODEL_URL            模型下载 URL(默认:未使用)

                                            (环境变量:LLAMA_ARG_MODEL_URL)

    -dr,   --docker-repo [<仓库>/]<模型>[:量化]

                                            Docker Hub 模型仓库。仓库可选,默认为 ai/。量化可选,默认为 :latest。

                                            示例:gemma3

                                            (默认:未使用)

                                            (环境变量:LLAMA_ARG_DOCKER_REPO)

    -hf,   -hfr, --hf-repo <用户>/<模型>[:量化]

                                            Hugging Face 模型仓库;量化可选,不区分大小写,默认为 Q4_K_M,

                                            如果仓库中不存在 Q4_K_M,则回退到第一个文件。

                                            如果可用,mmproj 也会自动下载。要禁用,添加 --no-mmproj

                                            示例:ggml-org/GLM-4.7-Flash-GGUF:Q4_K_M

                                            (默认:未使用)

                                            (环境变量:LLAMA_ARG_HF_REPO)

    -hff,  --hf-file FILE                   Hugging Face 模型文件。如果指定,将覆盖 --hf-repo 中的量化

                                            (默认:未使用)

                                            (环境变量:LLAMA_ARG_HF_FILE)

    -hfv,  -hfrv, --hf-repo-v <用户>/<模型>[:量化]

                                            声码器模型的 Hugging Face 模型仓库(默认:未使用)

                                            (环境变量:LLAMA_ARG_HF_REPO_V)

    -hffv, --hf-file-v FILE                 声码器模型的 Hugging Face 模型文件(默认:未使用)

                                            (环境变量:LLAMA_ARG_HF_FILE_V)

    -hft,  --hf-token TOKEN                 Hugging Face 访问令牌(默认:来自 HF_TOKEN 环境变量的值)

                                            (环境变量:HF_TOKEN)

    --log-disable                           禁用日志

    --log-file FNAME                        日志输出到文件

                                            (环境变量:LLAMA_ARG_LOG_FILE)

    --log-colors [on|off|auto]              设置彩色日志输出('on'、'off' 或 'auto',默认:'auto')

                                            'auto' 在输出到终端时启用颜色

                                            (环境变量:LLAMA_ARG_LOG_COLORS)

    -v,    --verbose, --log-verbose         将详细级别设置为无限(即记录所有消息,用于调试)

    --offline                               离线模式:强制使用缓存,阻止网络访问

                                            (环境变量:LLAMA_ARG_OFFLINE)

    -lv,   --verbosity, --log-verbosity N   设置详细级别阈值。详细度更高的消息将被忽略。值:

                                             - 0:常规输出

                                             - 1:错误

                                             - 2:警告

                                             - 3:信息

                                             - 4:跟踪(更多信息)

                                             - 5:调试

                                            (默认:3)

                                            (环境变量:LLAMA_ARG_LOG_VERBOSITY)

    --log-prefix, --no-log-prefix           在日志消息中启用前缀

                                            (环境变量:LLAMA_ARG_LOG_PREFIX)

    --log-timestamps, --no-log-timestamps   在日志消息中启用时间戳

                                            (环境变量:LLAMA_ARG_LOG_TIMESTAMPS)

    --spec-draft-type-k, -ctkd, --cache-type-k-draft TYPE

                                            草稿模型 KV 缓存 K 的数据类型

                                            允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1

                                            (默认:f16)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_CACHE_TYPE_K)

    --spec-draft-type-v, -ctvd, --cache-type-v-draft TYPE

                                            草稿模型 KV 缓存 V 的数据类型

                                            允许的值:f32、f16、bf16、q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1

                                            (默认:f16)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_CACHE_TYPE_V)

    ----- 采样参数 -----

    --samplers SAMPLERS                     按顺序用于生成的采样器,以 ';' 分隔

                                            (默认:

                                            penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature)

    -s,    --seed SEED                      RNG 种子(默认:-1,使用随机种子)

    --sampler-seq, --sampling-seq SEQUENCE  用于采样器的简化序列(默认:edskypmxt)

    --ignore-eos                            忽略流结束令牌并继续生成(隐含 --logit-bias EOS-inf)

    --temp, --temperature N                 温度(默认:0.80)

    --top-k N                               top-k 采样(默认:40,0 = 禁用)

                                            (环境变量:LLAMA_ARG_TOP_K)

    --top-p N                               top-p 采样(默认:0.95,1.0 = 禁用)

    --min-p N                               min-p 采样(默认:0.05,0.0 = 禁用)

    --top-nsigma, --top-n-sigma N           top-n-sigma 采样(默认:-1.00,-1.0 = 禁用)

    --xtc-probability N                     xtc 概率(默认:0.00,0.0 = 禁用)

    --xtc-threshold N                       xtc 阈值(默认:0.10,1.0 = 禁用)

    --typical, --typical-p N                局部典型采样,参数 p(默认:1.00,1.0 = 禁用)

    --repeat-last-n N                       要考虑惩罚的最后 n 个令牌(默认:64,0 = 禁用,-1 = ctx_size)

    --repeat-penalty N                      惩罚重复令牌序列(默认:1.00,1.0 = 禁用)

    --presence-penalty N                    重复存在惩罚(默认:0.00,0.0 = 禁用)

    --frequency-penalty N                   重复频率惩罚(默认:0.00,0.0 = 禁用)

    --dry-multiplier N                      设置 DRY 采样乘数(默认:0.00,0.0 = 禁用)

    --dry-base N                            设置 DRY 采样基础值(默认:1.75)

    --dry-allowed-length N                  设置 DRY 采样的允许长度(默认:2)

    --dry-penalty-last-n N                  设置最后 n 个令牌的 DRY 惩罚(默认:-1,0 = 禁用,-1 = 上下文大小)

    --dry-sequence-breaker STRING           为 DRY 采样添加序列分隔符,清除默认分隔符('\n'、':'、'"'、'*');

                                            使用 "none" 表示不使用任何序列分隔符

    --adaptive-target N                     adaptive-p:选择接近此概率的令牌(有效范围 0.0 到 1.0;负数 = 禁用)

                                            (默认:-1.00)

                                            [(更多信息)](https://github.com/ggml-org/llama.cpp/pull/17927)

    --adaptive-decay N                      adaptive-p:目标随时间适应的衰减率。较低的值更敏感,

                                            较高的值更稳定(有效范围 0.0 到 0.99)(默认:0.90)

    --dynatemp-range N                      动态温度范围(默认:0.00,0.0 = 禁用)

    --dynatemp-exp N                        动态温度指数(默认:1.00)

    --mirostat N                            使用 Mirostat 采样。

                                            如果使用,Top K、Nucleus 和 Locally Typical 采样器将被忽略。

                                            (默认:0,0 = 禁用,1 = Mirostat,2 = Mirostat 2.0)

    --mirostat-lr N                         Mirostat 学习率,参数 eta(默认:0.10)

    --mirostat-ent N                        Mirostat 目标熵,参数 tau(默认:5.00)

    -l,    --logit-bias TOKEN_ID(+/-)BIAS   修改令牌在补全中出现的似然性,

                                            例如 `--logit-bias 15043+1` 增加令牌 ' Hello' 的似然性,

                                            或 `--logit-bias 15043-1` 减少令牌 ' Hello' 的似然性

    --grammar GRAMMAR                       类似 BNF 的语法以约束生成(参见 grammars/ 目录中的示例)

    --grammar-file FNAME                    从文件读取语法

    -j,    --json-schema SCHEMA             JSON schema 以约束生成(https://json-schema.org/),

                                            例如 `{}` 表示任何 JSON 对象

                                            对于带有外部 $refs 的 schema,请使用 --grammar +

                                            example/json_schema_to_grammar.py

    -jf,   --json-schema-file FILE          包含 JSON schema 的文件以约束生成

                                            (https://json-schema.org/),例如 `{}` 表示任何 JSON 对象

                                            对于带有外部 $refs 的 schema,请使用 --grammar +

                                            example/json_schema_to_grammar.py

    -bs,   --backend-sampling               启用后端采样(实验性)(默认:禁用)

                                            (环境变量:LLAMA_ARG_BACKEND_SAMPLING)

    ----- 推测参数 -----

    --spec-draft-hf, -hfd, -hfrd, --hf-repo-draft <用户>/<模型>[:量化]

                                            与 --hf-repo 相同,但用于草稿模型(默认:未使用)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_HF_REPO)

    --spec-draft-threads, -td, --threads-draft N

                                            生成期间使用的线程数(默认:与 --threads 相同)

    --spec-draft-threads-batch, -tbd, --threads-batch-draft N

                                            批处理和提示处理期间使用的线程数(默认:与 --threads-draft 相同)

    --spec-draft-cpu-mask, -Cd, --cpu-mask-draft M

                                            草稿模型 CPU 亲和性掩码。与 cpu-range-draft 互补(默认:与 --cpu-mask 相同)

    --spec-draft-cpu-range, -Crd, --cpu-range-draft lo-hi

                                            用于亲和性的 CPU 范围。与 --cpu-mask-draft 互补

    --spec-draft-cpu-strict, --cpu-strict-draft <0|1>

                                            草稿模型是否使用严格的 CPU 放置(默认:与 --cpu-strict 相同)

    --spec-draft-prio, --prio-draft N       设置草稿进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)

    --spec-draft-poll, --poll-draft <0|1>   草稿模型是否使用轮询等待工作(默认:与 --poll 相同)

    --spec-draft-cpu-mask-batch, -Cbd, --cpu-mask-batch-draft M

                                            草稿模型批处理 CPU 亲和性掩码。与 cpu-range-draft 互补(默认:与 --cpu-mask 相同)

    --spec-draft-cpu-strict-batch, --cpu-strict-batch-draft <0|1>

                                            草稿模型批处理是否使用严格的 CPU 放置(默认:与 --cpu-strict-draft 相同)

    --spec-draft-prio-batch, --prio-batch-draft N

                                            设置草稿批处理进程/线程优先级:0-普通、1-中、2-高、3-实时(默认:0)

    --spec-draft-poll-batch, --poll-batch-draft <0|1>

                                            草稿模型批处理是否使用轮询等待工作(默认:与 --poll-draft 相同)

    --spec-draft-override-tensor, -otd, --override-tensor-draft <张量名称模式>=<缓冲区类型>,...

                                            草稿模型的覆盖张量缓冲区类型

    --spec-draft-cpu-moe, -cmoed, --cpu-moe-draft

                                            将草稿模型的所有专家混合(MoE)权重保留在 CPU 中

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_CPU_MOE)

    --spec-draft-n-cpu-moe, --spec-draft-ncmoe, -ncmoed, --n-cpu-moe-draft N

                                            将草稿模型的前 N 层专家混合(MoE)权重保留在 CPU 中

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_N_CPU_MOE)

    --spec-draft-n-max N                    用于推测解码的草稿令牌数(默认:3)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_N_MAX)

    --spec-draft-n-min N                    用于推测解码的最小草稿令牌数(默认:0)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_N_MIN)

    --spec-draft-p-split, --draft-p-split P 推测解码分割概率(默认:0.10)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_P_SPLIT)

    --spec-draft-p-min, --draft-p-min P     最小推测解码概率(贪婪)(默认:0.00)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_P_MIN)

    --spec-draft-backend-sampling, --no-spec-draft-backend-sampling

                                            将草稿采样卸载到后端(默认:启用)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_BACKEND_SAMPLING)

    --spec-draft-device, -devd, --device-draft <dev1,dev2,..>

                                            逗号分隔的用于卸载草稿模型的设备列表(none = 不卸载)

                                            使用 --list-devices 查看可用设备列表

    --spec-draft-ngl, -ngld, --gpu-layers-draft, --n-gpu-layers-draft N

                                            要存储在 VRAM 中的草稿模型最大层数,可以是精确数字、'auto' 或 'all'

                                            (默认:auto)

                                            (环境变量:LLAMA_ARG_N_GPU_LAYERS_DRAFT)

    --spec-draft-model, -md, --model-draft FNAME

                                            用于推测解码的草稿模型(默认:未使用)

                                            (环境变量:LLAMA_ARG_SPEC_DRAFT_MODEL)

    --spec-type none,draft-simple,draft-eagle3,draft-mtp,ngram-simple,ngram-map-k,ngram-map-k4v,ngram-mod,ngram-cache

                                            要使用的推测解码类型列表,逗号分隔(默认:none)

                                            (环境变量:LLAMA_ARG_SPEC_TYPE)

    --spec-ngram-mod-n-min N                基于 ngram 的推测解码使用的最小 ngram 令牌数(默认:48)

    --spec-ngram-mod-n-max N                基于 ngram 的推测解码使用的最大 ngram 令牌数(默认:64)

    --spec-ngram-mod-n-match N              ngram-mod 查找长度(默认:24)

    --spec-ngram-simple-size-n N            ngram-simple 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)

    --spec-ngram-simple-size-m N            ngram-simple 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)

    --spec-ngram-simple-min-hits N          ngram-simple 推测解码的最小命中数(默认:1)

    --spec-ngram-map-k-size-n N             ngram-map-k 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)

    --spec-ngram-map-k-size-m N             ngram-map-k 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)

    --spec-ngram-map-k-min-hits N           ngram-map-k 推测解码的最小命中数(默认:1)

    --spec-ngram-map-k4v-size-n N           ngram-map-k4v 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)

    --spec-ngram-map-k4v-size-m N           ngram-map-k4v 推测解码的 ngram 大小 M,草稿 m-gram 的长度(默认:48)

    --spec-ngram-map-k4v-min-hits N         ngram-map-k4v 推测解码的最小命中数(默认:1)

    --draft, --draft-n, --draft-max N       此参数已被移除。请使用 --spec-draft-n-max 或

                                            --spec-ngram-mod-n-max

                                            (环境变量:LLAMA_ARG_DRAFT_MAX)

    --draft-min, --draft-n-min N            此参数已被移除。请使用 --spec-draft-n-min 或

                                            --spec-ngram-mod-n-min

                                            (环境变量:LLAMA_ARG_DRAFT_MIN)

    --spec-ngram-size-n N                   此参数已被移除。请使用相应的

                                            --spec-ngram-*-size-n 或 --spec-ngram-mod-n-match

    --spec-ngram-size-m N                   此参数已被移除。请使用相应的

                                            --spec-ngram-*-size-m

    --spec-ngram-min-hits N                 此参数已被移除。请使用相应的

                                            --spec-ngram-*-min-hits

    ----- 示例特定参数 -----

    -lcs,  --lookup-cache-static FNAME      用于查找解码的静态查找缓存路径(生成时不更新)

    -lcd,  --lookup-cache-dynamic FNAME     用于查找解码的动态查找缓存路径(生成时更新)

    -ctxcp, --ctx-checkpoints, --swa-checkpoints N

                                            每个槽位可创建的上下文检查点最大数量(默认:32)

                                            [(更多信息)](https://github.com/ggml-org/llama.cpp/pull/15293)

                                            (环境变量:LLAMA_ARG_CTX_CHECKPOINTS)

    -cms,  --checkpoint-min-step N          上下文检查点之间的最小令牌间隔(默认:256,0 = 无最小值)

                                            (环境变量:LLAMA_ARG_CHECKPOINT_MIN_SPACING_NT)

    -cram, --cache-ram N                    设置最大缓存大小(MiB)(默认:8192,-1 = 无限制,0 = 禁用)

                                            [(更多信息)](https://github.com/ggml-org/llama.cpp/pull/16391)

                                            (环境变量:LLAMA_ARG_CACHE_RAM)

    -kvu,  --kv-unified, -no-kvu, --no-kv-unified

                                            对所有序列使用单一统一 KV 缓冲区(如果槽位数自动设置则默认启用)

                                            (环境变量:LLAMA_ARG_KV_UNIFIED)

    --cache-idle-slots, --no-cache-idle-slots

                                            在新任务时将空闲槽位保存到提示缓存,使用统一 KV 时清除它们

                                            (默认:启用,需要 cache-ram)

                                            (环境变量:LLAMA_ARG_CACHE_IDLE_SLOTS)

    --context-shift, --no-context-shift     是否在无限文本生成中使用上下文移位(默认:禁用)

                                            (环境变量:LLAMA_ARG_CONTEXT_SHIFT)

    -r,    --reverse-prompt PROMPT          在 PROMPT 处停止生成,在交互模式下返回控制权

    -sp,   --special                        启用特殊令牌输出(默认:false)

    --warmup, --no-warmup                   是否使用空运行进行预热(默认:启用)

    --spm-infill                            使用 Suffix/Prefix/Middle 模式进行填充

                                            (而非 Prefix/Suffix/Middle),因为某些模型更偏好此模式(默认:禁用)

    --pooling {none,mean,cls,last,rank}     嵌入的池化类型,如果未指定则使用模型默认值

                                            (环境变量:LLAMA_ARG_POOLING)

    -np,   --parallel N                     服务槽位数(默认:-1,-1 = 自动)

                                            (环境变量:LLAMA_ARG_N_PARALLEL)

    -cb,   --cont-batching, -nocb, --no-cont-batching

                                            是否启用连续批处理(又称动态批处理)(默认:启用)

                                            (环境变量:LLAMA_ARG_CONT_BATCHING)

    -mm,   --mmproj FILE                    多模态投影仪文件路径。参见 tools/mtmd/README.md

                                            注意:如果使用了 -hf,可以省略此参数

                                            (环境变量:LLAMA_ARG_MMPROJ)

    -mmu,  --mmproj-url URL                 多模态投影仪文件的 URL。参见 tools/mtmd/README.md

                                            (环境变量:LLAMA_ARG_MMPROJ_URL)

    --mmproj-auto, --no-mmproj, --no-mmproj-auto

                                            是否使用多模态投影仪文件(如果可用),在使用 -hf 时有用

                                            (默认:启用)

                                            (环境变量:LLAMA_ARG_MMPROJ_AUTO)


返回