【llama.cpp】llama.cpp部署大模型

张开发

• 2026/4/22 5:46:42 • 15 分钟阅读

分享文章

官方文档https://github.com/ggml-org/llama.cpp使用windows的编译exe下载编译的文件https://github.com/ggml-org/llama.cpp/releases有GPU下载带cuda的使用命令行工具llama-cli解压文件后启动终端输入以下查看可用的命令llama-cli-h启动模型llama-cli.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf-ngl100-m指定模型位置如果模型很大有多个gguf切片只需要给出一个剩下的会自动索引-ngl指定模型加载到GPU的层数直接测试对话测试性能llama-bench使用llama-bench.exe工具测试此电脑的性能llama-bench.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf-ngl100输入512token的速度和输出128token的速度启动模型服务llama-serverllama-server.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf --ctx-size16384--host0.0.0.0--port8080--ctx-size上下文长度不设置则默认为0从模型配置中加载上下文长度--port端口默认为8080-a指定模型服务启动的名字不设置则默认使用-m指定的文件名启动成功启动webui进入指定的网址进入llama自带的web界面启动多模态模型服务下载视觉投影模型mmproj-BF16.gguf启动模型服务llama-server.exe-mmodels/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-Q4_K_M.gguf--mmprojmodels/Qwen3.5-35B-A3B-GGUF/mmproj-BF16.gguf --ctx-size32768--host0.0.0.0--port8080--mmproj models/Qwen3.5-35B-A3B-GGUF/mmproj-BF16.gguf指定multimodal projector的位置获得所有模型启动服务并指定模型文件夹地址llama-server.exe --models-dir C:\xudawu\development\20260226_llamacpp_models\unsloth --sleep-idle-seconds180通过get请求可以获得可用模型以下参数在服务器空闲多少秒时卸载模型--sleep-idle-seconds推荐创建一个bat文件方便一键启动bat文件内容如下文件名1a_start_llama_server.batllama-server.exe --models-dir../../models --ctx-size65536--host127.0.0.1--port8080--ctx-size 65536设置模型上下文长度为65536token--models-dir ../../models使用当前目录的上两级目录中的models文件夹作为模型文件夹其余参数不设置由llama.cpp进行自适应调整官方文档https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md使用docker官方教程https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md选择这个镜像启动容器服务启动单个模型dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:server-cuda-m/models/Qwen3.5-35B-A3B-Q4_K_M.gguf --ctx-size32768--host0.0.0.0--port8080推荐使用--ctx-size 32768设置固定上下文长度而使用-fitc 32768设置最小上下文长度启动模型时会自动检测可用显存然后拓展上下文长度会增加显存占用和减慢模型首次启动速度启动服务模型按需加载dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:server-cuda --models-dir /models --sleep-idle-seconds1800--ctx-size32768--host0.0.0.0--port8080如果使用的是full-cuda的镜像启动单个模型dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:full-cuda--server-m/models/Qwen3.5-35B-A3B-Q4_K_M.gguf --ctx-size32768--host0.0.0.0--port8080启动服务模型按需加载dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:full-cuda--server--models-dir /models --sleep-idle-seconds1800--ctx-size32768--host0.0.0.0--port8080加载模型POST /models/load卸载模型POST /models/unload

更多文章

前端开发 2026/4/22 5:43:14

HEIF Utility：Windows平台HEIF图像格式转换的终极解决方案

HEIF Utility：Windows平台HEIF图像格式转换的终极解决方案【免费下载链接】HEIF-Utility HEIF Utility - View/Convert Apple HEIF images on Windows. 项目地址: https://gitcode.com/gh_mirrors/he/HEIF-Utility HEIF Utility是一款专为Windows系统设计的…

1. 通达信指标显示优化的核心逻辑第一次打开通达信软件时，很多人都会被密密麻麻的K线和指标线搞得头晕眼花。作为用了8年通达信的老用户，我深刻理解指标显示混乱带来的困扰——明明是个好指标，却因为信号重叠、位置不当导致错过买卖点。主副…

张开发

前端开发 2026/4/17 11:35:50

GBase 8a 日期边界写法和时间窗口取数偏差

GBase 8a 日期边界写法和时间窗口取数偏差我最近看资料和整理报表偏差时，越来越觉得 GBase 8a 里很多“昨天的数据怎么和今天重叠了”“月底统计怎么总差一点”的问题，不一定是调度晚了，也不一定是数据没到，而是日期边界和时间窗…

张开发

【llama.cpp】llama.cpp部署大模型

最新文章

MATLAB调试进阶：巧用assignin和evalin实时查看和修改函数内部变量

为什么你的车载Docker镜像无法通过AUTOSAR CP兼容性测试？Docker 27的cgroups v2+seccomp-bpf深度配置清单曝光

JavaScript中跨窗口通信postMessage的序列化开销

AudioLDM-S音效生成质量评测：CNN与人类听觉对比实验

手机号逆向查询QQ号：3步高效解决方案完整指南

告别手动抄数据：5分钟学会用WebPlotDigitizer智能提取图表数据

推荐文章

《前沿洞察：AI 面试季、Agent 开发痛点与人机协作架构的未来》

别再插错线了！一张图看懂USB 2.0/3.0线序与颜色定义（附ZYNQ开发板实测）

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

如何在 CGO 中正确处理带 const char- 参数的 C 回调函数

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

HEIF Utility：Windows平台HEIF图像格式转换的终极解决方案

Ubuntu系统下海康工业相机MVS部署与网络配置实战

台区同期线损智能诊断与闭环治理体系及工程化实践

Tesseract.js架构解析：纯JavaScript OCR引擎的工程哲学与性能优化策略

漫画脸描述生成保姆级教程：从安装到生成可商用动漫角色方案

2025届毕业生推荐的十大降AI率平台解析与推荐

实测DeepSeek-R1-Distill-Qwen-1.5B：低配电脑也能流畅运行的AI模型

剪贴板救星！PasteMD智能美化工具5分钟快速部署教程

配置管理方案环境变量与配置文件

春联生成模型实测体验：输入祝福词，1-2秒生成工整对联

通达信主副图与排序指标显示优化技巧

GBase 8a 日期边界写法和时间窗口取数偏差