【llama.cpp】llama.cpp部署大模型

张开发
2026/4/22 5:46:42 15 分钟阅读

分享文章

【llama.cpp】llama.cpp部署大模型
官方文档https://github.com/ggml-org/llama.cpp使用windows的编译exe下载编译的文件https://github.com/ggml-org/llama.cpp/releases有GPU下载带cuda的使用命令行工具llama-cli解压文件后启动终端输入以下查看可用的命令llama-cli-h启动模型llama-cli.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf-ngl100-m指定模型位置如果模型很大有多个gguf切片只需要给出一个剩下的会自动索引-ngl指定模型加载到GPU的层数直接测试对话测试性能llama-bench使用llama-bench.exe工具测试此电脑的性能llama-bench.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf-ngl100输入512token的速度和输出128token的速度启动模型服务llama-serverllama-server.exe-mC:\xudawu\development\20260226_llamacpp_models\unsloth\Qwen3-4B-Thinking-2507-GGUF\Qwen3-4B-Thinking-2507-Q4_K_M.gguf --ctx-size16384--host0.0.0.0--port8080--ctx-size上下文长度不设置则默认为0从模型配置中加载上下文长度--port端口默认为8080-a指定模型服务启动的名字不设置则默认使用-m指定的文件名启动成功启动webui进入指定的网址进入llama自带的web界面启动多模态模型服务下载视觉投影模型mmproj-BF16.gguf启动模型服务llama-server.exe-mmodels/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-Q4_K_M.gguf--mmprojmodels/Qwen3.5-35B-A3B-GGUF/mmproj-BF16.gguf --ctx-size32768--host0.0.0.0--port8080--mmproj models/Qwen3.5-35B-A3B-GGUF/mmproj-BF16.gguf指定multimodal projector的位置获得所有模型启动服务并指定模型文件夹地址llama-server.exe --models-dir C:\xudawu\development\20260226_llamacpp_models\unsloth --sleep-idle-seconds180通过get请求可以获得可用模型以下参数在服务器空闲多少秒时卸载模型--sleep-idle-seconds推荐创建一个bat文件方便一键启动bat文件内容如下文件名1a_start_llama_server.batllama-server.exe --models-dir../../models --ctx-size65536--host127.0.0.1--port8080--ctx-size 65536设置模型上下文长度为65536token--models-dir ../../models使用当前目录的上两级目录中的models文件夹作为模型文件夹其余参数不设置由llama.cpp进行自适应调整官方文档https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md使用docker官方教程https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md选择这个镜像启动容器服务启动单个模型dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:server-cuda-m/models/Qwen3.5-35B-A3B-Q4_K_M.gguf --ctx-size32768--host0.0.0.0--port8080推荐使用--ctx-size 32768设置固定上下文长度而使用-fitc 32768设置最小上下文长度启动模型时会自动检测可用显存然后拓展上下文长度会增加显存占用和减慢模型首次启动速度启动服务模型按需加载dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:server-cuda --models-dir /models --sleep-idle-seconds1800--ctx-size32768--host0.0.0.0--port8080如果使用的是full-cuda的镜像启动单个模型dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:full-cuda--server-m/models/Qwen3.5-35B-A3B-Q4_K_M.gguf --ctx-size32768--host0.0.0.0--port8080启动服务模型按需加载dockerrun--namellama-server--gpusall-p8080:8080-vC:/xudawu/development/docker_data/llama_cpp/models:/models ghcr.io/ggml-org/llama.cpp:full-cuda--server--models-dir /models --sleep-idle-seconds1800--ctx-size32768--host0.0.0.0--port8080加载模型POST /models/load卸载模型POST /models/unload

更多文章