SmallThinker-3B-Preview部署教程：Kubernetes集群中Ollama StatefulSet编排方案

张开发

• 2026/5/9 23:57:59 • 15 分钟阅读

分享文章

SmallThinker-3B-Preview部署教程Kubernetes集群中Ollama StatefulSet编排方案1. 环境准备与要求在开始部署SmallThinker-3B-Preview模型之前需要确保你的Kubernetes集群满足以下基本要求系统要求Kubernetes版本1.20或更高版本节点内存每个Pod至少需要8GB RAM节点存储至少20GB可用磁盘空间GPU支持可选NVIDIA GPU节点可加速推理工具准备kubectl命令行工具Helm可选用于简化部署NVIDIA GPU Operator如果使用GPU命名空间创建kubectl create namespace ollama-deployment kubectl config set-context --current --namespaceollama-deployment2. 部署Ollama StatefulSetStatefulSet适合有状态应用部署能保证Pod的持久化存储和稳定网络标识。2.1 创建持久化存储首先创建PersistentVolumeClaim为模型数据提供持久化存储# storage.yaml apiVersion: v1 kind: PersistentVolumeClaim metadata: name: ollama-model-pvc namespace: ollama-deployment spec: accessModes: - ReadWriteOnce resources: requests: storage: 20Gi storageClassName: standard应用配置kubectl apply -f storage.yaml2.2 部署Ollama StatefulSet创建StatefulSet配置文件专门针对SmallThinker-3B-Preview模型优化# smallthinker-statefulset.yaml apiVersion: apps/v1 kind: StatefulSet metadata: name: ollama-smallthinker namespace: ollama-deployment spec: serviceName: ollama-service replicas: 1 selector: matchLabels: app: ollama-smallthinker template: metadata: labels: app: ollama-smallthinker spec: containers: - name: ollama image: ollama/ollama:latest ports: - containerPort: 11434 volumeMounts: - name: model-storage mountPath: /root/.ollama resources: requests: memory: 6Gi cpu: 2 limits: memory: 8Gi cpu: 4 env: - name: OLLAMA_HOST value: 0.0.0.0:11434 - name: OLLAMA_MODELS value: /root/.ollama/models volumes: - name: model-storage persistentVolumeClaim: claimName: ollama-model-pvc volumeClaimTemplates: - metadata: name: model-data spec: accessModes: [ ReadWriteOnce ] resources: requests: storage: 20Gi部署StatefulSetkubectl apply -f smallthinker-statefulset.yaml3. 配置服务访问3.1 创建Service为了让应用能够被访问需要创建对应的Service# service.yaml apiVersion: v1 kind: Service metadata: name: ollama-service namespace: ollama-deployment spec: selector: app: ollama-smallthinker ports: - protocol: TCP port: 11434 targetPort: 11434 type: LoadBalancer应用服务配置kubectl apply -f service.yaml3.2 获取访问地址获取服务的访问地址kubectl get svc -n ollama-deployment ollama-service4. 下载和配置SmallThinker模型4.1 进入Pod下载模型进入运行中的Pod下载SmallThinker-3B-Preview模型# 获取Pod名称 POD_NAME$(kubectl get pods -n ollama-deployment -l appollama-smallthinker -o jsonpath{.items[0].metadata.name}) # 进入Pod执行命令 kubectl exec -it -n ollama-deployment $POD_NAME -- ollama pull smallthinker:3b-preview4.2 验证模型下载检查模型是否成功下载kubectl exec -it -n ollama-deployment $POD_NAME -- ollama list应该能看到类似输出NAME ID SIZE MODIFIED smallthinker:3b-preview xxxxxxxxxxx 3.1GB 2 minutes ago5. 测试模型功能5.1 基本功能测试通过端口转发进行本地测试kubectl port-forward -n ollama-deployment svc/ollama-service 11434:11434然后在另一个终端测试curl http://localhost:11434/api/generate -d { model: smallthinker:3b-preview, prompt: 你好请介绍一下你自己, stream: false }5.2 创建测试脚本创建自动化测试脚本# test-model.sh #!/bin/bash SERVICE_IP$(kubectl get svc -n ollama-deployment ollama-service -o jsonpath{.status.loadBalancer.ingress[0].ip}) PORT11434 echo 测试SmallThinker-3B-Preview模型连接... curl -s http://$SERVICE_IP:$PORT/api/tags echo -e \n测试模型推理能力... curl -s http://$SERVICE_IP:$PORT/api/generate -d { model: smallthinker:3b-preview, prompt: 解释一下机器学习的基本概念, stream: false } | jq .response给脚本执行权限并运行chmod x test-model.sh ./test-model.sh6. 高级配置和优化6.1 GPU加速配置可选如果集群有GPU可以配置GPU加速# 在StatefulSet的container部分添加 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 16.2 自动扩缩容配置配置Horizontal Pod Autoscaler# hpa.yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: ollama-hpa namespace: ollama-deployment spec: scaleTargetRef: apiVersion: apps/v1 kind: StatefulSet name: ollama-smallthinker minReplicas: 1 maxReplicas: 3 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 706.3 健康检查配置添加健康检查确保服务稳定性# 在container部分添加 livenessProbe: httpGet: path: /api/tags port: 11434 initialDelaySeconds: 30 periodSeconds: 10 readinessProbe: httpGet: path: /api/tags port: 11434 initialDelaySeconds: 5 periodSeconds: 57. 监控和日志7.1 查看Pod状态kubectl get pods -n ollama-deployment -w7.2 查看日志kubectl logs -f -n ollama-deployment deployment/ollama-smallthinker7.3 资源使用监控kubectl top pods -n ollama-deployment8. 故障排除8.1 常见问题解决问题1模型下载失败# 检查网络连接 kubectl exec -it -n ollama-deployment $POD_NAME -- curl -I https://ollama.com # 手动下载重试 kubectl exec -it -n ollama-deployment $POD_NAME -- ollama pull smallthinker:3b-preview问题2内存不足# 调整资源限制 kubectl patch statefulset ollama-smallthinker -n ollama-deployment -p {spec:{template:{spec:{containers:[{name:ollama,resources:{limits:{memory:10Gi},requests:{memory:8Gi}}}]}}}}问题3存储空间不足# 扩展PVC kubectl patch pvc ollama-model-pvc -n ollama-deployment -p {spec:{resources:{requests:{storage:30Gi}}}}9. 总结通过本教程你已经在Kubernetes集群中成功部署了SmallThinker-3B-Preview模型的Ollama服务。这个部署方案提供了稳定运行使用StatefulSet保证有状态应用的稳定运行持久化存储模型数据不会因Pod重启而丢失灵活扩展支持水平扩缩容应对不同负载资源隔离合理的资源限制保证集群稳定性监控维护完整的健康检查和日志监控方案SmallThinker-3B-Preview作为一个轻量级模型特别适合在资源受限的环境中部署为边缘计算和快速推理场景提供了优秀的解决方案。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/5/8 16:30:59

探索MS-DOS源代码中的栈帧布局与函数调用规范：从16位汇编看系统设计

探索MS-DOS源代码中的栈帧布局与函数调用规范：从16位汇编看系统设计【免费下载链接】MS-DOS MS-DOS 1.25和2.0的原始源代码，供参考使用项目地址: https://gitcode.com/GitHub_Trending/ms/MS-DOS MS-DOS作为早期个人计算机的标志性操作系统&…

1. 项目概述本项目以CW32F030C8T6微控制器为核心，实现基于标准外设库函数的LED控制功能。该设计面向嵌入式初学者与工程实践者，聚焦于GPIO外设的基础配置流程与底层驱动逻辑，不依赖任何高级抽象框架或HAL层封装，完全基于厂商提供的…

张开发

前端开发 2026/5/8 16:31:03

5分钟搞定OpenCV车牌定位：C++实战教程（附完整代码）

OpenCV车牌定位实战：从原理到C代码实现引言车牌识别系统在现代交通管理、智能停车场和安防监控中扮演着重要角色。作为计算机视觉的经典应用场景，车牌定位是整个识别流程的第一步，也是最关键的环节之一。本文将带您深入了解车牌定位的技术原…

张开发

SmallThinker-3B-Preview部署教程：Kubernetes集群中Ollama StatefulSet编排方案

最新文章

灵魂量化分析工具soulspec：自定义维度追踪内在状态

强化学习在量子系统优化控制中的应用：从麦克斯韦妖到DDPG算法实践

OpenClaw Client：构建现代化AI Agent Web控制台的完整指南

全国青少年人工智能辅助生成数字艺术创作者大赛

CANN基础设施OAT使用指南

ChatGPT资源大全：从开源仓库到AI应用开发实战指南

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

探索MS-DOS源代码中的栈帧布局与函数调用规范：从16位汇编看系统设计

探索MS-DOS键盘输入处理：揭秘中断驱动的字符读取机制

告别繁琐配置：利用OPTI Toolbox一键集成Ipopt求解器

FiberGraphQL订阅授权：基于上下文的权限验证完整指南

Jitsi Meet后端服务架构：模块化设计与组件通信机制深度解析

【Dify】从零构建工作流：OpenAPI插件、代码节点与API调用的实战解析

Qt Design Studio的3D革命：在嵌入式界面中实现游戏级视觉效果

避坑指南：STM32F407开发中那些容易翻车的细节（GPIO消抖/FSMC配置/CAN总线调试）

部署 AI 应用需要什么服务器？

告别Shift！用AutoHotkey脚本一键切换Windows中英文输入（附自启动配置）

CW32F030 GPIO库函数点灯：从时钟使能到推挽输出的完整实践

5分钟搞定OpenCV车牌定位：C++实战教程（附完整代码）