RAG/Agent/Skill/MCP/Tool

张开发
2026/4/20 18:16:50 15 分钟阅读

分享文章

RAG/Agent/Skill/MCP/Tool
RAGRetrieval-Augmented Generation检索增强生成核心思想不再只依赖模型内部的「记忆」而是给模型配备一个「外部知识库」让它在回答问题前先去查资料。原因1.模型无法读取所有内容上下文窗口大小有限制2.模型推理成本高输入越多成本越高3.输入越多模型需要消化的内容越多模型推理速度就越慢RAG的基本运行流程1.RAG会把文档切分成多个片段(需要研究如何分片)分片数据采集与清洗原始数据源│├── PDF 文档├── Excel/CSV├── 聊天记录├── 网页内容├── 数据库└── 内部文档│▼数据清洗├── 去除噪音HTML 标签、特殊字符├── 文本标准化繁→简、大小写统一├── 文档分块Chunking└── 元数据提取标题、日期、来源通常在300-1000 tokens之间索引通过嵌入模型如 OpenAI text-embedding-3 或 Hugging Face 上的开源模型将文本片段映射为语义向量表示Document Embedding也就是高维稠密向量。向量数据库文本通过Embedding向量化后存入向量数据库同时原始文本也会存入向量数据库的。2.在多个片段中寻找问题相关内容需要研究如何寻找到相关片段召回使用嵌入模型Embedding Model将用户查询转换为语义向量表示Query Embedding也就是高维稠密向量以捕捉查询的语义信息。信息检索 (R) 在嵌入存储Embedding Store中通过语义相似性搜索找到与查询向量最相关的文档片段Relevant Segments。如图搜索与问题相似度较高的结果计算向量相似度计算向量相似度的计算方式余弦相似度欧氏距离点积特点成本低耗时短准确率低适合初步筛选余弦相似度计算方式计算两个向量之间家教的cos值夹角越小值越大欧氏距离算法计算AB两点之间的直线距离点积通过代数方式衡量两个向量相似度的方法。点积不仅考虑两个向量之间的方向关系还要考虑他们的长度举例首先从A引入关于B的垂线得到垂线与B向量的交点交点到原点的距离与B向量长度的乘积乘积越大就代表相似度越高。如果两个向量方向相同向量越长点积值越大方向相反(与另一向量夹角大于90度)得到的乘积是负的垂直时点积为0。重排在召回结果中进行重排再挑几份与用户问题最相似的。之所以一定是召回后重排而不是直接在召回时就挑少几份主要还是因为重排与召回在计算相似度方面存在差异。重排进行相似度计算方法cross-encoder 进行计算特点成本高耗时长准确率高适合场景精挑细选最后总结准备部分分片索引实现知识库构建将数据进行分片对所有分片后的数据进行向量化向量化后存入向量数据库中。AgentAgent 能自主调用工具完成任务的AI。如果说RAG让AI能查资料Agent让AI能干活。工具调用可以使用各种API、软件、服务任务规划拆解复杂任务为多个步骤自主决策根据结果调整执行策略实际案例任务帮我查明天北京的天气如果下雨就给老板发邮件说我在家办公Agent执行流程调用天气API查询明天天气判断是否下雨如果下雨调用邮件API发送请假邮件返回执行结果Agent Skill大语言模型的技能Skills是指通过特定的指令和元数据帮助模型在执行任务时更加高效和准确。这些技能可以将重复性工作流程打包成可复用的指令使得模型能够自动、可靠地完成任务而无需每次都重复提醒。1.核心功能自动化执行技能允许模型在需要时自动加载并执行特定任务减少人工干预提高工作效率。2.可复用性通过将工作流程标准化用户可以在不同的场景中复用这些技能提升一致性和准确性。3.简化复杂性技能的设计核心是简洁与高效用户只需编写简单的文档模型便能理解并执行复杂的任务。MCPModel Context Protocol模型上下文协议为AI工具制定统一标准就像USB接口统一了设备连接。每个AI工具都有自己的接口标准开发者需要为不同AI分别开发插件工具无法跨平台复用Skill vs MCP工具对比维度MCP工具Skill定位底层能力螺丝刀完整方案装修服务复杂度单一功能组合多个工具业务逻辑使用场景开发者调用终端用户直接使用

更多文章