CANN/ops-tensor算子开发指南

张开发

• 2026/5/9 12:26:47 • 15 分钟阅读

分享文章

算子开发指南【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor目录结构开发一个算子需要以下文件src/ ├── add/ # 示例Add 算子 │ ├── add.cpp # Host Kernel 实现 │ ├── add_struct.h # Tiling 数据结构可选 │ ├── CMakeLists.txt # 编译配置 │ └── tests/ # 测试目录强烈推荐 │ ├── add_test.h │ └── add_test.cpp ├── ... # 其他算子 └── CMakeLists.txt说明Host 和 Kernel 可以合并为一个.cpp文件TilingData 可以定义在.cpp文件中也可以独立为_struct.harch35/目录仅在需要区分不同 SOC 架构时使用当前版本仅支持 Ascend950即 arch35测试文件强烈推荐但不是必需的文件说明1. 解决方案实现op_solution.cpp作用实现解决方案执行函数框架会自动调用计算 Tiling 参数管理设备内存调用核函数注册解决方案到全局注册表基本结构#include acl/acl.h #include kernel_operator.h #define GM_ADDR uint8_t* // Tiling 数据结构 namespace OpNameOp { struct OpNameTilingData { int64_t totalLength; int64_t usedCoreNum; // ... 其他 Tiling 参数 }; } // 解决方案执行函数框架自动调用 /* 1. 参数获取和检查 2. 计算 Tiling 数据 3. 分配设备TilingData内存并拷贝 Tiling 数据 4. 调用核函数 5. 同步异步执行安全 6. 释放TilingData设备内存 */ static acltensorStatus_t ExecuteOpNameSolution(const ElementwiseArgs args) { // 1. 参数获取和检查 const void* A args.bufferA; const void* C args.bufferC; void* D args.bufferD; if (A nullptr || ...) { ... // 异常返回 } // 2. 计算 Tiling 数据可用函数封装 OpNameOp::OpNameTilingData tilingData; tilingData.totalLength size; tilingData.usedCoreNum CalculateCoreNum(size); // 自定义函数 // ... 其他 Tiling 参数 // 3. 分配设备TilingData内存并拷贝 Tiling 数据 uint8_t *tilingDevice; aclrtMalloc((void**)tilingDevice, sizeof(tilingData), ACL_MEM_MALLOC_HUGE_FIRST); aclrtMemcpy(tilingDevice, sizeof(tilingData), tilingData, sizeof(tilingData), ACL_MEMCPY_HOST_TO_DEVICE); // 4. 调用核函数 Block, workspace, stream op_name_kernel_do(inputDevice, outputDevice, tilingDevice, nullptr, tilingData.usedCoreNum, stream); // 5. 同步 aclrtSynchronizeStream(stream); // 6. 释放设备内存 aclrtFree(tilingDevice); return ACL_SUCCESS; } // Kernel 部分核函数实现 using namespace AscendC; extern C __global__ __aicore__ void op_name(GM_ADDR input, GM_ADDR output, GM_ADDR tiling) { // Kernel 类型声明 KERNEL_TASK_TYPE_DEFAULT(KERNEL_TYPE_AIV_ONLY); // 初始化 TPipe pipe; // ... 初始化 LocalTensor、GlobalTensor、TQue 等 // 解析 Tiling 数据 auto tilingData (OpNameOp::OpNameTilingData*)tiling; // 核心计算逻辑 for (int i 0; i tilingData-blockLoopCnt; i) { // 1. DataCopy: GM - LocalTensor // 2. 计算 // 3. DataCopy: LocalTensor - GM } } // 核函数封装 void op_name_kernel_do(GM_ADDR input, GM_ADDR output, GM_ADDR tiling, GM_ADDR workspace, uint32_t numBlocks, void *stream) { op_namenumBlocks, workspace, stream(input, output, tiling); } // 注册解决方案到全局注册表 namespace { std::shared_ptrElementwiseSolution CreateOpNameSolution() { SolutionUid uid{ACLTENSOR_OP_OP_NAME, ACLTENSOR_R_32F, 0}; // 0 表示通用维度 return std::make_sharedElementwiseSolution(uid, ExecuteOpNameSolution); } struct OpNameSolutionRegistrar { OpNameSolutionRegistrar() { auto solution CreateOpNameSolution(); ElementwiseSolutionRegistry::instance().registerSolution(solution); } }; static OpNameSolutionRegistrar g_op_nameSolutionRegistrar; }解决方案关键点定义 TilingData 结构体或 include 独立的_struct.h计算 Tiling 参数实现解决方案执行函数签名static acltensorStatus_t ExecuteOpNameSolution(const ElementwiseArgs args)注册解决方案到全局注册表使用静态注册器自动注册Kernel 部分关键点(Kernel部分可提取成独立的_kernel.cpp)使用__global__ __aicore__标记核函数实现 GM ↔ LocalTensor 的数据搬运实现核心计算逻辑注册机制说明SolutionUid- 解决方案唯一标识符由{操作符, 数据类型, 维度数}三元组组成ACLTENSOR_OP_OP_NAME- 操作符类型ADD、SUB、MUL、DIV 等ACLTENSOR_R_32F- 数据类型当前仅支持 float320- 维度数0 表示通用解决方案适配任意维度Create Solution- 创建解决方案对象返回std::shared_ptrElementwiseSolution智能指针传入ExecuteOpNameSolution函数指针作为执行接口静态注册器- 利用全局变量初始化自动注册程序启动时自动执行将解决方案注册到全局单例ElementwiseSolutionRegistry框架在执行时根据操作符、数据类型、维度数从注册表查询解决方案2. Tiling 数据结构可选文件op_name_struct.h作用定义 Host 传递给 Kernel 的 Tiling 参数基本结构#ifndef OP_NAME_STRUCT_H #define OP_NAME_STRUCT_H #include cstdint namespace OpNameOp { struct OpNameTilingData { int64_t totalLength; int64_t usedCoreNum; int64_t blockFormer; int64_t blockLoopCnt; int64_t blockTail; // ... 其他 Tiling 参数 }; } // namespace OpNameOp #endif说明这是一个简单的 C 结构体只包含基本数据类型int64_t 等Host 计算参数Kernel 读取参数也可以直接定义在.cpp文件中3. 编译配置文件CMakeLists.txtregister_operator( NAME op_name ARCH_DIR arch35 # 当前版本仅支持 arch35 (Ascend950) )4. 测试文件强烈推荐参见测试编写指南。说明虽然测试文件不是必需的但强烈建议为每个算子编写单元测试以确保算子实现的正确性。开发流程步骤 1创建目录和文件mkdir -p src/op_name/tests touch src/op_name/op_name.cpp touch src/op_name/CMakeLists.txt可选独立的 struct 文件touch src/op_name/op_name_struct.h可选测试文件touch src/op_name/tests/op_name_test.h touch src/op_name/tests/op_name_test.cpp步骤 2编写解决方案实现在op_name_solution.cpp中定义 TilingData 结构体或 include 独立的_struct.h实现解决方案执行函数ExecuteOpNameSolution计算并注册解决方案到全局注册表在op_name_kernel.cpp中实现核函数使用__global__ __aicore__步骤 3配置编译在CMakeLists.txt中注册算子。步骤 4编写测试推荐参考测试编写指南。步骤 5编译验证./build.sh --opsop_name --run关键概念解决方案 vs Kernel层面运行位置职责解决方案CPUTiling 计算、内存管理、调用 Kernel、注册到全局表KernelNPU AI Core实际计算逻辑Tiling目的将大任务切分成适合 NPU 执行的小块关键参数usedCoreNum- 使用多少个 AI CoreblockFormer- 每次迭代处理多少数据blockLoopCnt- 每个核迭代多少次计算原则充分利用 AI Core 并行能力数据不超过 Unified Buffer 容量对齐到 32 字节边界核函数调用kernel_funcnumBlocks, workspace, stream(args...);参数说明numBlocks- 使用多少个 AI CoreBlockworkspace- 共享内存指针通常设置为nullptrstream- ACL 执行流完整示例参见src/add/目录add_solution.cpp- 解决方案实现Tiling 计算、解决方案执行函数、注册add_kernel.cpp- Kernel 端实现核函数逻辑arch35/add_struct.h- Tiling 数据结构tests/add_test.cpp- 单元测试CMakeLists.txt- 编译配置相关文档测试编写指南build 参数说明【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

更多文章

前端开发 2026/5/9 12:26:41

CANN / tensorflow AllReduce操作

allreduce 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow 功能说明集合通信算子AllReduce的操作接口，将group内所有节点的输入数据进行归约操作后，再把结果发送到所有节点的输出buf&am…

2025年同花顺问财数据抓取终极指南：从手动导出到Python自动化【免费下载链接】pywencai 获取同花顺问财数据项目地址: https://gitcode.com/gh_mirrors/py/pywencai 在金融数据分析和量化研究领域，获取高质量的A股市场数据一直是开发者和分析师…

张开发

前端开发 2026/5/9 11:20:50

证书链技术与ADAC安全调试协议详解

1. 证书链技术原理与信任传递机制1.1 非对称加密基础证书链技术的核心依赖于非对称加密算法体系。典型实现中，ECDSA（椭圆曲线数字签名算法）和RSA是最常用的两种方案。以ECDSA P-256为例，其采用256位素数域上的椭圆曲线&#xff0c…

张开发

CANN/ops-tensor算子开发指南

最新文章

CANN/hixl带宽基准测试

基于主动学习的Benders分解初始化策略：加速混合整数非线性规划求解

ARM PrimeCell外设开发与AMBA总线验证全流程解析

小红书下载器完整指南：3分钟学会批量下载无水印图文视频

Claude桌面应用再次封杀第三方AI；总部人均奖金610万引争议，三星、SK海力士国内员工集体要求涨薪；理想高管否认MEGA设计失败 | 极客头条

生成式AI应用场景深度拆解（2026奇点大会闭门报告首次公开）

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

CANN / tensorflow AllReduce操作

CANN DeepSeek-V4 NPU推理优化

IEEE会议，录用率23.1%！CCF推荐学术会议（C）截稿提醒

基于GB/T 8567-2006的《数据需求说明（DRD）》完整案例（7/25）

CANN/TensorFlow NPULossScaleOptimizer构造函数

2026年北京全屋高端定制现代简约风格公司测评与选型指南

CANN/pypto floor向下取整操作API文档

CANN/ATVOSS三元运算符接口文档

CANN/pyasc按位或运算API

WeChatPad：解锁微信多设备协同，重塑移动办公边界

2025年同花顺问财数据抓取终极指南：从手动导出到Python自动化

证书链技术与ADAC安全调试协议详解