华为通信库子通信域配置创建

张开发
2026/5/9 19:58:15 15 分钟阅读

分享文章

华为通信库子通信域配置创建
HcclCreateSubCommConfig【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm产品支持情况Ascend 950PR/Ascend 950DT支持Atlas A3 训练系列产品/Atlas A3 推理系列产品支持Atlas A2 训练系列产品/Atlas A2 推理系列产品支持Atlas 推理系列产品不支持Atlas 训练系列产品支持[!NOTE]说明 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。功能说明基于既有的全局通信域切分具有特定配置的子通信域。该子通信域创建方式无需进行socket建链与rank信息交换可应用于业务故障下的快速通信域创建。说明如果组网中卡间存在负载不均衡的情况使用该接口创建的子通信域可能会由于卡间不同步发生建链超时。此时可通过环境变量HCCL_CONNECT_TIMEOUT增加设备间的建链超时时间。配置示例export HCCL_CONNECT_TIMEOUT600函数原型HcclResult HcclCreateSubCommConfig(HcclComm *comm, uint32_t rankNum, uint32_t *rankIds, uint64_t subCommId, uint32_t subCommRankId, HcclCommConfig *config, HcclComm *subComm)参数说明参数名输入/输出描述comm输入被切分的全局通信域。HcclComm类型的定义可参见HcclComm。rankNum输入需要切分的子通信域中的rank数量。rankIds输入子通信域中rank在全局通信域中的rank id组成的数组。需要注意该数组应当是有序的数组中每个rank的下标将映射为其在子通信域的rank id。subCommId输入当前子通信域标识用户自定义。- 若未在config参数中配置子通信域名称“hcclCommName”系统会使用{全局通信域名}_sub_{subCommId}作为子通信域名称此种场景下需要确保“subCommId”在全局通信域中保持唯一。- 若在config参数中配置了子通信域名称“hcclCommName”则优先以config中配置为准此参数不再做校验。subCommRankId输入本rank在子通信域中的rank id。请配置为当前rank在rankIds数组中的下标索引。config输入通信域配置项包括buffer大小、确定性计算开关、通信域名称、通信算子展开模式等信息配置参数需确保在合法值域内关于HcclCommConfig中的详细参数含义及优先级可参见HcclCommConfig的定义。需要注意传入的config必须先调用HcclCommConfigInit对其进行初始化。subComm输出将初始化后的子通信域以指针的信息回传给调用者。HcclComm类型的定义可参见HcclComm。返回值HcclResult接口成功返回HCCL_SUCCESS其他失败。约束说明属于同一子通信域的rank调用该接口时传入的rankNum、rankIds、subCommId、config均应相同。不需要创建子通信域的rank应当传入rankIdsnullptr和subCommId0xFFFFFFFF此场景不会对“subCommId”参数做校验。只支持从全局通信域切分子通信域不支持在子通信域中进一步切分子通信域。调用示例// 初始化全局通信域 HcclComm globalHcclComm; HcclCommInitClusterInfo(rankTableFile, devId, globalHcclComm); // 通信域配置 HcclCommConfig config; HcclCommConfigInit(config); config.hcclBufferSize 50; strcpy(config.hcclCommName, comm_1); // 初始化子通信域 HcclComm hcclComm; uint32_t rankIds[4] {0, 1, 2, 3}; // 子通信域的 Rank 列表 // 当前rank在子通信域中的rank id设置为0 HcclCreateSubCommConfig(globalHcclComm, 4, rankIds, 1, 0, config, hcclComm);【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章