新方法精确定位统计离群值的根本原因

张开发
2026/5/8 16:28:09 15 分钟阅读

分享文章

新方法精确定位统计离群值的根本原因
新方法识别统计离群值的根本原因在某机构ICML论文中提出了一种量化因果贡献的信息论测量方法。离群值是系统偏离其通常行为的罕见观测结果。它们出现在许多现实世界的应用中例如医学、金融并且比普通事件更需要解释。如何在检测到离群值后识别其“根本原因”离群值问题是统计学中最古老的问题之一。它作为学术研究的主题已有一个多世纪。尽管在检测离群值方面已做了大量工作但一直缺乏定义离群值“根本原因”的正式方法。本周在国际机器学习大会ICML上我们展示了关于识别离群值根本原因的研究工作。首要任务是引入“根本原因”的正式定义因为在学术文献中未能找到这样的定义。相关内容某机构为DoWhy贡献了新颖的因果机器学习算法新功能超越了传统的效应估计将事件归因于复杂系统的各个组成部分。该定义包含了对观察到的离群值的每个根本原因的量化因果贡献的形式化。换句话说该贡献描述了一个变量在多大程度上对离群事件负责。这也与哲学问题相关即使事件是否是其他事件的“实际原因”这一纯粹定性的问题在哲学家中也一直存在争论。该方法基于图形化因果模型这是一个由图灵奖得主朱迪亚·珀尔开发的用于建模系统中变量间因果关系的正式框架。它有两个关键要素。第一个是因果图它以可视化的方式表示观测变量之间的因果关系箭头从代表原因的节点指向代表结果的节点。第二个是一组因果机制它描述了每个节点的值如何从其因果图中的父节点即直接原因的值生成。例如想象一个由分布式网络服务驱动的零售网站。某个客户经历了异常缓慢的加载时间。为什么是后端的数据库缓慢还是购物服务出现故障左侧显示了为简单假设的零售网站提供支持的分布式网络服务之间的依赖关系。中间一个客户ID 5经历了非常慢的加载时间。目标是在分布式服务中识别出其根本原因右侧。存在许多离群值检测算法。为了识别由这些算法之一检测到的离群值的根本原因首先引入了一个信息论IT离群值得分该得分从概率角度校准了现有的离群值得分。该离值得分依赖于尾概率的概念——即随机变量超过某个阈值的概率。一个事件的IT离群值得分是在某种变换下该事件尾概率的负对数。其灵感来自克劳德·香农在信息论中对随机事件信息内容的定义。观察到比所讨论事件更极端事件的概率越低该事件携带的信息就越多其IT离群值得分就越大。概率校准还使得IT离群值得分在不同维度、范围和尺度的变量之间具有可比性。反事实为了将离群事件归因于一个变量我们提出反事实问题“如果该变量的因果机制是正常的该事件还会是离群值吗”反事实是珀尔因果关系阶梯的第三级因此需要函数因果模型FCM作为变量的因果机制。相关内容在相关时间序列中确定因果关系新方法超越了格兰杰因果关系在给定某些图约束的情况下仅识别目标时间序列的真正原因。在FCM中每个变量 Xj 是其因果图中观测父节点 PAj有指向 Xj 的直接箭头和一个未观测噪声变量 Nj 的函数。由于根节点——那些没有观测父节点的节点——只有噪声变量因此噪声变量的联合分布产生了观测变量的随机特性。未观测噪声变量扮演着特殊角色可以将 Nj 视为一个随机开关它从一组由直接原因 PAj 到其效果 Xj 定义的函数 Fj 中选择一个确定性函数或机制。如果不是固定噪声项 Nj 的值而是将其设置为从某个分布中随机抽取的值那么从集合 Fj 中选取的函数也是随机的并且可以使用此过程为 Xj 分配正常的确定性机制。如果认为噪声变量是不受控制的东西——甚至更糟是无法观测的——这种随机化操作可能看起来不可行但我们可以将其解释为对观测变量的干预。左侧对于变量 Xj 及其父节点 PAj 的观测对 (xj, paj)变量 Xj 的确定性机制 fj(1) 由与对 (xj, paj) 对应的噪声值Nj 1标识。中间不同的噪声值Nj n标识了反事实的确定性机制 fj(n)。右侧通过根据某种分布随机抽取噪声项 Nj 的样本为 Xj 分配“正常”的确定性机制橙色背景表示替换。为了将目标变量 Xn 的离群事件 xn 归因于变量 Xj首先将 Xj 的确定性机制替换为正常的因果机制。然后测量这种替换对离群事件对数尾概率的影响。为了将离群事件 xn属于目标变量 Xn归因于变量 Xj首先将其观测值 xj 对应的确定性机制替换为正常机制。这种替换对对数尾概率的影响定义了 Xj 对离群事件的贡献。特别地该贡献衡量了通过将 Xj 的因果机制替换为正常机制通过随机抽取噪声 Nj 的样本离群事件发生的可能性降低的倍数。但以这种方式计算的贡献取决于替换因果机制的顺序。这种对顺序的依赖性给归因过程带来了任意性。为了消除对变量顺序的依赖性我们取所有顺序的平均贡献这也是博弈论中沙普利值方法背后的思想。沙普利贡献之和等于离群事件的IT离群值得分。为了了解该方法工作原理的概要再次考虑上面提到的零售网站示例。网络服务之间的依赖关系通常以依赖图的形式提供。通过反转依赖图中的箭头得到服务延迟的因果图。从观测延迟的训练样本中学习因果机制。因果机制也可以直接利用领域专业知识建立。该方法利用这些因果机制将特定客户的缓慢加载时间归因于网络服务中最有可能的根本原因。左侧是服务延迟的因果图这是通过反转服务依赖图的箭头得到的。通过学习训练数据中节点的因果机制该方法得出每个节点对离群事件的贡献——这里指的是异常高的网络服务延迟。由于沙普利贡献之和等于离群事件的IT离群值得分能够显示祖先节点——这里是各个服务——的相对贡献。如果想将该方法应用于你的使用场景其实现可在 Python DoWhy 库的“gcm”包中找到。要快速入门可以查看示例笔记本。研究领域机器学习标签因果推断 | 因果分析 | ICMLFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章