官方公众号:52phm,与工业互联网人一起成长

2021-12-19 14:43:14    互联网    361    当前专栏:工业异常检测    分类:算法开发    本站官网:www.52phm.cn   

公众号 ...

异常检测3——常见方法分类

1、基于统计学


极值分析
往往只对单独纬度进行研究,使用上有很大的局限性【1】
对数据分布进行假设
对异常数据和正常数据进行不同的分布假设,并用EM算法拟合数据。局限性在于假设往往和实际有较大出入,效果一般
基于线性分析
在低纬度上分析数据间的相关性。比如PCA,Factor Analysis等。但是压缩或找到低维嵌入后,数据的可解释性下降。

2、基于时空


空间关系造成的异常

在这里插入图片描述

O点单独看来的情况下是正常点,但是考虑到临近点后是异常点

时间序列上的异常

在这里插入图片描述
在这里插入图片描述

3、基于相似性分析



建立在距离度量上的异常检测

如K近邻为原型的

建立在密度分析上的异常检测

如Local outlier factor(LOF)

基于聚类的异常检测

先把人分群,然后把明显跟大伙儿不同的小群体去掉,那这部分小群体就是异常点。利用聚类检测异常点的方法是丢弃远离其他簇的小簇[3]

4、基于偏差


这种方法的思想是考虑到异常值跟整个数据集通常的特性(general characteristics)不一致,认为异常值是离中心最远的点,当移除这些点时,整个数据集某个特征的方差就会减小。比如一种模型的方法是定义一个smooth factor,它表示的就是当某条数据从整体里移除时,方差(variance)降低多少,一般来说,异常值降低的值会大于正常值。[2]

5、高维方法


  • 在高维下做异常检测会出现以下问题:
  • 随着维度的增加,各个点距离的区分度是很小的;
  • 数据很稀疏,几乎所有的点都是离群点;
  • 邻近的概念变得没有意义。


针对以上的问题,解决方案如下:

  • 采样更鲁棒的距离函数,并且在full-dimensional找异常点;
  • 在原始子空间的特征空间里找异常点。


基于角度的方法往往在高维空间里会很有效。通常来说如果点o是异常点的话,那么它与其它点的角度都差不多,如果不是异常点,它与其它点的角度就多种多样。[2]

6、其他

集成异常检测

isolation forest
feature bagging

监督异常检测,半监督异常检测,主动学习

图中的异常检测、网络中的异常检测

参考资料:
[1] https://www.zhihu.com/question/57072166/answer/280824223
[2]https://www.zhihu.com/question/280696035/answer/416508926
[3]https://www.zhihu.com/question/280696035/answer/417065342)



版权声明:遵循 CC 4.0 BY-SA 版权协议
原文链接:https://blog.csdn.net/shaoyue1234/article/details/102520429

免责声明:信息来源于互联网聚合整理或者作者原创,非原创文章标示"互联网",原创文章标示"作者昵称",本文仅代表文章作者的个人观点,且文中陈述文字和内容的时效性、真实性与本站无关,请读者仅作参考,如发现有害或侵权内容,请联系我们将在第一时间进行核实处理。


[推荐] 异常检测方法综述

2021-12-19 14:20:42    互联网    289    分类:算法开发    专栏:工业异常检测   


[推荐] 异常检测——拓扑异常检测(TAD)

2021-12-19 14:40:05    互联网    286    分类:算法开发    专栏:工业异常检测   


[推荐] 异常检测——孤立森林

2021-12-19 15:00:11    互联网    259    分类:算法开发    专栏:工业异常检测   



转发此文章到社区


进群

让志同道合读者学习交流



14种分类算法进行文本分类实战

本篇文本分类实战训练是以完整的文本分类项目流程来写的,比较适合进阶和提高 《获取数据》——《数据分析和处理》——《特征工程与选择》——《算法模型》——《性能评估/参数调优》,让读者全貌了解文本分类流程,建议阅读收藏~

2021-12-04 12:13:55    博客笔记    992    分类:算法开发    专栏:未分组   


机械故障诊断方法论

1. 故障诊断概念故障诊断主要研究如何对系统中出现的故障进行检测、分离和辨识 , 即判断故障是否发生 , 定位故障发生的部位和种类 , 以及确定故障的大小和发生的时间等 。2. 故障诊断方法故障诊断防范可分为定性分析和定量分析两大类 , 如图 1 所示。 其中 , 定量分析方法又分为基于解析模型的方法和数据驱动的方法 , 后者又进一步包括机器学习类方法、多元统计分析类方法、信号处理类方...

2021-12-13 14:48:01    互联网    1734    分类:算法开发    专栏:故障诊断   


异常检测模型整理

写在前面文中使用了其他博主的图,具体链接已不好追踪,如果不妥,还请谅解(私信我加备注哦)~异常检测主要检测数据中的离群点,异常数据的特征值与正常数据的特征值距离较远。异常检测具有以下难点:标签数据较少,从较少的标签数据中很难学习到哪些是正常数据,哪些是异常数据。难以划分异常和正常的边界。数据本身存在噪声,导致噪声和异常难以区分。处理异常检测的模型包括监督模型、半监督学习和无监督学习模型,具体如下:一、监督模型常见分类模型都可使用。若有标签数据,则优先使用有监督学习方法解决问题。在基于监

2021-12-13 23:52:54    互联网    1269    分类:算法开发    专栏:工业异常检测   


频谱分析幅值单位_知否知否?常用振动诊断方法——包络分析和阶次分析

包络分析对于各个行业,尤其是水泥行业,存在很多低转速设备。低转速部件引起的振动集中在低频部分,且往往较为微弱,容易淹没在其他信号中,在频谱中不容易分辨出故障信号与噪声信号。但这种故障引起的冲击信号往往会激起高频固有频率,在频谱上表现为出现共振带,即低频故障信号作为某高频载波的边频出现。因此,对于这种出现调制现象的故障信号,往往需要通过包络进行分析诊断。图1 包络解调机理解调前需要对信号进行滤波处理...

2021-12-14 23:01:12    互联网    833    分类:算法开发    专栏:振动信号预处理   


异常检测——ABOD(angle-based outlier detection)

论文:Angle-Based Outlier Detection in High-dimensional Data,kdd2008问题高维度情况下,距离同质化。基础:1、在高维空间中角度比距离更稳定[1]2、如果其他大部分的点都在相似的方向上,那么点O是个离群点3、如果许多其他的点在不同的方向上,那么点O不是离群点。方法对于一个给定的点P,它与任意其他点x,y之间的角度构成一个...

2021-12-19 14:55:27    互联网    674    分类:论文速递    专栏:工业异常检测   


时间序列分类算法之LPS论文翻译

本文主要翻译LPS论文的主体部分,由于水平有限,可能翻译的不够准确。算法原文连接为基于局部自动模式的时间序列表示与相似度摘要:随着从医学、金融、多媒体等不同领域的时间序列数据集的增加,时间序列数据挖掘受到更多人的关注。对于减少维数和产生有用的相似性度量来说,时间序列表示是很重要的。高阶表示,如傅立叶变换,小波,分段多项式模型等,是以前所提出来的。最近,自回归核被用来反映时间序列的相似性。我...

2021-12-21 15:50:53    互联网    283    分类:论文速递    专栏:时间序列预测   


时间序列预测的8种常用方法简介

时间序列预测8种常用方法简介,包括朴素预测法、简单平均法、移动平均法、简单指数平滑法、霍尔特(Holt)线性趋势法、Holt-Winter方法、AMRIA。

2021-12-25 19:46:21    互联网    614    分类:算法开发    专栏:时间序列预测   


统计学——时间序列预测

统计学(第6版) 贾俊平 读书笔记第13章 时间序列分析和预测时间序列是同一现象在不同时间上的相继观测值排列而成的序列。本书中用t表示所观察的时间,Y表示观察值,则Yi( i =1, 2, …, n)为时间ti上的观察值。时间序列可以分为平稳序列和非平稳序列两大类。非平稳序列是包含趋势、季节性或周期性的序列,又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。趋势是...

2021-12-25 19:49:30    互联网    317    分类:算法开发    专栏:时间序列预测   


倒谱分析与倒谱求法

倒谱分析可检测频谱中的重复模式,使其对区分多个故障非常有用,该故障在不同的主要频谱(即FFT、阶次、包络和增强频谱)中很难看到。    最重要的行业应用与机械诊断相关,如齿轮箱分析,以及其他应用,如:1 回声检测和去除2 以及语音分析    在以下网站中:http://www.bksv.cn/Products/analysis-software/signal-a

2021-12-26 13:31:12    互联网    710    分类:算法开发    专栏:振动信号预处理   


电机状态分类预测与研究

电机状态.txt数据集中最后一列是`电机状态`标签,其余列是特征。本数据集可以作为学习工业数据的分类算法使用,(1)分析不同电机状态的特征分布情况;(2)建立分类模型体验分类算法的应用。

2022-04-20 15:00:51    博客笔记    1335    分类:算法开发    专栏:故障预测与健康管理