孤立森林大数据背景下的最优异常检测算法

孤立森林或者"iForest"是一个优美动人，简洁优雅的算法，只需少量参数就可以检测出异常点。原始论文中只包含了最基本的数学，因而对于广大群众而言是通俗易懂的。在这篇文章中，我会总结这个算法，以及其历史，并分享我实现的代码来解释为什么iForest是现在针对大数据而言最好的异常检测算法。

为什么iForest是现在处理大数据最好的异常检测算法

总结来说，它在同类算法中有最好的表现。iForest在多种数据集上的ROC表现和精确度都比大多数其他的异常检测算法要好。我从PythonOutlier Detection package的作者们那里取得了基准数据，并在Excel中逐行使用绿-红梯度的条件格式化。用深绿色来标识那些在这个数据集上有最好的表现的算法，并用深红色来标识那些表现得最差的：

绿色表示"好"而红色表示"差"。我们看到IForest在很多的数据集以及总体的角度上是领先的，正如平均值，中位数，标准差的颜色所表示。图源：作者。数据源：https：//pyod.readthedocs.io/en/latest/benchmark.html

我们看到IForest在很多的数据集上以及总体上的表现是领先的，正如我计算出来的平均值，中位数，标准差的颜色所表示的一样。从precision@N（最重要的N项指标的准确度）的表现来看iForest也能得出同样的优秀结果。

可扩展性。iForest以它表现出来的性能为标准而言是最快的算法。可以预料到的是，PCA和基于频数直方图的异常点检测算法（HBOS）在所有的数据集上都有更快的速度。

k近邻算法（KNN）则要慢得多并且随着数据量变多它会变得越来越慢。

我已经成功地在一个包含一亿个样本和三十六个特征的数据集上构建出孤立森林，在一个集群环境中这需要几分钟。而这是我认为sklearn的KNN算法没办法做到的。

热点

孤立森林大数据背景下的最优异常检测算法

由 dawei

发表回复取消回复

您错过了

从创意到市场：创业项目精准评估与实战指南

Unix系统数据科学环境优化配置指南

绿色环保：可持续发展创业之路与实践策略

第四次工业革命下智能制造创业模式崛起与发展

孤立森林 大数据背景下的最优异常检测算法

由 dawei

相关文章

大数据驱动公共服务创新：实践案例与探索策略

大数据驱动公共服务创新：实践路径与探索策略

大数据驱动零售变革，精准营销助力销售效率飞升

发表回复 取消回复

您错过了

从创意到市场：创业项目精准评估与实战指南

Unix系统数据科学环境优化配置指南

绿色环保：可持续发展创业之路与实践策略

第四次工业革命下智能制造创业模式崛起与发展

孤立森林大数据背景下的最优异常检测算法

发表回复取消回复