Python 离群点检测算法 -- OCSVM
发布于 2024-10-16
770
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
数据STUDIO
扫码关注公众号
扫码阅读
手机扫码阅读
摘要
监督学习算法通常用于解决分类问题,但当只能观察到正常数据时,单类支持向量机(OCSVM)适用于建模并识别异常数据。OCSVM通过对正常类的属性建模,来检测异常数据。
支持向量机(SVM)
SVM是一种监督学习算法,由Vladimir Vapnik在AT&T贝尔实验室开发,适用于分类和回归问题。SVM通过在高维空间创建非线性决策边界来分离两个类别,使得原本无法线性分离的数据能够被有效分类。
从SVM到单类SVM
单类SVM是针对一类数据的变种,它通过最大化超平面到原点的距离来区分正常类与目标类。OCSVM的离群点得分基于数据点到超平面的距离,该得分的敏感性依赖于内核选择和超参数设置,特别是名为nu的超参数。
建模流程
- 步骤 1 - 建立模型: 使用数据生成过程(DGP)模拟数据,建立OCSVM模型,并利用PyOD库进行模型训练和离群值预测。
- 步骤 2 - 确定合理的阈值: 通过离群值得分的直方图确定异常组的阈值。
- 步骤 3 - 显示正常组和异常组的描述性统计结果: 通过设置阈值并分析离群值得分,区分正常组与异常组,并进行描述性统计分析。
数据STUDIO
数据STUDIO
扫码关注公众号
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
149 篇文章
浏览 156.3K
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
数据STUDIO的其他文章
Python 中 9 种关键文件类型你了解几个?
了解 .py、.ipynb、.pyi、.pyc、.pyw、.pxd、.pyx、.pyd 和 .pyo 文件扩展名
机器学习中不得不知的数学基础
关注和星标『数据STUDIO』,和云朵君一起学习数据分析与挖掘!
PySpark 读写 Parquet 文件到 DataFrame
关注和星标『数据STUDIO』,和云朵君一起学习数据分析与挖掘!
Python 离群点检测算法 -- LOF
关注和星标『数据STUDIO』,和云朵君一起学习数据分析与挖掘!
快速学习一个算法--Fuzzy C Means聚类
关注和星标『数据STUDIO』,和云朵君一起学习数据分析与挖掘!
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线