颠覆认知!这个特征很重要,但不是个好特征!

发布于 2024-10-16
822

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

特征重要性与模型表现的关系

特征重要性在机器学习中通常被等同于模型可解释性的基本类型。尽管如此,它并不总是表明特征对模型有利。一个特征的重要性仅意味着它对模型的预测贡献很大,但这种贡献可能是有误的,比如客户 ID 错误地成为了高预测性的特征。

预测贡献与误差贡献的区分

  • 预测贡献:特征对预测结果的影响程度。
  • 误差贡献:特征对预测误差的影响程度。

两者的计算可以通过 SHAP 值进行,其中预测贡献是特征的绝对 SHAP 值的平均值,误差贡献是去除特定特征后模型误差与完整模型误差的差值的平均值。

实际应用案例

在一个预测黄金收益的模型中,使用 SHAP 值计算了预测贡献和误差贡献,发现它们在训练集上呈现高度负相关,而在验证集上则可以揭示哪些特征真正有助于减少预测误差。

误差贡献的作用

误差贡献的概念有助于辨识模型中有益和有害的特征。在 RFE 方法中,基于误差贡献去除误导模型的特征,相较于传统基于预测贡献的特征去除方式,可以有效提高模型的平均绝对误差。

结论

在机器学习中,“重要”与“好”并不等同,而是应当通过预测贡献和误差贡献来综合评估特征的价值。基于误差贡献的特征选择方法能够有效改进模型的预测性能。

数据STUDIO

点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

149 篇文章
浏览 166K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线