特征工程(1)【draft】数据清洗

一、特征工程-数据清洗

img

数据格式内容错误数据来源有多种,有些是传感器采集,然后算法提取的特征数据;有些是采集的控制器的数据;还有一些应用场合,则是用户/访客产生的,数据肯定存在格式和内容上不一致的情况,所以在进行模型构建之前需要先进行数据的格式内容清洗操作。逻辑错误清洗主要是通过简单的逻辑推理发现数据中的问题数据,防止分析结果走偏,主要包含以下几个步骤:

1.数据去重,去除或替换不合理的值;

2.去除或重构不可靠的字段值(修改矛盾的内容);

3.去除异常点数据。

二、采样

随机采样方法整理与讲解(MCMC、Gibbs Sampling等) - 向阳树的文章 - 知乎 https://zhuanlan.zhihu.com/p/109978580

三、参考文献

  • 特征工程 - 未来达摩大师的文章 - 知乎 https://zhuanlan.zhihu.com/p/476659737

  • 这9个特征工程使用技巧,解决90%机器学习问题! - Python与数据挖掘的文章 - 知乎 https://zhuanlan.zhihu.com/p/462744763

  • 有哪些精彩的特征工程案例? - 京东科技风险算法与技术的回答 - 知乎 https://www.zhihu.com/question/400064722/answer/1308358333