作者:董艳数据预处理数据挖掘数据清洗多重插补缺失值
摘要:解决数据本身的质量问题,以某移动通信用户离网原因分析及预测为主题及为数据挖掘模型处理出需要的数据是文章的主要目的。文中运用了数据预处理中,维规约,属性集成与构造,多重插补,离散化,规范化,数据抽样等方法来得到一个完整的、近似真实的数据集。针对所处理数据含有大量缺失值的特点,选取了插补的方法进行处理。包括方法的插补方法的选择,到最后使用多重插补方法对缺失数据进行修正。预处理后的数据应用到具体数据挖掘模型后提高了数据挖掘的效率,降低了数据挖掘复杂度。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社