HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于随机森林的实体识别方法

作者:杨萌; 聂铁铮; 申德荣; 寇月; 于戈实体识别聚类随机森林记录相似度

摘要:实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

集成技术

《集成技术》(CN:44-1691/T)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。 《集成技术》集科学性、学术性、实用性与知识性为一体,以科研人员、高等院校师生以及工程技术人员为主要读者对象,诚邀国内外作者积极向本刊投稿,诚邀国内外专家学者为本刊审稿,诚邀国内外新老读者浏览阅读本刊,诚邀关心本刊的各界人士积极为本刊提出创新发展建议。

杂志详情