作者:杜秀英自动摘要云计算多文本聚类语义相似分布式处理
摘要:方法 杜秀英(广州航海学院图书馆广州510725)摘要[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社