HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

大规模词序列中基于频繁词集的特征短语抽取模型

作者:余琴琴; 彭敦陆; 刘丛mapreduce词序列加权关联规则频繁词集特征短语

摘要:目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

小型微型计算机系统

《小型微型计算机系统》(CN:21-1106/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《小型微型计算机系统》杂志刊登文章的内容涵盖计算技术的各个领域(计算数学除外)。包括计算机科学理论、体系结构、计算机软件、数据库、网络与通讯、人工智能、多媒体、计算机图形与图像、算法理论研究等各方面的学术论文。

杂志详情