HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

中文分词中的正向增字最大匹配算法研究

作者:戴上静; 石春; 吴刚中文分词trie树逐词扫描正向增字匹配

摘要:针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术与网络安全

《信息技术与网络安全》(CN:10-1543/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《信息技术与网络安全》现已更名为《网络安全与数据治理》。

杂志详情