HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于改进Trie树的变形敏感词过滤算法

作者:叶情敏感词过滤trie树变形敏感词文本分立模糊匹配

摘要:在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

现代计算机

《现代计算机》(CN:44-1415/TP)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《现代计算机》是一本学科性、技术性较强的科技类学术期刊,作者读者群均面向计算机信息技术及应用研究开发设计生产的工程技术人员、大专院校师生及计算机爱好者。

杂志详情