作者:杨芳电子政务主题词表中文匹配新词学习互信息值
摘要:讨论了基于电子政务主题词表的中文匹配方法.该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提.为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n-Gram统计特性学习新词.对于匹配结果中出现的交集型歧义这类主要的歧义类型,通过计算匹配词语与其交集词语各自字符之间的互信息值,来消除匹配词语的交集歧义,互信息值较大的词说明该字符组合的可能性比较大.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社