作者:万富强 吴云芳语义相关度显性语义分析中文维基百科先验概率概念向量
摘要:语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色.该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度.基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较.进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正.实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社