作者:唐晓波; 胡华概念抽取词性规则中心词互信息信息熵
摘要:【目的】实现基于UGC信息源的本体概念抽取。【方法】针对UGC信息源特征,提出一种基于语言学的细粒度词抽取组合并应用统计过滤组成概念的本体概念抽取方法,建立基于UGC信息源的概念抽取模型并对原型系统进行验证。【结果】在UGC信息源概念抽取实验中,该方法的结果比其他4组概念抽取方法的表现更为优异,准确率达68.42%,召回率达85.35%。【局限】概念抽取的测试集来自信息质量较高的UGC信息源,部分信息经过人工过滤,语料规模存在不足。【结论】概念抽取方法与技术在实现基于UGC信息源的本体概念抽取中具有一定的意义。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社