作者:胡阿沛; 张静; 刘俊丽术语抽取串频统计语言规则术语度
摘要:提出一种改进C—value的术语抽取方法,即IC—value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C—value方法得到IC—value方法,并用来计算候选术语的术语度。以1000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC—value方法在准确率和召回率方面都要优于C—value、TF—IDF和V—value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社