HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

文本特征和复合统计量的领域术语抽取方法

作者:董洋溢; 李伟华; 于会中文领域术语文本挖掘自然语言处理文本特征

摘要:中文领域术语的抽取,是文本知识挖掘的重要内容。传统的中文领域术语抽取方法以人工方法为主,显然这种方法费时费力。目前,处于研究阶段的中文领域术语自动化抽取方法主要有:基于字典的方法、基于规则的方法以及基于统计的方法。但由于中文自然语言的复杂性,这些自动化抽取方法都存在一定的局限性,比如对特定领域的用户字典及规则存在更新速度慢、文本特征考虑不足等,从而导致抽取的效果不佳。针对这一问题,提出了一种基于文本特征和复合统计量的中文领域术语抽取方法,该方法在对中文文档中的词语进行粗粒度筛选后,再综合考虑候选术语的词性、长度、边界词语等文本特征,构造出信息熵和TFIDF等统计量,计算其综合权值,并将综合权值大于设定阈值的候选术语抽取出来,作为最终的领域术语。实验结果表明,该方法在测试语料下,获得了较好的正确率、召回率和F值。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

西北工业大学学报

《西北工业大学学报》(双月刊)创刊于1957年,由中华人民共和国工业和信息化部主管,西北工业大学主办,CN刊号为:61-1070/T,自创刊以来,颇受业界和广大读者的关注和好评。 《西北工业大学学报》主要发表该校科研成果,包括航空航天、热能工程、电子工程、自动控制工程、金属材料及热处理、高分子材料、机械学与机械制造工程、检测技术与仪器、计算机应用与软件、信息系统工程、工业企业管理等方面的学术论文和技术报告。

杂志详情