基于上下文词频词汇量指标的新词发现方法

作者：邢恩军; 赵富强新词发现上下文信息熵词频词汇量指标

摘要：提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义，即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小，克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法，克服了N-gmm方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率，通过选取不同的词频词汇量指标值作为阈值，能够在发现更多新词和提高发现新词的准确率方面进行灵活调整，为新词发现提供一种实用的方法。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机应用与软件

《计算机应用与软件》（CN：31-1260/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《计算机应用与软件》主要面向从事计算机应用和软件技术开发的科研人员、工程技术人员、各大专院校师生等。致力于创办以创新、准确、实用为特色，突出综述性、科学性、实用性，及时报道国内外计算机技术在科研、教学、应用方面的研究成果和发展动态的综合性技术期刊，为国内计算机同行提供学术交流的平台。

杂志详情

服务推荐

计算机应用与软件相关期刊

基于上下文词频词汇量指标的新词发现方法

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机光盘软件与应用

计算机与网络

计算机仿真