作者:王雪瑞; 刘渊直播弹幕新词发现内部结合度互信息边界自由度边界增强上下文熵
摘要:针对中文直播语料具有长度简短、用语不规范、字母数字混杂等特点,使得通常的新词发现方法效果不佳的问题,在现有基于词内部结合度与边界自由度的无监督新词发现算法基础上,引入了边界增强上下文熵的概念,使其适用于通常出现于句子片段边界位置的词语。在某知名直播平台的弹幕语料上进行了实验,结果表明:方法模型简洁,可有效提取新词,并能够通过调整参数适应不同规模的语料输入,且时空复杂度与执行性能良好。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社