作者:常彤短文本聚类算法话题检测
摘要:对短文本进行话题检测的过程中,由于短文本的长度有限,特征高维稀疏、语义缺乏等问题,从而影响话题检测的准确度。本文提出了面向短文本话题检测的LAK算法,该算法通过采用AGNES(AgglomerativeNesting)和K-means二者结合的LAK算法对数据进行聚类,弥补K-means算法对K值选取的主观随意性以及用TF-IDF计算特征项权重时忽略词汇语义的缺陷,通过实验证明了LAK算法在话题检测中的有效性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社