作者:杨雨诗; 何博侠; 周鑫; 刘慧丽; 葛方丽文本分类向量空间模型主成分分析法余弦相似度自回归积分滑动平均模型
摘要:为实现中文文本的准确分类,提出一种基于词库匹配的分类方法。在测试集中采用向量空间模型进行特征表达,用基于词逆向文档频率(TF-IDF)的主成分分析法计算权值,筛选并建立47个行业的索引词库,然后根据与索引词库的余弦相似度判断文本行业类别,建立自回归积分滑动平均(ARIMA)模型,预测其未来10天发展趋势。实验结果表明,索引词库的平均分类效果指标F值为85.6%,预测模型的平均相对误差为3.41%,证明该分类方法是有效的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社