作者:张晓勇; 周清清; 章成志话题检测用户生成内容主题覆盖率饮食挖掘
摘要:【目的】通过大规模文本聚类技术进行话题检测,并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源,结合文本聚类与深度学习知识进行话题检测。通过匹配微博的月份,将微博划分为四季微博;使用向量空间模型和文本聚类方法,对不同季节的微博进行话题检测,获得候选话题;结合深度学习知识,提出主题覆盖率概念,用以自动评价话题质量,去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期,抽取获得主题覆盖率高于0.5的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题,该方法效率高,通用性强,获得的话题便于理解,较好地揭示了四季中饮食微博的话题分布。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社