作者:朱金山敏感词分析sparkflumekafkahanlpword2vec
摘要:网络敏感词分析是舆情监控系统的关键,该文介绍了 Spark、Flume、kafka 等用于系统架构的主要开源组件,分析了敏感词分析中主要用到的 HanLP 中文分词和命名实体识别两大组件,以及利用Word2vec 训练词向量组件进行相似度判断的算法原理及时间复杂度比较,根据高校网络用户流量特征,提出了舆情监控的系统架构设计,最后展示了系统原型实现,并对其进行了探讨及前景展望.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社