HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于半监督LDA主题模型的ZeroNet文本内容分析

作者:过小宇; 丁建伟; 江泓; 陈周国零网暗网主题模型文本分类

摘要:新兴暗网零网(ZeroNet)是一种使用比特币加密技术和比特流(BitTorrent)协议构建的抗审查P2P网络,用户规模不断扩大。鉴于ZeroNet去中心化、抗审查等暗网的技术特点,从ZeroNet的体系结构分析入手,基于模拟登陆的方式设计并开发了ZeroNet文本抓取系统;采用半监督隐狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型针对ZeroNet网站中占比最大的博客和论坛文本数据中的中英文的文本数据进行建模分析;进一步,对比无监督LDA主题模型,文中采用的半监督LDA主题模型具有更好的分类结果,对于ZeroNet网站新内容的监控具有实践意义。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术

《信息技术》(CN:23-1557/TN)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《信息技术》的办刊宗旨是:大力宣传国家信息基础建设和信息产业发展形势,深入报导国内外信息技术(产品)发展趋势,交流信息化建设经验,推介信息产业界精英及其管理思想,提供信息技术(产品)市场前景与分析。

杂志详情