HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Spark和改进的TF-IDF算法的用户特征分析

作者:张舒雅; 王占刚spark用户特征贝叶斯分类

摘要:使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC—IDFC权重计算方法,并与传统的TF—IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC—IDFC权重使得分类模型的分类能力更好。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件工程

《软件工程》(CN:21-1603/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《软件工程》提供工厂技术及管理信息,营造信息时代的软件工程师文化。为中国软件行业协会会刊,被中国期刊全文数据库、中国知网、龙源期刊网、万方数字——数据期刊群以及中国优秀期刊(遴选)数据库等全文收录。

杂志详情