HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Python爬虫技术和LDA模型的短文本获取技术分析

作者:黄兴荣; 徐兴彬短文本大数据数据爬取lda模型主题提取

摘要:从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主题提取,生成规划投资主题聚类,将数据由无序变为有序,由模糊变得准确,最终实现获得有价值信息的目标。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电大理工

《电大理工》(CN:21-1126/G4)是一本有较高学术价值的季刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《电大理工》以全国电大系统的教师、科研单位的科研人员为主要读者对象。主要栏目:教学、科研、计算机。

杂志详情