HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

宏基因组中可移动序列的精确检测问题研究

作者:彭超 王普 葛瑞泉 周丰丰基因分类数据挖掘特征选择基因组条形码

摘要:基因组组装是宏基因组分析的主要挑战之一。通常假设所有测序序列均来源于同一个基因组,微生物中非常活跃的可移动元件给这个前提假设提出了重大质疑。文章将该质疑抽象为可移动元件与宿主染色体之间的二分类问题,准确的二分类性能将进一步促进宏基因组学方面的研究。基于宏基因组测序数据的数值化特征,详细考察特征选择算法ReliefF、卡方检验和Fisher判别t检验,并结合分类模型逻辑回归、极限学习机、支持向量机和随机森林,验证最优可移动元件检测模型的性能。实验结果表明,ReliefF特征选择算法和随机森林分类算法的融合模型,使用100个特征即可正确分类95%以上的宏基因组测序数据,优于使用全部的690个特征。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

集成技术

《集成技术》(CN:44-1691/T)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。 《集成技术》集科学性、学术性、实用性与知识性为一体,以科研人员、高等院校师生以及工程技术人员为主要读者对象,诚邀国内外作者积极向本刊投稿,诚邀国内外专家学者为本刊审稿,诚邀国内外新老读者浏览阅读本刊,诚邀关心本刊的各界人士积极为本刊提出创新发展建议。

杂志详情