HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

PUseqClust:一种RNA-seq数据聚类分析方法

作者:石险峰; 刘学军; 张礼聚类分析负二项分布拉普拉斯方法混合t分布

摘要:基因的聚类分析是基因表达数据分析研究的重要技术,它按照表达谱相近原则将基因表达数据归类,探究未知的基因功能.近年来,RNA-seq 技术广泛应用于测量基因表达水平,产生了大量的读段数据,为基因表达聚类分析提供了充分条件.由于读段非均匀分布的特性,对读段计数一般采用负二项分布进行建模.现有的负二项分布算法和传统的聚类算法对于聚类分析都是直接对读段计数进行建模,没有充分考虑实验本身存在的各种噪声,以及基因表达水平测量的不确定性,或者对聚类中心的不确定性考虑不够.基于 PGSeq 模型,模拟读段的随机产生过程,采用拉普拉斯方法考虑多条件多重复基因表达水平之间的相关性,获得了基因表达水平的不确定性,联合混合 t 分布聚类模型,提出 PUseqClust(propagating uncertainty into RNA-seq clustering )框架进行 RNA-seq 读段数据的聚类分析.实验结果表明,该方法相比其他方法获得了更具生物意义的聚类结果.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件学报

《软件学报》(CN:11-2560/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情