作者:黄东; 唐俊; 汪卫; 施伯乐最大频繁序列模式序列聚类序列拼接网格基因组序列序列模式拼接处理聚类算法应用生物数据算法复杂度网格系统资源管理
摘要:基因组序列拼接的主流方法是将整条序列随机打断成小片段,然后根据片段间重叠关系连接成长序列.由于较多噪音存在,算法复杂度高,加之生物数据的海量增长,序列拼接处理导致巨大的时空开销而无法完成.本文提出一种基于最大频繁序列模式的聚类算法,将整个数据集分成若干个子集,分别高效地处理,实现了一个基因拼接网格系统、透明动态的资源管理,大大扩展了基因拼接计算能力.基于最大频繁序列模式聚类算法及挖掘算法,针对生物数据的特性做出了优化.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社