摘要:20世纪末宏基因组学的概念被首次提出, 从此打开了利用宏基因组学方法和技术研究微生物的大门. 随着高通量测序技术的成熟, 宏基因组学已经成为了一门新兴的热门学科. 序列分析是宏基因组学研究的基础, 而序列分析的一个重要环节就是测序片段的分装(binning). 分装的准确性直接影响宏基因组学研究的精度和效率, 提高分装准确性的关键在于提取出一种反映宏基因组测序片段物种分类的序列特征. 目前主流分装方法利用的都是基因组序列的碱基组成性特征. 本文深入研究序列的关联性特征, 提出了一种基于关联性特征的分装方法, 结合
机器学习算法实现准确的分装, 在对不同物种层次和不同复杂度的模拟宏基因组测序数据集进行分装时都能保持良好的性能. 通过对比, 发现此方法分装的正确率和稳定性都要优于目前国际上的无监督分装算法以及那些单纯使用三联、四联核苷酸出现频率进行分装的算法.
原文链接:http://www.cqvip.com//QK/94252X/201327/47435606.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)