高通量测序的数据处理与分析指北(二)-宏基因组篇

科技资讯 投稿 6800 0 评论

高通量测序的数据处理与分析指北(二)-宏基因组篇

宏基因组篇

前言

我们这里主要以肠道微生物为例,也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本,现在主流的测序方式有两种:一种是16sRNA测序,一种是WGS(Whole Genome Sequencing 全基因组测序。WGS测序数据量更大,所包含的信息更多,能注释出物种-样本的丰度矩阵,也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基,这个小亚基的沉降系数是 16s,故被称为 16s RNA,这个16s RNA有一段非常保守的序列和一段变异序列,可以根据16s RNA 的变异度来进行物种分类,所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。

原理介绍

目前对宏基因组原始数据如何注释到物种的方法有两类主流方法,一类是基于bin进行物种注释的方法,一类是不基于bin进行物种注释的方法

基于bin的物种注释

在宏基因组的原始数据也就是fastq数据中,含有大量的read序列,首先是将read按照序列拼接成contigs,如图所示,上面的的read按照序列重合程度拼接成下面的contigs。

总而言之,bin就是一堆亲缘关系较近的contigs的合集,也可以视为一个物种基因组的草图。

这个计算方式不太确定,推测的,暂时没找到资料

不基于bin的物种注释

150-31+1 个 31-mer, k-mers中的k长度是自定义的,默认是31,然后将这些 k-mers去跟数据库比对,k-mers对上最多的分支就作为这个read的物种分类,如上图,这个序列就是被认为是来自与4号物种的序列。同样的,将每个物种比对上的read数量除以其基因组长度就得到了其丰度。

参考链接

[2] 从CONCOCT入手理解宏基因组binning

[3] kraken注释原理

编程笔记 » 高通量测序的数据处理与分析指北(二)-宏基因组篇

赞同 (38) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽