高通量测序的数据处理与分析指北(二)-宏基因组篇

宏基因组篇

前言

我们这里主要以肠道微生物为例，也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本，现在主流的测序方式有两种：一种是16sRNA测序，一种是WGS(Whole Genome Sequencing 全基因组测序。WGS测序数据量更大，所包含的信息更多，能注释出物种-样本的丰度矩阵，也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基，这个小亚基的沉降系数是 16s，故被称为 16s RNA，这个16s RNA有一段非常保守的序列和一段变异序列，可以根据16s RNA 的变异度来进行物种分类，所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。

原理介绍

目前对宏基因组原始数据如何注释到物种的方法有两类主流方法，一类是基于bin进行物种注释的方法，一类是不基于bin进行物种注释的方法

基于bin的物种注释

在宏基因组的原始数据也就是fastq数据中，含有大量的read序列，首先是将read按照序列拼接成contigs，如图所示，上面的的read按照序列重合程度拼接成下面的contigs。

总而言之，bin就是一堆亲缘关系较近的contigs的合集，也可以视为一个物种基因组的草图。

这个计算方式不太确定，推测的，暂时没找到资料

不基于bin的物种注释

150-31+1 个 31-mer, k-mers中的k长度是自定义的，默认是31，然后将这些 k-mers去跟数据库比对，k-mers对上最多的分支就作为这个read的物种分类，如上图，这个序列就是被认为是来自与4号物种的序列。同样的，将每个物种比对上的read数量除以其基因组长度就得到了其丰度。

参考链接

[2] 从CONCOCT入手理解宏基因组binning

[3] kraken注释原理

编程笔记 » 高通量测序的数据处理与分析指北(二)-宏基因组篇