亚搏亚搏

欢迎光临
我们一直在努力

徐振江:菌群研讨和数据分析怎么做?

咱们好,我是徐振江,来自南昌大学食品科学与技能国家重点试验室。

在这儿我给咱们介绍一下,如安在微生物组学的研讨傍边防止走一些弯路。

微生物组学研讨可以分为以下这 4 个进程。

首要,咱们提出一个科学假说或许说一个科学问题;然后,咱们再来规划一个适宜的研讨计划,来回答这个问题,验证或许推翻科学假说;在施行研讨计划的进程傍边,咱们要防止一些搅扰因子对咱们的生物学剖析的影响;最终拿到数据之后,咱们进行一个数据剖析:将生物信息学的办法运用其间,得到牢靠的生物学定论。

怎样是一个好的科学假说呢?

比方说,假如咱们有爱好来研讨肠道微生物组跟餐后血糖的联系的话,咱们可以提这样一个假说:肠道微生物组是否可以比较好的猜测餐后血糖升高的起伏呢?这是一种假说,对吧?

可是咱们也可以把这个假说更准确一点、精密化一点,咱们可以提这样一个假说:肠道微生物组是否可以猜测汉族成人面食餐后血糖升高的起伏呢?这样一个愈加精密的假说就会框定咱们这样一个科学的研讨的规模,可以让咱们愈加精密化的、更好的来验证这样一个假说,得到更牢靠的、更准确的定论。

有了一个科学假说或许一个科学问题之后,咱们怎么规划研讨计划呢?最简略的便是横断面的研讨。

比方说咱们对一个人群感爱好,对糖尿病患者的肠道微生物感爱好。咱们无法研讨所有的糖尿病患者,可是咱们可以选取一些有代表性的糖尿病患者,将他们的肠道微生物拿过来研讨,研讨他们肠道微生物有什么样的特征。这便是横断面的研讨。

更进一步,咱们想比照健康人跟糖尿病患者之间,他们的肠道微生物有什么样的异同。咱们就可以规划病例对照这样一种研讨计划来进行。当咱们有一些糖尿病患者之后,咱们可以依据他们的年纪、种族和性别,挑跟他们匹配的一些健康人作为对照来进行研讨。

这样的话,咱们就排除了年纪、性别和种族这些要素的搅扰,咱们可以十分精密化地将糖尿病患者的肠道微生物组的改动给提炼出来。

进一步,发现了肠道微生物有什么样的不同之后,咱们就可以进行干涉性的研讨,比方饮食干涉或许药物干涉。想看这种干涉对糖尿病患者有什么影响的话,咱们可以设置不同的试验组,进行不同的饮食或许药物干涉,来进行干涉前、干涉后以及不同的干涉之间的比较。

这种干涉的办法,尽管咱们也可以规划对照,来操控其它要素对各组人群或许动物之间的影响,可是究竟各个样本、各个个别之间仍是有必定的差异。

为了严格操控这种差异,有其他一种研讨计划便是穿插规划。这种研讨计划首要是针对每个个别而进行的。

在试验的每个个别傍边,咱们会进行两种或许两种以上的干涉。在第一种干涉进行之后,咱们会有一个洗改期,将第一次干涉的影响消除去、洗脱掉。然后咱们再进行第2次干涉。这种研讨规划的优点便是可以将其它的和咱们不感爱好的要素都操控在最小的规模之内。

穿插规划的研讨首要是每个人干涉前和干涉后他们自行自我比较,所以就排除了人与人之间的不同、个别与个别之间的不同。这是这种研讨计划的优点。

其他一种研讨计划便是前瞻性行列。这种研讨计划首要是用来研讨,在咱们感爱好的临床结局发生之前,是否可以用肠道微生物或许其它的生物因子来判别每个个其他生物结局、临床结局。

仍然以糖尿病研讨为例,假如咱们想判别,肠道微生物组在糖尿病的发生发展进程傍边起一个什么样的效果,咱们是否可以经过肠道微生物来判别糖尿病的发生?

咱们可以在之前就收集微生物组的样本,然后再盯梢随访。咱们就可以运用他们的肠道微生物来判别、猜测:他究竟在多长时间今后或许说是否会发生糖尿病。这是前瞻性行列的优点——咱们可以预判性的,可以经过预防性的试验手法来进行这种猜测性的研讨。

有了一个研讨计划之后,咱们可以结合咱们常用的一些技能手法来进行研讨。

最常用的或许咱们都知道——扩增子测序、宏基因组测序,或许对代谢组学感爱好的话,便是液相色谱串联质谱。

咱们可以得到一个微生物组,它究竟由哪些微生物组成,它的功用构成是什么姿态的。然后,假如咱们对其间的单菌感爱好的话,可以将这个细菌挑出来进行别离培育,进行基因组的测序,乃至进行一些工程改造,来进一步研讨单菌跟宿主之间的相互效果。

在这个进程傍边,咱们会需求对一些特定的微生物进行肯定定量,这时就可以用 qPCR,或许在细胞层面上进行计算,用流式细胞仪之类的手法。

以上这些都是从功用性的视点来看咱们微生物群落里边究竟有哪些功用。可是它是否具有活性,基因的表达究竟是什么姿态的,其实都是不必定的、不知道的。

为了研讨这些,咱们可以进行宏转录组或许宏蛋白质组的研讨。这些技能手法本钱更高一些,所以运用的也相对而言少一些。可是假如咱们对这些感爱好的话,这些技能手法也是比较老练的。

在进行这些微生物组学的研讨之后,咱们或许要进行更多的、更进一步的宿主跟微生物之间的相互效果的联系的研讨。咱们就可以用到 in vitro 或许 in vivo 的模型,可以用类器官或许无菌动物,或许悉生动物的模型来进行研讨。

在这些研讨施行的进程傍边,会有十分多的搅扰要素影响咱们的成果。我在这就举一个比方。

咱们这儿是相同的样本,在上面两幅图里边,咱们可以用不同的色彩来区别不同的因子对咱们成果的影响。蓝色是表明咱们感爱好的生物因子,比方像疾病或许健康,它们可以很好的区别开来。

假如咱们有其他一个技能层面的搅扰因子,比方说不同的测序批次、不同的样本处理,也会得到这样一个分类的话、它们彻底重合的话,咱们其实就无法判别咱们样本的聚类究竟是由于咱们的疾病形成的,仍是由于咱们的搅扰要素形成的。

可是假如咱们可以将这些样本随机化处理,便是说,不同的搅扰因子随机的发生在咱们的样本傍边,咱们就会得到下面这两幅图。

下面两幅图里边,咱们也可以看出来,生物因子是可以将两类样本区别开来的。在这种状况下,由于搅扰因子是随机化的,所以它就不会跟咱们的生物因子堆叠。咱们就可以比较牢靠的得到定论说,咱们生物因子是影响了咱们微生物组成的构成,它是可以很好的分红两类的,而不是由于其它的搅扰要素形成的。

咱们微生物组学研讨的搅扰要素究竟包含哪些呢?这些搅扰要素其实无处不在,所以咱们在样本收集、在试验施行的进程傍边,都要十分当心。

比方像咱们的样本的收集,它们的保存、处理、测序,都会对咱们样本微生物、最终你得到的 DNA 的成果,会有很大的影响。

比方像 DNA 的提取和扩增、测序渠道以及测序批次,乃至同一个厂商的试剂不同的批次之间都有细小的差异,都会影响咱们最终得到的微生物组成,或许说功用性研讨的差异。

咱们生物信息学也会对咱们最终的成果有必定的影响。假如咱们要对不同的数据集之间整合起来做一个荟萃剖析的话,咱们需求用一致的生物学软件、算法进行一致的处理。得到一个一致的表格、数据之后,咱们再来进行下流的计算剖析跟可视化剖析。

在小分子的代谢组学研讨傍边也是相同的,质谱其实也受十分多的搅扰要素的影响。比方像溶剂的挑选、小分子怎么萃取、电离形式——究竟是正电仍是负电荷的这种不同的电离形式,以及生物信息后边的处理,都会影响咱们代谢组学的成果。

其间一个,咱们或许也听说过一个影响,动物试验最重要的一个搅扰要素便是笼子效应。所谓的笼子效应,便是由于咱们的动物,尤其是小鼠,它们会相互吃粪便,所以养在同一个笼子里边的小鼠,它们的肠道微生物就会愈加的趋同,就会愈加类似。

所以假如你的处理组只要一只笼子的话,你这个处理组跟其他处理组发现有微生物的不同,这种时分的话,你就无法判别你的不同究竟是由于笼子效应形成的,仍是由于你的处理组形成的。

在这儿就十分显着的可以看出来,这儿有三个不同的处理。三个不同的处理组,每个处理组有两个笼子。所以你会看出来,有些笼子,它有些特异性的微生物是只在这个笼子里边呈现,可是没有在处理组的其他笼子里边呈现。这是十分重要的,所以咱们一般在规划试验的时分,每一个处理组至少要设置两个笼子以上的试验动物。

然后,在咱们后边的样本的处理进程傍边,也有一些考虑要素。上面我介绍了其他一个需求十分当心的,便是 DNA 污染。这在一些低生物量的样本傍边,比方像皮肤微生物、口腔微生物以及像胎盘微生物之类的,由于它们的生物量很少,有一点点 DNA 污染的话,它就会在测序成果里边呈现出来。

咱们最近有一项研讨就发现,高通量测序的时分,用 96 孔板进行 DNA 处理、提取、扩增的时分发现,有些 DNA 会从一个孔污染到其他一个孔,发生穿插污染。

咱们怎么来防止这样一种污染呢?其实咱们可以在 96 孔板里边设置许多的对照,包含阳性对照、阴性对照。阳性对照呢,你可以在你的样本傍边,在你的空白对照里边加必定量的你已知的比方像E. coli的 DNA。在阴性对照呢,那就更简略了,你就直接将一个空白的样本,进行相同的操作处理——提取 DNA,进行 DNA 扩增,拿去测序。

在这种阳性对照跟阴性对照设置进程傍边,咱们随机的放在 96 孔板的不同方位,就可以从后续的 DNA 成果傍边、生物信息学办法剖析傍边,就可以判别,究竟有哪些 DNA 是从你周围的孔里边,经过气溶胶或许其它的办法,污染到周围的孔的,以及污染量是多少。咱们都可以从生物信息、从数据的视点来判别。

其他,咱们在这个试验进程傍边,许多时分要考虑究竟要多少样本,对吧?咱们需求归入多少人到人群行列傍边?咱们需求多少个笼子、需求多少只老鼠来进行这个试验?

这儿有一些已知的生物影响因子,以及技能层面的影响因子,对咱们最终定论的影响要素有多大?比方像不同的物种之间、像人跟山公、像人体的不同的部位,这些对咱们的微生物群落的影响是十分大的。所以这些影响要素 effect size仍是比较大的。

其次便是一些年纪、地域不同,还有一些长时间的饮食以及药物的干涉这类影响要素。比较小的影响要素便是其它的一些短期的干涉。在技能层面,咱们的样本处理睬影响十分大,包含样本的保存以及生物信息学。然后试剂不同的批次影响稍细小一点。

所以要依据不同的研讨办法,以及感爱好的问题,来判别咱们究竟需求多少样本,来得到一个牢靠、可以实质性的发现生物学差异的一个样本量。

咱们拿到样本、拿到数据之后,就要进行许多的生物信息学剖析了。

生物信息学剖析其实是现代生物医学傍边十分重要的,也是处于瓶颈的一个进程,由于咱们现在堆集的生物数据量现已越来越大了。可是怎么将不同研讨傍边的数据集整合起来,将这些海量的数据荟萃剖析,如安在其间提炼出有用的生物学定论,现在都是生物信息学的一个瓶颈。

咱们已开发了高效、靠谱、易用的一些算法跟生物信息学东西,来从事微生物组学的研讨。比方 scikit-bio,它便是一个底层的 Python 的软件包,用来支撑后续的不同的生物信息学软件的开发。

还有上一年刚刚宣布出来的 Qiime2,许多不同的插件可以剖析不同的功用,进行可重复的剖析。然后还有 CALOUR、Deblur,可以进行不同的微生物组学的剖析。从上游的 DNA 序列的处理,到中游的计算学剖析,以及到下流的可视化的剖析,都有一系列的东西。

然后生物信息学对感爱好的朋友来说,一个十分重要的数据特色便是 compositionality。所谓的 compositionality,是说基本上咱们大多数研讨傍边所测到的那些微生物的量,都是一个相对的量。

也便是说咱们只知道 Bacteroidetes 它在咱们的样本傍边所占的份额是多少,可是咱们不知道它肯定含量是多少,咱们不知道在原始的样本傍边,究竟有多少个 Bacteroidetes 的微生物细胞在里边。

相对量对咱们的剖析有什么样的影响呢?它的影响其实是十分巨大的。由于在咱们的样本傍边,一个微生物的升高就意味着其他一个微生物在相对量而言它会下降,不论真实状况是怎么样,它在相对丰度就会下降。

所以许多时分,它就会形成一个假阳性的这样强相关的一个成果。所以假如咱们要做差异性丰度剖析,或许说做相关性剖析的时分,咱们就要将 compositionality 的状况考虑进去。

这儿便是一个十分好的比方。这是一项宣布在 2015 年的研讨。他们首要是想看肠道微生物在昼夜节律改动傍边有什么样的不同的行为。

咱们首要看左面的黑线,他们发现 Bacteroidetes 这一组的话,它们有一个显着的节律的改动。在白日的时分,它会开端下降,然后再渐渐升高,到晚上一向抵达最高相对丰度。

其他一组微生物 Firmicutes 呢?它有一个类似于相反的这样一个体现。它在晚上的时分是比较低,白日的时分升高,然后到晚上又下降。

这两组微生物,假如咱们只看相对丰度的话,它有一个十分强的负相关性。可是他们做的比较好的便是,经过其他的手法,他们检测到了肠道微生物里边整个微生物的肯定量是多少。

所以假如将肯定量考虑进去的话,他们就得到右边这样一条赤色的曲线。在肯定量上面,Bacteroidetes 这种微生物,它相同仍是有这样一个节律的改动。可是 Firmicutes 的改动,就不是那么显着了,乃至它跟 Bacteroidetes 的改动有点趋同。假如咱们仔细看的话,它略微有一点点正相关,而不是咱们之前看相对改动的话,它是一个负相关的联系。

这就意味着什么呢?这就意味着,假如咱们想要得到一个牢靠的生物学定论的时分,咱们就需求将微生物的测序进程傍边,无论是从咱们试验的视点得到肯定生物量,仍是从后边生物信息的视点,来将 compositionality 的问题解决掉,咱们才干得到一个牢靠的定论。

这个问题之所以呈现,首要是由于考虑相对丰度的时分,一个微生物的升高就会显得其他一个微生物在相对丰度上下降。尽管在实际状况傍边,它们肯定微生物的量或许不是这样改动的。所以,咱们必定要将 compositionality 的问题,归入到咱们生物信息学剖析的考虑规模傍边。

其他一个咱们需求留意的便是数据的可发掘性以及多面性。咱们需求将不同的计算办法或许说不同的可视化剖析运用到数据傍边。由于咱们的数据在不同的剖析办法傍边呈现出来的成果或许是十分不相同的。

在这儿我也举一个比方。左面这个图得到的定论是,短期的饮食干涉不会改动肠道微生物组。咱们也可以看出来,同一种色彩来自同一个人的样本,它都聚类在一起,不论你的饮食干涉与否,它们都不会相差太大。

可是右边这个图可以看出来,这种根据动物性的饮食计划,尽管只要 4 天的干涉,可是它显着地改动了他们的肠道微生物,所以,从人与人之间的视点来看,它或许不会说改动到大到你跟其他人更类似。可是从其他一个视点来看,假如跟自己从前的肠道微生物的基线来比较的话,仍是有十分大的改动。

所以从数据剖析的视点来看,咱们可以从不同的视点、不同的层面来剖析咱们的数据,或许会得到一些更有意思的定论。

最终,其实微生物组学也遭到其它一些范畴的学者的诟病。其间一个重要的原因便是咱们数据剖析、咱们定论的可重复性。针对这个,咱们其实也做了十分多的生物信息学方面的改善。

比方像最新版的 Qiime2 的软件便是针对这一问题,将得到定论进程傍边的一些运用的数据来历,还有运用的算法跟东西以及设置的参数,都会列到其间。

所以,你假如看到这样一个定论的文件之后,你就可以十分好的依照里边供给的信息可重复地从原始数据得到一个相同的、牢靠的定论。

一起,咱们经过 Jupyter Notebook 以及 RStudio 这一类的剖析渠道,将咱们的数据来历、阐明文档、代码,以及计算办法、可视化得到的图都整合到一个文档傍边。

这样咱们就可以十分好的介绍这个数据为什么做这样的计算剖析,这个计算剖析得到什么样的定论,咱们最终的定论、最终的图是经过什么办法得到的,都可以供咱们公开来审理,就可以得到一个十分好的、可重复性的生物学定论。

最终,我期望经过我方才介绍的这一点,越来越多的学者对微生物组学感爱好。然后经过各种不同的渠道,咱们相互沟通,推进整个范畴的行进。

期望有更多、更谨慎、更有意义的微生物组学的研讨,在越来越多的在文献傍边、在咱们的报导傍边呈现。将咱们在一些谈论傍边看到的:微生物组学研讨可重复性差,“遇事不停,量子力学;机制难寻,肠道菌群”这一类的谈论,都尽早的可以经过更谨慎的研讨将这些都根绝。

最终,感谢咱们的倾听!

赞( 393 )
未经允许不得转载: 亚搏 » 徐振江:菌群研讨和数据分析怎么做?