GSEA分析丨同一份表达,不一样的富集

2023-11-28 13:10:02 字數 2871 閱讀 1266

之前有介绍不同的富集方式:(理解富集那一期),在常见的差异基因富集以外,今天给大家详解gsea富集。

传统的对于通路的富集方式(kegg富集),针对的是差异基因,当然我们也可以基于上调或下调差异基因进行针对性的富集,但是依然是基于差异基因,即这些差异与那些通路有关;那么有没有一种富集方式可以站在通路的角度来回答某个通路的整体变化或表现形式?gsea分析应运而生。

什么是gsea分析

gsea(gene set enrichment analysis):基因集富集分析,由broad institute研究所提出的一种富集方法,同时还提供对应的分析软件gsea。用以评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对于表型的贡献。

gsea的原理

给定一个排序的基因表l和一个预先预定的基因集s(如某个通路的基因或同类型注释的基因等);gsea通过判断s中的部分是在l中随机分布还是分布于顶端或底端来判定是否存在队表型的贡献,如果s的成员显著聚集在l的顶端或底端,则说明其对于表型具有贡献。

简单理解,gsea根据差异倍数值对基因进行由大到小排序,用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因,其底部是下调的差异基因。如果在顶部富集则可以说在总体趋势下该基因集上调,反之则下调。

图1.gsea原理。

gsea中的基本概念

计算富集得分 (es, enrichment score).es代表基因集成员s在排序列表l的两端富集的程度。计算方式是,从基因集l的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度)是相关的。富集得分es最后定义为最大的峰值。正值es表示基因集在列表的顶部富集,负值es表示基因集在列表的底部富集。

评估富集得分(es)的显著性。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(es)出现的可能性。

多重假设检验矫正。首先对每个基因子集s计算得到的es根据基因集的大小进行标准化得到normalized enrichment score (nes)。随后针对nes计算假阳性率。

leading-edge subset,对富集得分贡献最大的基因成员。

gsea结果简述

gsea中最常见的就是如下图例:

图2.gsea例图。

其中可以看做三个部分:

第一个部分为enrichment score的折线图。纵轴为es,峰值即为该基因集的enrichment score峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,也可以与第二部分对应。

第二部分为hits gene,每个竖线对应参与分析的每个基因。

第三部分为所有基因的rank分布,简单理解就是排序后的一个fc值。

gsea结果分析

能看懂gsea基本结果后,我们就可以进一步来确定核心基因,我们再次以一个图例来进行简读。

图3.gsea解析图。

对于峰值(enrichment score)来看,我们首先需要判断其正负,对于enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。如上图,峰值为正,则核心基因为峰值之前的基因,反之则为峰值之后如下图。

图4.下调趋势gsea图例。

总结

我们需要理解gsea分析与普通富集分析的区别,主要是在与是聚焦于差异基因还是聚焦于整体通路。gsea最大的方向在与解决可能由于关注差异基因导致的遗漏,比如我们常说的差异不显著并不能代表其没有生物学意义,有可能一个节点的改变导致后续基因都存在下调的趋势,但是并不一定下游每个节点都是强烈的差异改变。虽然如此我们还是需要明确,不同的富集方式最终还是应该立足于解决科学问题,而且并不能编造差异,条条大路通罗马,gsea和常规富集分析就类似于不同的两条车道,但是目的地是一致的,如果真的有差异,往往gsea和富集分析的结果会同时聚焦到对应通路。

参考文献:

subramanian, ar**ind et al. “gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.” proceedings of the national academy of sciences of the united states of america vol. 102,43 (2005): 15545-50.

转录组不求人丨一文了解富集分析

转录组的分析除了差异分析以外,最常听见的词肯定就是富集,无论是新基因的富集还是差异基因的富集等等,富集出现在转录组的方方面面,那么什么是富集?富集 enrichment 在转录组分析中是一个经常听到的术语。富集分析是用于确定在特定生物学过程 功能或通路中显著富集的基因集合。通过富集分析,可以了解这些...

充电站利润分析报告 一份报告,一个未来!

充电站利润分析报告 一份报告,一个未来!随着电动汽车的日益普及,充电站作为能源补给的重要基础设施,其建设和运营日益受到关注。本文将对充电站利润进行分析,旨在为充电站投资者和建设者提供有价值的参考。一 充电站类型及市场现状。充电站按建设位置可分为公共充电站和专用充电站。公共充电站面向社会车辆,提供快速...

如何用一句简短的话,表达那份深深的爱意?

遇见你,是我一生中最美好的意外。在一个阳光明媚的午后,小芳踏进了那家她从未光顾过的咖啡馆。她的眼睛被一束柔和的阳光所吸引,那束阳光正好照在一位年轻人的脸上。他的眼神里透露出一种深邃的忧郁,让小芳情不自禁地驻足观望。那一刻,仿佛时间都停止了,她的心跳加速,脸上泛起一抹红晕。.我们相识相知,却发现彼此有...