不管芯片数据还是测序数据,得到的差异表达基因DEGs都是独立的基因,如果直接对这些基因分析叫单基因分析,这种分析会有很多弊端,比如:
- 因为噪音的存在,结果本身就是不可靠的
- 因为对DEGs个人取舍条件的不同,也会造成结果不可靠
- 工作量增大
- 只关注单个基因而忽视基因之间的相互作用,这就很难揭示具体生物学过程,或不可靠
所以要对这些DEGs进行整合分析,这也是下游分析的关键,也就是要发现这些DEGs所揭示的生物学意义。
1聚类分析
就是把表达模式相似的基因集合到一起,然后以基因集的形式进行合并分析。通俗来说,就是把一整个相对散乱的差异基因根据表达模式相似性,划分为不同的集合,也就是后续对这些集合进行分析。通常的聚类方法有K均值算法,层次聚类,自组织映射等。
2富集分析
注意:GSEA分析RNA-seq数据时,要对基因表达量进行标准化处理。