近几年几篇高分文献对跨物种比较转录组方法的应用及研究领域,感兴趣的可自行查看原文献:
Cell_2019_跨物种单细胞测序揭示小胶质细胞基因表达谱进化特征
Science_2020_人类猪小鼠大脑中的蛋白编码基因图谱
Science_2018_跨人类和猕猴大脑发育的时空转录组差异
Cell_2021_African lungfish genome sheds lighton the vertebrate water-to-landtransition
Cell_2021_原始辐鳍鱼类基因组的解析发现登陆的遗传基础已经在硬骨鱼类祖先出现
看完上述文献可知和种内比较转录组相比,跨物种(种间)比较转录组要复杂的多,主要体现在背景基因总数、测序深度、管家基因表达谱和可能的其他因素差异等;分析流程主要分为两步:1、直系同源基因的查找。此处大部分文献使用 one-to-one orthologs (及双向最优比对),如果物种跨度较大可选较为宽松的阈值,期望值1e-10,覆盖度50%;如果物种亲缘关系较为接近就选较严的阈值。也有文献先获得直系同源基因列表,一个gene list及为一个基因(matagene),该基因的表达量为gene list所有基因表达量的和(基因拷贝数差异)。2、合并后基因表达矩阵的标准化。标准化方法各异,方法之一:首先在种内计算出FPKM、RPKM、TPM等,种内TMM标准化,然后根据背景基因集合并数据得到新的表达矩阵再使用TMM标准化。也有直接quantile normalization using the R package preprocessCore(具体R实现可参考下篇文章),标准化方法的选择对结果的影响很大,可自行尝试适合自己的标准化方法。另外,不同数据来源需要去除批次效应,不然进行PCA和样本相关性分析时会将不同数据来源的样本聚到一块;数据的适当缩放也是必要的,一些聚类方法会将极值带来的影响放大化,使结果不准确。下图是Science_2020_人类猪小鼠大脑中的蛋白编码基因图谱分析流程。

Leave a Reply