细胞

注册

 

发新话题 回复该主题

国科风教你单细胞测序12分析流程五 [复制链接]

1#
北京有白癜风专科医院吗 https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E4%B8%AD%E7%A7%91%E7%99%BD%E7%99%9C%E9%A3%8E%E5%8C%BB%E9%99%A2/9728824?fr=aladdin

大家好!我是国科东方绿豪克,我是生命科学方向的博士。

进行完单细胞数据标准化后,就要进行后续的降维(DimensionalityReduction)和细胞亚群的鉴定等后续分析。但在进行这些后续分析前,还需要进行scRNA-seq数据的imputation(ImputationofScRNA-seqData)。

那么为什么要进行单细胞数据的imputation呢?这其中主要与Dropouts有关,因为在单细胞RNA-seq实验过程中,会产生因原始RNA扩增失败而导致的缺失值(droputs)。

前面的内容已经讲过,dropouts主要跟实验选择的方案有关,也与每个细胞测序的reads量相关。因为实验过程中产生的dropouts,导致后续分析中增加了细胞间的变异。同时对每个基因而言,导致基因表达分析失去真实性,也对基因间调控网络的分析存在误差。这些无法检测到dropouts,对后续的分析将有很大的影响,因此需要采用一些算法来进行imputation,从而保证下游分析的正确性。

下面我给大家介绍集中imputation的方法,imputation是一种用替代值替换缺失数据的有效方法。

1.SAVER:

该方法通过表达恢复进行单细胞分析,该方法基于贝叶斯模型,借用跨基因和细胞的信息来插补零值并改善所有基因的表达(如使用质量控制后的具有UMI计数的scRNA-seq数据)。

使用SAVER后,利用Seurat对参考、观察和恢复的数据集进行细胞聚类,SAVER的聚类准确性要明显高于MAGIC和Sclmpute(这两种方法后面会介绍)。同时对小鼠视觉皮层细胞数据进行分析,利用SAVER进行imputation后,可以清晰地区分各种亚型细胞类群,而未进行SAVER的数据,则几乎无法区分亚型。

2.MAGIC:

MAGIC(Markovaffinity-basedgraphimputationofcells)方法基于马尔可夫亲和力的细胞图插补法,通过数据扩散的方式在相似细胞间共享信息。

下图为MAGIC的插补流程,利用MAGIC方法可以恢复数据中较精确的表型结构,使后续的发育轨迹和聚类都可以有很好的结果。同时,该方法还在不同的生物系统和测量技术中得以验证,表明MAGIC是进行数据imputation良好的工具。

3.Sclmpute:

Sclmpute相比SAVER和MAGIC,可以在不引入新的偏差的情况下计算dropout值。该方法考虑到SAVER和MAGIC可能将细胞中未受dropout影响的基因进行恢复,所以sclmpute利用混合模型来定位可能的缺失值,之后对其进行插补。具体的原理如下图所示:

利用模拟数据进行评比,Sclmpute较MAGIC和SAVER,在进行完imputation后,细胞类群的分析结果更好。

同时,在PBMC数据集中利用Sclmpute进行imputation后,细胞亚群的分析结果有较为明显的提升,也表明该方法具有很好的imputation效果。

分享 转发
TOP
发新话题 回复该主题