细胞

注册

 

发新话题 回复该主题

NatCommun用于推断单细胞转录 [复制链接]

1#
专业的白癜风治疗医院 http://bdfyy999.com/

编译

姜晶

审稿

任宣百

本文介绍由美国加州大学的JoshuaStuart和HongxuDing共同通讯发表在NatureCommunications的研究成果:本文作者提出了一个新的稀疏变分自编码器架构,VAEEnhancedbyGeneAnnotations(VEGA),其解码器内的线路反映用户提供的基因模块,为隐变量提供了直接的可解释性。作者使用通路、基因调控网络和细胞类型标识作为基因模块定义其潜在空间,来证明VEGA在不同生物环境中的性能。VEGA成功地概述了三个内容,分别是(1)细胞对治疗的特异性应答机制,(2)关键调节子的状态,以及(3)揭示了发育细胞中的细胞类型和细胞状态标识。该方法可以作为一个解释性的生物学模型用于开发和药物治疗实验。

1

简介

单细胞RNA测序(scRNA-Seq)技术的最新进展使细胞状态的表征达到了前所未有的规模和分辨率。在分析单细胞复杂转录组模式的许多框架中,人工神经网络(ANN)如自编码器(AE)已成为强大的工具。AE是神经网络,将输入数据集转换为解码表示,同时最大限度地减少信息丢失。AEs架构设计的多样性使其适合解决scRNA-Seq分析的各种重要挑战,例如降维、聚类和数据去噪。最近,变分自编码器(VAE)等深度生成模型已被证明对于单细胞转录组的建模非常有用,例如scVI和scGen。当标准AEs学习重建输入数据集时,深度生成架构显式建模并学习真实的数据分布,这使其能处理更广泛的查询集。虽然深度生成模型在建模任务中表现出很好的性能,但它们通常缺乏可解释性,因此无法提供具有生物学意义的转录组的潜在表示。

整合基因模块的先验知识有助于其可解释性且已成功应用于转录组学数据。DCell是一种深度神经网络,它整合了有关细胞过程中涉及的分子子系统的分层信息,以指导监督学习任务。这样的模型对预测有着丰富的生物学解释,但该模型仅适用于预测表型结果。另一方面,f-scLVM是一种贝叶斯分层模型,可以将潜在因子活性推断为先验特征基因模块。虽然这种方法能够以可解释的方式对单细胞转录组进行建模,但推理算法的计算成本以及缺乏对样本外数据的推理,因此需迫切开发更有效的方法。

因此作者提出了VAEenhancedbygeneannotations(VEGA),一个具有稀疏线性解码器的VAE。VEGA提供了一个可解释的潜在空间来表示各种生物信息,例如,生物通路的状态或转录调节子的活性。具体来说,VEGA的两个主要研究范围:(1)在可解释的潜在空间上编码数据和(2)推断样本外数据的基因模块活性。

2

结果

VEGA的架构设计

为了创建一个易于解释的VAE,作者提出了一种新的架构,称之为VEGA,其中解码器(生成部分)的神经网络的连接由基因注释数据库(例如GeneOntology,PANTHER,MolSigDB,或Reactome)中记录的基因模块指导的(图1a)。与以前的方法相比,VEGA实现了一个稀疏架构,它明确地反映了有关基因调控的知识。VEGA使用基因成员掩码M来选择解码器层中可训练权重的子集,这些权重由给定基因模块集决定。将掩码用于连接预测输出特征的权重,以产生对隐变量层的解释,其中每个隐变量被视为特定的基因模块,以下称为基因模块变量(GMV)。具体来说,只有当输出基因被注释为一个特定基因模块的成员时,VEGA的生成部分(解码器)才会保留从GMV到该基因的链接。这种设计的两个主要优点是(1)隐变量可以直接解释为生物模块的活性和(2)基因模块规范的灵活性使其能够推广到如通路、基因调控网络、甚至细胞类型,并且可以从几个精选的基因集数据库(例如MSigDB、Reactome通路、推断的GRN)中获取。此外,VEGA在其潜在空间中整合了协变量的信息。这可用于减轻批次效应,正如之前的深度生成模型所证明的那样(图1a)。

图1设计具有可解释潜在空间的新VAE架构

在可解释的潜在空间上概括生物信息

作者探索VEGA是否可以通过将其应用于已发表的外周血单核细胞(PBMC)数据集来概括生物通路的状态。作者首先发现VEGA能够捕获细胞类型和刺激状态(图1b),且VEGA在潜在空间中有捕获通路活性的能力(图1c、d)。这表明VEGA的GMV反映了PBMC中主要生物学通路,因此可能有助于其他数据集将细胞映射到可解释的空间中,从而允许在细胞过程水平上研究细胞类型特异性模式。

作者接下来提出了与Lopez等人工作类似的贝叶斯假设检验程序用于研究GMV活性的差异。作者在Kang等人的数据集上(包含stimulated和control组先天免疫细胞)发现了stimulated和control之间的差异活性GMV(图1e)。作者比较GMVBF(贝叶斯因子)与标准GSEA的FDR值,发现GSEA错过了先天免疫细胞中色氨酸分解代谢激活(图1f)。总体而言,对基因集大小偏差而言,VEGA比GSEA鲁棒性更强(图1f)。

药物治疗的生物应答研究

研究VEGA是否可以在癌细胞系的实验中检测药物应答模式。为此,作者收集了97种癌细胞系在五种不同条件下的单细胞数据。作者通过结合药物治疗数据集和对照组为每种不同药物治疗训练一个模型(总共四个模型),用MSigDB的hallmark基因集初始化VEGA的GMV。每个模型都能够在GMV空间中分离细胞系和治疗条件,并且对于所有不同实验条件下的药物应答模式,本文呈现的结果与之前的分析结果一致,证明VEGA的GMV可以在大规模实验中概述药物应答的模式(图2a-c)。

胶质母细胞瘤的基因调控分析揭示了肿瘤细胞的分层

如前所述,VEGA的优势之一是GMV连通规范的灵活性,因为可以在解码器中使用任意基因模块。转录因子通常在许多生物学环境中严格监管基因表达,分析转录调节子的活性对于理解细胞类型或疾病等生物状态很重要,因为它们的活性失调会对基因表达和表型产生巨大影响。为此,作者研究使用关键转录调节子作为GMVs是否有助于理解单细胞胶质母细胞瘤(GBM)数据集背景下的潜在GRN。作者使用了Carro等人报道的GBMARACNe网络指导模型的结构设计。训练后,发现先前注释的细胞类型在潜在空间中分离良好(图2d)。检测STAT3和OLIG2的活性,因为它们分别是间充质和原神经GBM亚型的已知关键调节子,它们的GMV活性在肿瘤细胞中主要反相关(图2e)。

图2潜在空间规范的灵活性

揭示了关键细胞过程和转录因子的活性

结合细胞类型和细胞状态表示完善皮质类器官发育分析

现代细胞生物学的一个巨大挑战是在单个细胞的水平上识别和定义细胞类型和细胞状态。在典型的单细胞研究中,已知一些“marker集”,每个集包含一个基因列表,这些基因具有感兴趣的细胞类型的期望表达模式。作者在此探索这些marker集中的信息是否可用于VEGA以生成细胞类型和细胞状态的解耦表示。

作者将VEGA应用于Field等人在皮质类器官的早期发育过程中检测的细胞数据集,原研究中定义的所有主要细胞类型作为GMVs(图3a)。训练后,作者发现每一种细胞类型GMVs的推断活性正确地识别了细胞的三个主要子群(图3b-d)。此外,使用GMVBFs可以为未知clusters注释细胞类型(图3e)。为了研究VEGA是否可以将细胞类型标识与细胞状态分开,作者将数据集投影为两个部分:(1)代表神经上皮marker集的细胞类型GMV和(2)代表细胞周期有丝分裂通路活性的细胞状态GMV(图3f)。作者发现MKI67的表达与细胞周期有丝分裂通路GMV的活性密切相关(图3g)。总之,这些结果证明了VEGA可为不同细胞群推断细胞类型和状态。

图3在皮质类器官的早期发育中解耦细胞状态和细胞类型

推理过程可推广到样本外数据

为了探索VEGA是否可以推广到训练时看不见的数据(样本外数据)上,作者在两种情况下评估VEGA。第一种情况:通过在训练时保留(细胞类型、条件)对来衡量VEGA推断的生物学推广。第二种情况:通过对一个数据集(研究A)进行训练,然后在仅包含对照细胞的第二个数据集(研究B)上进行评估,从而估计VEGA推断的技术推广。

对于生物学推广测试,作者首先检查样本外stimulatedCD4T细胞中干扰素-α/β信号通路GMV活性的分布,与样本内CD4T细胞中推断的活性相匹配(图4a)。为了对样本外和样本内细胞之间推断的潜在空间进行更系统的比较,作者在(1)stimulated样本内细胞和给定细胞类型的对照细胞和(2)stimulated样本外细胞和相同细胞类型的对照细胞,之间使用不同的BF过程,并检查前50个差异活性GMV之间的overlaps的数量(图4b)。结果表明样本内和样本外差异活性GMVoverlap一样多。为了进一步评估数据重建的能力,作者测量了样本内和样本外情况下原始数据和解码数据之间的R2(图4c)。作者发现R2在样本外中仅略有下降,这证实了该模型能够推广到在相似实验条件下产生的看不见的数据。

对于技术推广测试,作者再次检查了研究B编码的对照CD4T细胞的干扰素-α/β信号通路GMV活性分布与研究A对照CD4T细胞的匹配(图4d)。作者还探索研究A和研究B的对照细胞在“one-vs-rest”不同设置下每个细胞类型的前50个差异GMV是否有重叠(图4e)。作者发现研究A的前50个差异GMV中平均有67%与研究B重叠,这表明该模型可以推广到训练时未见过的研究。然后作者研究该模型是否可以使用推断的潜在空间来准确重建两个研究的原始表达谱。作者发现对于大多数细胞类型,研究B的原始细胞和重建细胞之间的R2尽管低于研究A的R2,但改善了研究A与研究B的表达谱之间的基线相关性(图4f)。

图4将VEGA架构推广到样本外数据

3

总结与讨论

在这项研究中,作者介绍了一个新的VEGA架构,其解码器受已知生物学启发,可以在单个细胞水平上推断各种基因模块的活性。通过将单细胞转录组学数据编码到先验指定的可解释潜在空间中,作者的方法提供了一种快速有效的方法来分析不同环境下各种biologicalabstractions的活性。VEGA在潜在空间规范方面的灵活性为分析生物模块的活性铺平了道路。作者说明了如何使用VEGA在对照和实验扰动条件下同时研究细胞类型和细胞亚群的细胞状态。此外,解码器连接的权重提供了隐变量与原始特征之间关系的直接解释性。作者进一步注意到,可以使用广泛应用的scVI和线性scVI相同的原理来修改VEGA的架构,以便它可以处理count数据而不是标准化的表达谱。

当前架构的明显局限性:模型使用稀疏、单层解码器,阻碍了泛化性和鲁棒性的进一步提高。

未来方向:VEGA可用于根据癌症中的通路表达对药物进行优先排序,因为研究特定细胞群的反应可能会得到药物敏感性和耐药性。将药物应答预测模型与此类解释性模型相结合,有助于设计新的治疗策略。

参考资料

Seninge,L.,Anastopoulos,I.,Ding,H.etal.VEGAisaninterpretablegenerativemodelforinferringbiologicalnetworkactivityinsingle-celltranscriptomics.NatCommun12,().

分享 转发
TOP
发新话题 回复该主题